實(shí)例

靜臥沉思 2017-04-25

展開(kāi)全文

關(guān)注天善智能，走好數(shù)據(jù)之路↑↑↑

歡迎關(guān)注天善智能微信公眾號(hào)，我們是專(zhuān)注于商業(yè)智能BI，大數(shù)據(jù)，數(shù)據(jù)分析領(lǐng)域的垂直社區(qū)。

前言

你的假設(shè)可信嗎？在我們實(shí)際工作中，事物的個(gè)體差異總是客觀存在的，抽樣的誤差也就無(wú)可避免。當(dāng)一些樣本均數(shù)與已知的總體均數(shù)有很大的差別時(shí)，一般來(lái)說(shuō)有兩點(diǎn)主要原因：一是抽樣誤差的偶然性，二是樣本來(lái)自不同的總體，而使試驗(yàn)因素不同。這個(gè)時(shí)候，我們運(yùn)用假設(shè)檢驗(yàn)方法就能夠排除誤差的影響，區(qū)分差別在統(tǒng)計(jì)上是否成立，并了解誤差時(shí)間發(fā)生的概率。

參數(shù)估計(jì)和假設(shè)檢驗(yàn)

統(tǒng)計(jì)推斷是由樣本的信息來(lái)推測(cè)母體性能的一種方法，它又可以分為兩類(lèi)問(wèn)題，即參數(shù)估計(jì)和假設(shè)檢驗(yàn)。

參數(shù)估計(jì)（parameter estimation）是根據(jù)從總體中抽取的樣本估計(jì)總體分布中包含的未知參數(shù)的方法。人們常常需要根據(jù)手中的數(shù)據(jù)，分析或推斷數(shù)據(jù)反映的本質(zhì)規(guī)律。即根據(jù)樣本數(shù)據(jù)如何選擇統(tǒng)計(jì)量去推斷總體的分布或數(shù)字特征等。統(tǒng)計(jì)推斷是數(shù)理統(tǒng)計(jì)研究的核心問(wèn)題。所謂統(tǒng)計(jì)推斷是指根據(jù)樣本對(duì)總體分布或分布的數(shù)字特征等作出合理的推斷。它是統(tǒng)計(jì)推斷的一種基本形式，是數(shù)理統(tǒng)計(jì)學(xué)的一個(gè)重要分支，分為點(diǎn)估計(jì)和區(qū)間估計(jì)兩部分。

在數(shù)據(jù)分析工具中，假設(shè)檢驗(yàn)也被稱(chēng)為顯著性檢驗(yàn)，是統(tǒng)計(jì)推斷中的一種重要的數(shù)據(jù)統(tǒng)計(jì)方法。它首先對(duì)研究總體的參數(shù)做出某種假設(shè)，然后從總體中抽取樣本進(jìn)行觀察，用樣本提供的信息對(duì)假設(shè)的正確性進(jìn)行判斷，從而決定是否成立。若觀察結(jié)果與理論不符，則假設(shè)不成立，若觀察結(jié)果與理論相符，則認(rèn)為沒(méi)有充分的證據(jù)表明假設(shè)錯(cuò)誤。假設(shè)檢驗(yàn)一般有如下三個(gè)步驟：

1、建立假設(shè)，確定檢驗(yàn)水平。
2、選定檢驗(yàn)方法，計(jì)算統(tǒng)計(jì)量大小。
3、根據(jù)統(tǒng)計(jì)量確定P值，做出推斷統(tǒng)計(jì)。

在這三個(gè)步驟中，第2個(gè)步驟中的檢驗(yàn)方法是十分重要的、因?yàn)闄z驗(yàn)的樣本類(lèi)型、自變量的分布情況、研究的目的都不同，所以只有選擇合適的檢驗(yàn)方法才能計(jì)算出來(lái)統(tǒng)計(jì)量。

假設(shè)檢驗(yàn)的主要方法

假設(shè)檢驗(yàn)的方法主要可分為：t-檢驗(yàn)、z-檢驗(yàn)和F-檢驗(yàn)。（建議查看統(tǒng)計(jì)學(xué)相關(guān)知識(shí)）

t-檢驗(yàn)：T檢驗(yàn)，亦稱(chēng)student t檢驗(yàn)（Student's t test），主要用于樣本含量較?。ɡ鏽<>

z-檢驗(yàn)：Z檢驗(yàn)（Z Test）是一般用于大樣本（即樣本容量大于30）平均值差異性檢驗(yàn)的方法。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來(lái)推斷差異發(fā)生的概率，從而比較兩個(gè)平均數(shù)的差異是否顯著。在國(guó)內(nèi)也被稱(chēng)作u檢驗(yàn)。

當(dāng)已知標(biāo)準(zhǔn)差時(shí)，驗(yàn)證一組數(shù)的均值是否與某一期望值相等時(shí)，用Z檢驗(yàn)。

z檢驗(yàn)又叫u檢驗(yàn)

F-檢驗(yàn)：F檢驗(yàn)又叫方差齊性檢驗(yàn)。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。

從兩研究總體中隨機(jī)抽取樣本，要對(duì)這兩個(gè)樣本進(jìn)行比較的時(shí)候，首先要判斷兩總體方差是否相同，即方差齊性。若兩總體方差相等，則直接用t檢驗(yàn)，若不等，可采用t檢驗(yàn)或變量變換或秩和檢驗(yàn)等方法。

其中要判斷兩總體方差是否相等，就可以用F檢驗(yàn)。

實(shí)例應(yīng)用

實(shí)例應(yīng)用：應(yīng)用t-檢驗(yàn)分析新藥的有效性

1、案例描述

某藥廠研發(fā)了一種能夠降低血壓的新藥，現(xiàn)在為了了解該藥的療效，隨機(jī)抽取了15名高血壓患者，并得到他么在使用該藥治療前后的舒張壓數(shù)據(jù)，如下圖所示，現(xiàn)在需要判斷：該藥是否有效？如果有效，是否能夠讓高血壓患者的舒張壓平均降低6.5mmHg？

實(shí)例-Excel數(shù)據(jù)分析之假設(shè)檢驗(yàn)中的t-檢驗(yàn)應(yīng)用

2、案例分析

根據(jù)上面的數(shù)據(jù)，我們可以使用Excel中的假設(shè)檢驗(yàn)方法來(lái)判斷（以前我用手算過(guò)，好累呀，有了Excel等工具，很簡(jiǎn)單方便，省時(shí)省力）。分析工具中的假設(shè)檢驗(yàn)方法有多種，使用不同的方法，觀察值在檢驗(yàn)前后的關(guān)系就不同，所以需要先選擇合適的方案。

3、操作分析

由于樣本量較小，且樣本值中的觀察值存在治療前后的配對(duì)關(guān)系，所以可先使用“t-檢驗(yàn)：平均值的成對(duì)二樣本分析”方法判斷該藥的有效性，我們首先假設(shè)該藥無(wú)效（一般先否定，然后計(jì)算檢驗(yàn)否定原假設(shè)（如果正確的話(huà)）），然后進(jìn)行假設(shè)檢驗(yàn)。

第1步：選擇分析工具（老朋友了）?！皵?shù)據(jù)分析”——“分析工具”——“t-檢驗(yàn)：平均值的成對(duì)二樣本分析”，確定即可。如下圖所示：

實(shí)例-Excel數(shù)據(jù)分析之假設(shè)檢驗(yàn)中的t-檢驗(yàn)應(yīng)用

第2步：設(shè)置相關(guān)參數(shù)。在“t-檢驗(yàn)：平均值的成對(duì)二樣本分析”對(duì)話(huà)框中，設(shè)置“輸入”組中“變量1的區(qū)域”為“$B$2:$B$17”，“變量2的區(qū)域”為“$C$2:$C$17”，選擇“標(biāo)志”復(fù)選框，設(shè)置“α”值為“0.05”，在“輸出選項(xiàng)”下單擊“輸出區(qū)域”，設(shè)置為“$E$2”，最后確定。如下圖所示：

實(shí)例-Excel數(shù)據(jù)分析之假設(shè)檢驗(yàn)中的t-檢驗(yàn)應(yīng)用

第3步：設(shè)置假設(shè)平均差。重復(fù)上一步驟，其他參數(shù)不變，這次設(shè)置“假設(shè)平均差”為“6.5”，“輸出區(qū)域”為“$I$2”。這一步，“假設(shè)平均差”為期望中的樣本均值的差值，如果該值設(shè)為0，即假設(shè)樣本均值相同。

實(shí)例-Excel數(shù)據(jù)分析之假設(shè)檢驗(yàn)中的t-檢驗(yàn)應(yīng)用

第4步：顯示分析結(jié)果。做完之后，我們就可以看到t-檢驗(yàn)的結(jié)果：H列左側(cè)為第2步中檢驗(yàn)該藥是否有效的數(shù)據(jù)結(jié)果，H列右側(cè)為第3步中檢驗(yàn)該藥是否能讓舒張壓降低6.5mmHg的檢驗(yàn)結(jié)果。如下圖所示：

實(shí)例-Excel數(shù)據(jù)分析之假設(shè)檢驗(yàn)中的t-檢驗(yàn)應(yīng)用

4、決策分析

上面的案例中，由于沒(méi)有充分的理由判斷該藥治療后的總體均數(shù)會(huì)大于或小于治療前的舒張壓均值，所以在檢驗(yàn)過(guò)程中，前面的t-檢驗(yàn)我們采用的是雙側(cè)檢驗(yàn)。

從分析結(jié)果看到：H列左側(cè)的檢驗(yàn)結(jié)果中，tStat= 4.211，P雙尾=0.00087，t雙尾臨界=2.145，當(dāng) t雙尾臨界時(shí)，假設(shè)成立，而這個(gè)案例中，檢驗(yàn)結(jié)果tStat >t雙尾臨界，說(shuō)明該結(jié)果拒絕原假設(shè)，也就是說(shuō)該藥有效，此外，我們還能看到P雙尾=0.00087<>

由于已經(jīng)確定該藥有效，那么再判斷該藥能否將舒張壓平均值降低6.5mmHg，所以，后面的t-檢驗(yàn)采用的是單側(cè)檢驗(yàn)，這里我們?cè)O(shè)置了假設(shè)平均差，上圖中紅框內(nèi)，檢驗(yàn)結(jié)果tStat=0.205< t單尾臨界="1.761，說(shuō)明該假設(shè)成立，即該藥能夠讓高血壓患者的舒張壓平均降低6.5mmHg。結(jié)果P單尾=0.42">α=0.05也說(shuō)明了該假設(shè)成立。

小結(jié)

今天學(xué)習(xí)一下Excel中如何進(jìn)行t-檢驗(yàn)，數(shù)據(jù)分析更進(jìn)一步。希望通過(guò)上面的操作能幫助大家。如果你有什么好的意見(jiàn)，建議，或者有不同的看法，我都希望你留言和我們進(jìn)行交流、討論。

歡迎關(guān)注微信公眾號(hào)，訪(fǎng)問(wèn)更多精彩：AiryData。

對(duì)商業(yè)智能BI、大數(shù)據(jù)分析挖掘、機(jī)器學(xué)習(xí)，python，R等數(shù)據(jù)領(lǐng)域感興趣同學(xué)加：tstoutiao，邀請(qǐng)您加入頭條數(shù)據(jù)愛(ài)好者交流群，數(shù)據(jù)愛(ài)好者們都在這兒。

實(shí)例-Excel數(shù)據(jù)分析之假設(shè)檢驗(yàn)中的t-檢驗(yàn)應(yīng)用

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：靜臥沉思 > 《美文》

舉報(bào)/認(rèn)領(lǐng)