最近在圖書館借了本《R和ASReml-R統(tǒng)計分析教程》,林元震和陳曉陽主編的關(guān)于R的書籍,當(dāng)時看上這本書的原因在于里面以統(tǒng)計學(xué)知識為主,作為R語言實戰(zhàn)的良好補充,雖然R語言實戰(zhàn)是一本相當(dāng)詳實的介紹R語言的書,但是其中的統(tǒng)計學(xué)原理往往一筆帶過(雖然本書也不是很詳盡),但是作為一個數(shù)據(jù)分析從業(yè)人員,我感覺對于很多統(tǒng)計理論,達到可以講明白原理和邏輯就可以,具體的計算過程和推導(dǎo)反而在其次,而最重要的是在什么情況下應(yīng)用什么算法和模型,這才是最關(guān)鍵的。 這篇博客分享下對方差分析的理解。 其實在之前的文章中,對t檢驗相關(guān)說明比較多,而方差分析和t檢驗方法的功效和作用非常相近,網(wǎng)上對此也不是很詳盡,下面首先說說我的理解。 這里說的t檢驗是雙樣本t,也就是兩組數(shù),看這兩組數(shù)據(jù)對應(yīng)的總體差異;方差檢驗也是看兩組(及以上)的數(shù)據(jù)見有沒有差異,那么其實二者是不是一樣呢? 其實在某種程度是一樣的。下面的情況分為兩個維度:檢驗的組數(shù)和組內(nèi)方差 情況1:僅有兩組,且組內(nèi)方差相等 在這種情況下,t檢驗和F檢驗相等 我們看下F檢驗的原理,F(xiàn)檢驗是看F分布,而F value是SSB/SSW,關(guān)于SSB和SSW可以參考可汗學(xué)院有一節(jié)專門講組間平方和(SSB)和組內(nèi)平方和(SSW),如果我們把組間平方和理解為兩組之間的差異,組內(nèi)平方和理解為兩組內(nèi)部不同數(shù)據(jù)的差異的話,那么簡單點說,兩個數(shù)據(jù)在有差異的前提下,究竟是組間的差異大,還是組內(nèi)的差異大呢?如果是組間的差異大,那么這兩組數(shù)據(jù)本身不一致的概率就非常大了,對應(yīng)F值比較大; 那么看看兩組的t檢驗,t檢驗的前提是兩組數(shù)據(jù)都是從不同樣本抽出的數(shù)據(jù),而樣本都符合正態(tài)分布,然后用這兩個樣本推斷這兩個總體存不存在差異;舉個例子,我有一缸黑米,和一缸白米,為了看這兩缸米的密度有沒有差異,用小勺各盛了十次,觀察密度,然后用小勺的十次,去判定總體的差異;如果想用t檢驗,前提假設(shè)是由于隨機誤差,兩缸米在抽取的時候密度會有隨機誤差,那么每次抽取的密度都呈現(xiàn)正態(tài)分布,還有一個假設(shè),就是兩個勺子盛的米離散程度是相等的,也就是方差相等。所以,在方差相等,或者說方差齊的前提是t檢驗的必要前提。而F檢驗不要求方差齊,或者說本身就是檢查方差的差異的。 按照之前的定義,如果兩組方差齊,由于F檢驗的F值是SSB/SSW,組內(nèi)方差相等,如果兩組有變異,那么全部都是由于組間差異造成的,F(xiàn)檢驗自然成了t檢驗,下面附上F檢驗和t檢驗的代碼和結(jié)果(數(shù)據(jù)參考了《R和ASReml-R統(tǒng)計分析教程》中的數(shù)據(jù)):
t檢驗的結(jié)果是:
F檢驗:
結(jié)果:
可以看到p值都是0.0571,相等,因為前提是在t檢驗中加入了var.test,然后設(shè)置參數(shù)var.equal=T。下面看看方差不等的情況: 情況2,兩組數(shù)據(jù),方差不齊 在這種情況下,如果忽略了方差齊的前提,比如我重新做一組數(shù)據(jù),先檢測防擦:
看到檢測結(jié)果:
p為0.002832,所以方差不齊; 但是然后我們進行方差齊的t檢驗:
看到兩組均值相等的概率好大; 方差不齊調(diào)整后的t檢驗:
P值是0.3676 稍微比之前大一些; F檢驗:
p是0.349;這和t檢驗在方差齊的前提下是相等的。 我理解是這樣的: t檢驗的前提是方差齊,只有方差齊了,t檢驗的結(jié)果才反應(yīng)兩組數(shù)據(jù)的是否有差異,否則如果方差不齊的話,會把組內(nèi)的差異也考慮進去,所以判定的概率就更寬松;而F檢驗其實就是看組間差異和組內(nèi)差異的比較,所以本質(zhì)上和t檢驗方差齊的概念相似。但是實際上在方差不齊的時候是無法進行t檢驗的,結(jié)果不具有統(tǒng)計學(xué)意義。 情況3&4:多組情況下,方差齊&多組方差不齊 t檢驗一般適用于兩組,所以在多維的情況下,不適用t檢驗,而F檢驗可以判定多組、一組多變量和多組間有交互(單因素、協(xié)方差、雙因素?zé)o重復(fù)、雙因素有重復(fù)等),然后在通過兩兩比較進行分析,用duncan和tukey等方法去判定。 |
|