
1、關(guān)于正態(tài)性檢驗的問題 正態(tài)性檢驗是統(tǒng)計學分析中非?;A(chǔ)的一個問題,但也很關(guān)鍵,它牽扯到你應(yīng)該使用什么樣的方法,數(shù)據(jù)是否滿足正態(tài)性決定了你是否應(yīng)采用參數(shù)方法還是非參數(shù)方法。所謂正態(tài)性檢驗,也就是看你的數(shù)據(jù)是不是滿足正態(tài)分布,也就是說,如果把你的數(shù)據(jù)做個頻數(shù)圖,是不是看起來像個鐘形。 正態(tài)性檢驗最簡單的就是直接畫頻數(shù)圖,看形狀是不是類似于對稱的鐘形形狀,如果有明顯的數(shù)據(jù)都集中在某一邊,那圖形看起來就會偏向一側(cè),這可能意味著你的數(shù)據(jù)不滿足正態(tài)性,可以考慮用非參數(shù)方法來分析。 正態(tài)性檢驗常用的有四種方法,即Shapiro-Wilk檢驗、Kolmogorov-Smirnov檢驗、Cramer-von Mises檢驗和Anderson-Darling檢驗。這是SAS軟件中輸出的四種檢驗。 Shapiro-Wilk檢驗是專門用于正態(tài)性檢驗的方法,其思想是基于峰度和偏度來考慮偏離正態(tài)的程度,該法可用于例數(shù)在3至50之間。但后來經(jīng)Royston改進后,可用于例數(shù)在3至2000之間的正態(tài)性檢驗。因此,有的統(tǒng)計書上還在強調(diào)說SAS中的Shapiro-Wilk檢驗只能用于50例以下的數(shù)據(jù),實際上是不對的,作者沒有仔細看一下方法的進展。SAS中輸出的Shapiro-Wilk檢驗是可以用在2000例以內(nèi)數(shù)據(jù)的檢驗的。 其余三種方法是通用方法,可用于多種分布的擬合優(yōu)度檢驗,正態(tài)性檢驗只是其中之一。其思想都是基于理論分布函數(shù)與實際分布函數(shù)的差距,當假定理論分布函數(shù)是正態(tài)分布時,便是正態(tài)性檢驗。當假定理論分布為其它分布(如Poisson分布)時,便成了其它分布的擬合優(yōu)度檢驗。 所以說,Shapiro-Wilk檢驗是專門檢驗正態(tài)分布的,其它三種方法是順便檢驗的。就像諾基亞是專做手機的,而聯(lián)想只是業(yè)余做手機的,也做其它的,手機只是其中之一。 正常情況下,如果例數(shù)在2000以內(nèi),Shapiro-Wilk檢驗可作為首選的結(jié)果,該法具有較好的檢驗效能。 對于圖形驗證和方法檢驗,個人傾向于圖形方法,因為方法的檢驗過于敏感,略微偏離正態(tài)便會給出陽性結(jié)果,認為數(shù)據(jù)不滿足正態(tài)分布。而實際中數(shù)據(jù)的輕度偏離不會對結(jié)果造成多大影響,尤其樣本量較大的時候,仍然可以采用參數(shù)檢驗,其結(jié)果是穩(wěn)健的。因此,如有可能,可以既作檢驗,也繪制圖形,兩者結(jié)合來判斷,不一定非要以檢驗的結(jié)果為準。
2、關(guān)于方差分析兩兩比較方法的選擇 進行方差分析時,如果多組間比較認為總的有統(tǒng)計學差異,通常還可進一步做組間多重比較。 多重比較的方法比較多,這里主要介紹sas軟件中常用的方法,主要有Tukey法、Scheffe法、Bonferroni法、Dunnett法等。 Tukey法只能用于組間例數(shù)相同的情形,而且只能用于成對的兩兩比較。 Scheffe法可用于組間例數(shù)不等的情形,不僅可用于成對的兩兩比較,而且還可以用于綜合比較,如組2、3的均值與組1進行比較。 Bonferroni用途最廣,幾乎可用于任何多重比較的情形,包括組間例數(shù)相等或不等、成對兩兩比較或綜合多重比較等。 Dunnett法主要用于多個實驗組與一個對照組的比較,實驗組之間不做比較。 如果各組間例數(shù)相等,Tukey法效率較高,這也是國外不少統(tǒng)計學家喜歡用的方法。但在國內(nèi)tukey法始終不流行,甚至很少有人知道他的名字,不知道為什么。國內(nèi)最流行的方法是Bonferroni法,我想可能是因為這一方法理解和計算最簡單吧。但不管怎樣,該法應(yīng)用也沒什么大錯,只要比較次數(shù)不多,用起來還是蠻有用的。 如果比較次數(shù)太多,比如10次甚至更多,用Bonferroni法就有問題了,臨界p值會變得特別小,你可能會發(fā)現(xiàn)總的組間有差異,但兩兩比較卻都達不到臨界值,因為比較次數(shù)太多,導致p值太小,無法拒絕h0。所以此時可以考慮用Scheffe法。Scheffe法在國內(nèi)也不流行,同樣不知道為什么。也行是因為教材上不大介紹吧,可見國內(nèi)學生深受教材毒害之深。好像教材上介紹的才是權(quán)威,其實不然,教材上介紹的不一定是最好的,而是最不容易犯錯誤的,也就是說,不求有功,但求無過。 不同書中對如何選擇比較方法各有觀點,因為確實沒有一種方法能完全壓倒所有的,所以必然存在爭議。所以最好的做法就是自己仔細看一下這些方法的原理,這樣在選擇時就有底了,也就有依據(jù)了。
3、關(guān)于方差齊性檢驗 方差齊性檢驗與正態(tài)性檢驗一樣,也是決定你采用何種統(tǒng)計分析方法的一個重要條件。 當兩組數(shù)據(jù)做組間比較時,如果兩組數(shù)據(jù)符合正態(tài)分布但方差不齊,可以考慮用Cochran近似t檢驗或Satterthwaite近似t檢驗,這兩種近似t檢驗分別通過對臨界值或自由度的調(diào)整實現(xiàn)對t檢驗結(jié)果的校正。 當多組數(shù)據(jù)做組間比較時,如果數(shù)據(jù)為正態(tài)分布但方差不齊,有時也采用Welch檢驗。但通常情況下,即使方差不齊,只要不是很嚴重,仍可采用方差分析。只有在方差齊性偏離較大時才用該法或用非參數(shù)檢驗。 兩組比較時,方差齊性檢驗常采用F檢驗,其思想是以兩組中較大的方差除以較小的方差,其值越大,越有理由認為方差不齊。 多組比較時,常用的有四種方差齊性檢驗,分別為Bartlett檢驗、Levene檢驗、BF檢驗和O’Brien’s檢驗。 Bartlett法主要用于正態(tài)數(shù)據(jù)的檢驗,一旦數(shù)據(jù)偏離正態(tài),結(jié)果會導致較大偏差。 Levene法可用于非正態(tài)數(shù)據(jù)的檢驗,反映了對均值的偏離程度。 O’Brien’s法是對Levene法的修正方法,也是基于對均值的偏離程度。 BF法是基于對中位數(shù)的偏離程度。 統(tǒng)計模擬顯示,BF法對控制一類錯誤的效能較高,但組別較多時可能不是很合適。實際中最常用的是Levene法。
4、兩組連續(xù)型資料的分析思路 兩組連續(xù)型資料的分析,可以簡單分為以下兩種: (1) 兩組獨立樣本比較 資料符合正態(tài)分布,且兩組方差齊性,直接采用t檢驗。 資料不符合正態(tài)分布,(1)可進行數(shù)據(jù)轉(zhuǎn)換,如對數(shù)轉(zhuǎn)換等,使之服從正態(tài)分布,然后對轉(zhuǎn)換后的數(shù)據(jù)采用t檢驗;(2)采用非參數(shù)檢驗,如Wilcoxon檢驗。 資料符合正態(tài)分布單方差不齊,(1)采用Satterthwate 的t’檢驗;(2)采用非參數(shù)檢驗,如Wilcoxon檢驗。 (2) 兩組配對樣本的比較 兩組差值服從正態(tài)分布,采用配對t檢驗。 兩組差值不服從正態(tài)分布,采用wilcoxon的符號配對秩和檢驗。 以上是常用的資料分析的思路,但是實際中可能不止如此簡單,比如實際中可能還需要看一下數(shù)據(jù)是否獨立,如果不是獨立的,還需要進一步考慮他們之間的相關(guān)性。 所謂獨立性,其實理解也很簡單。最常見的非獨立數(shù)據(jù)就是同一觀察對象不同時間點的數(shù)據(jù)。比如,一個人用藥前后的觀察值,由于是一個人的數(shù)據(jù),很可能就會存在相關(guān)性,即非獨立,比如,張三用藥前的血壓高,那用藥后的血壓可能也高,李四用藥前的血壓低,用藥后可能也較低。而不同人的觀察值,沒有什么相關(guān)性,就是獨立的,比如,張三的血壓不會影響李四的血壓。
5、多組連續(xù)資料的分析思路
(1).多組完全隨機樣本比較 資料符合正態(tài)分布,且各組方差齊性,直接采用完全隨機的方差分析。如果檢驗結(jié)果為有統(tǒng)計學意義,則進一步作兩兩比較,兩兩比較的方法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。 資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗的Kruscal-Wallis法。如果檢驗結(jié)果為有統(tǒng)計學意義,則進一步作兩兩比較,一般采用Bonferroni法校正P值。 (2) 多組隨機區(qū)組樣本比較 資料符合正態(tài)分布,且各組方差齊性,直接采用隨機區(qū)組的方差分析。如果檢驗結(jié)果為有統(tǒng)計學意義,則進一步作兩兩比較,兩兩比較的方法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。 資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗的Friedman檢驗法。如果檢驗結(jié)果為有統(tǒng)計學意義,則進一步作兩兩比較,一般采用Bonferroni法校正P值。
注:來源于“52stata博客”。
|