方差分析中深層次統(tǒng)計學問題

JACKjack2580 2018-01-16

展開全文

1、關(guān)于正態(tài)性檢驗的問題
    正態(tài)性檢驗是統(tǒng)計學分析中非?；A(chǔ)的一個問題，但也很關(guān)鍵，它牽扯到你應(yīng)該使用什么樣的方法，數(shù)據(jù)是否滿足正態(tài)性決定了你是否應(yīng)采用參數(shù)方法還是非參數(shù)方法。所謂正態(tài)性檢驗，也就是看你的數(shù)據(jù)是不是滿足正態(tài)分布，也就是說，如果把你的數(shù)據(jù)做個頻數(shù)圖，是不是看起來像個鐘形。
   正態(tài)性檢驗最簡單的就是直接畫頻數(shù)圖，看形狀是不是類似于對稱的鐘形形狀，如果有明顯的數(shù)據(jù)都集中在某一邊，那圖形看起來就會偏向一側(cè)，這可能意味著你的數(shù)據(jù)不滿足正態(tài)性，可以考慮用非參數(shù)方法來分析。
   正態(tài)性檢驗常用的有四種方法，即Shapiro-Wilk檢驗、Kolmogorov-Smirnov檢驗、Cramer-von Mises檢驗和Anderson-Darling檢驗。這是SAS軟件中輸出的四種檢驗。
   Shapiro-Wilk檢驗是專門用于正態(tài)性檢驗的方法，其思想是基于峰度和偏度來考慮偏離正態(tài)的程度，該法可用于例數(shù)在3至50之間。但后來經(jīng)Royston改進后，可用于例數(shù)在3至2000之間的正態(tài)性檢驗。因此，有的統(tǒng)計書上還在強調(diào)說SAS中的Shapiro-Wilk檢驗只能用于50例以下的數(shù)據(jù)，實際上是不對的，作者沒有仔細看一下方法的進展。SAS中輸出的Shapiro-Wilk檢驗是可以用在2000例以內(nèi)數(shù)據(jù)的檢驗的。
   其余三種方法是通用方法，可用于多種分布的擬合優(yōu)度檢驗，正態(tài)性檢驗只是其中之一。其思想都是基于理論分布函數(shù)與實際分布函數(shù)的差距，當假定理論分布函數(shù)是正態(tài)分布時，便是正態(tài)性檢驗。當假定理論分布為其它分布（如Poisson分布）時，便成了其它分布的擬合優(yōu)度檢驗。
所以說，Shapiro-Wilk檢驗是專門檢驗正態(tài)分布的，其它三種方法是順便檢驗的。就像諾基亞是專做手機的，而聯(lián)想只是業(yè)余做手機的，也做其它的，手機只是其中之一。
   正常情況下，如果例數(shù)在2000以內(nèi)，Shapiro-Wilk檢驗可作為首選的結(jié)果，該法具有較好的檢驗效能。
   對于圖形驗證和方法檢驗，個人傾向于圖形方法，因為方法的檢驗過于敏感，略微偏離正態(tài)便會給出陽性結(jié)果，認為數(shù)據(jù)不滿足正態(tài)分布。而實際中數(shù)據(jù)的輕度偏離不會對結(jié)果造成多大影響，尤其樣本量較大的時候，仍然可以采用參數(shù)檢驗，其結(jié)果是穩(wěn)健的。因此，如有可能，可以既作檢驗，也繪制圖形，兩者結(jié)合來判斷，不一定非要以檢驗的結(jié)果為準。

2、關(guān)于方差分析兩兩比較方法的選擇
    進行方差分析時，如果多組間比較認為總的有統(tǒng)計學差異，通常還可進一步做組間多重比較。
多重比較的方法比較多，這里主要介紹sas軟件中常用的方法，主要有Tukey法、Scheffe法、Bonferroni法、Dunnett法等。
   Tukey法只能用于組間例數(shù)相同的情形，而且只能用于成對的兩兩比較。
   Scheffe法可用于組間例數(shù)不等的情形，不僅可用于成對的兩兩比較，而且還可以用于綜合比較，如組2、3的均值與組1進行比較。
   Bonferroni用途最廣，幾乎可用于任何多重比較的情形，包括組間例數(shù)相等或不等、成對兩兩比較或綜合多重比較等。
   Dunnett法主要用于多個實驗組與一個對照組的比較，實驗組之間不做比較。
如果各組間例數(shù)相等，Tukey法效率較高，這也是國外不少統(tǒng)計學家喜歡用的方法。但在國內(nèi)tukey法始終不流行，甚至很少有人知道他的名字，不知道為什么。國內(nèi)最流行的方法是Bonferroni法，我想可能是因為這一方法理解和計算最簡單吧。但不管怎樣，該法應(yīng)用也沒什么大錯，只要比較次數(shù)不多，用起來還是蠻有用的。
   如果比較次數(shù)太多，比如10次甚至更多，用Bonferroni法就有問題了，臨界p值會變得特別小，你可能會發(fā)現(xiàn)總的組間有差異，但兩兩比較卻都達不到臨界值，因為比較次數(shù)太多，導致p值太小，無法拒絕h0。所以此時可以考慮用Scheffe法。Scheffe法在國內(nèi)也不流行，同樣不知道為什么。也行是因為教材上不大介紹吧，可見國內(nèi)學生深受教材毒害之深。好像教材上介紹的才是權(quán)威，其實不然，教材上介紹的不一定是最好的，而是最不容易犯錯誤的，也就是說，不求有功，但求無過。
不同書中對如何選擇比較方法各有觀點，因為確實沒有一種方法能完全壓倒所有的，所以必然存在爭議。所以最好的做法就是自己仔細看一下這些方法的原理，這樣在選擇時就有底了，也就有依據(jù)了。

3、關(guān)于方差齊性檢驗
    方差齊性檢驗與正態(tài)性檢驗一樣，也是決定你采用何種統(tǒng)計分析方法的一個重要條件。
當兩組數(shù)據(jù)做組間比較時，如果兩組數(shù)據(jù)符合正態(tài)分布但方差不齊，可以考慮用Cochran近似t檢驗或Satterthwaite近似t檢驗，這兩種近似t檢驗分別通過對臨界值或自由度的調(diào)整實現(xiàn)對t檢驗結(jié)果的校正。
   當多組數(shù)據(jù)做組間比較時，如果數(shù)據(jù)為正態(tài)分布但方差不齊，有時也采用Welch檢驗。但通常情況下，即使方差不齊，只要不是很嚴重，仍可采用方差分析。只有在方差齊性偏離較大時才用該法或用非參數(shù)檢驗。
   兩組比較時，方差齊性檢驗常采用F檢驗，其思想是以兩組中較大的方差除以較小的方差，其值越大，越有理由認為方差不齊。
   多組比較時，常用的有四種方差齊性檢驗，分別為Bartlett檢驗、Levene檢驗、BF檢驗和O’Brien’s檢驗。
   Bartlett法主要用于正態(tài)數(shù)據(jù)的檢驗，一旦數(shù)據(jù)偏離正態(tài)，結(jié)果會導致較大偏差。
   Levene法可用于非正態(tài)數(shù)據(jù)的檢驗，反映了對均值的偏離程度。
   O’Brien’s法是對Levene法的修正方法，也是基于對均值的偏離程度。
   BF法是基于對中位數(shù)的偏離程度。
   統(tǒng)計模擬顯示，BF法對控制一類錯誤的效能較高，但組別較多時可能不是很合適。實際中最常用的是Levene法。

4、兩組連續(xù)型資料的分析思路

兩組連續(xù)型資料的分析，可以簡單分為以下兩種：
（1）兩組獨立樣本比較
資料符合正態(tài)分布,且兩組方差齊性,直接采用t檢驗。
資料不符合正態(tài)分布，（1）可進行數(shù)據(jù)轉(zhuǎn)換,如對數(shù)轉(zhuǎn)換等,使之服從正態(tài)分布,然后對轉(zhuǎn)換后的數(shù)據(jù)采用t檢驗；（2）采用非參數(shù)檢驗,如Wilcoxon檢驗。
資料符合正態(tài)分布單方差不齊，（1）采用Satterthwate 的t’檢驗；（2）采用非參數(shù)檢驗,如Wilcoxon檢驗。
（2）兩組配對樣本的比較
兩組差值服從正態(tài)分布，采用配對t檢驗。
兩組差值不服從正態(tài)分布，采用wilcoxon的符號配對秩和檢驗。
以上是常用的資料分析的思路，但是實際中可能不止如此簡單，比如實際中可能還需要看一下數(shù)據(jù)是否獨立，如果不是獨立的，還需要進一步考慮他們之間的相關(guān)性。
   所謂獨立性，其實理解也很簡單。最常見的非獨立數(shù)據(jù)就是同一觀察對象不同時間點的數(shù)據(jù)。比如，一個人用藥前后的觀察值，由于是一個人的數(shù)據(jù)，很可能就會存在相關(guān)性，即非獨立，比如，張三用藥前的血壓高，那用藥后的血壓可能也高，李四用藥前的血壓低，用藥后可能也較低。而不同人的觀察值，沒有什么相關(guān)性，就是獨立的，比如，張三的血壓不會影響李四的血壓。

5、多組連續(xù)資料的分析思路

（1）.多組完全隨機樣本比較
資料符合正態(tài)分布，且各組方差齊性，直接采用完全隨機的方差分析。如果檢驗結(jié)果為有統(tǒng)計學意義，則進一步作兩兩比較，兩兩比較的方法有LSD檢驗，Bonferroni法，tukey法，Scheffe法，SNK法等。
資料不符合正態(tài)分布，或各組方差不齊，則采用非參數(shù)檢驗的Kruscal－Wallis法。如果檢驗結(jié)果為有統(tǒng)計學意義，則進一步作兩兩比較，一般采用Bonferroni法校正P值。
（2）多組隨機區(qū)組樣本比較
資料符合正態(tài)分布，且各組方差齊性，直接采用隨機區(qū)組的方差分析。如果檢驗結(jié)果為有統(tǒng)計學意義，則進一步作兩兩比較，兩兩比較的方法有LSD檢驗，Bonferroni法，tukey法，Scheffe法，SNK法等。
資料不符合正態(tài)分布，或各組方差不齊，則采用非參數(shù)檢驗的Friedman檢驗法。如果檢驗結(jié)果為有統(tǒng)計學意義，則進一步作兩兩比較，一般采用Bonferroni法校正P值。