統(tǒng)計小食系列 數(shù)據(jù)的正態(tài)性始終是困擾我們的一個重要問題。到底偏態(tài)的數(shù)據(jù)怎么處理?估計10個人有9個束手無策。對于定量資料而言,幾乎所有方法的選擇都跟正態(tài)性有關。很多人都很崩潰:我想直接用t檢驗行不行???可惜,正態(tài)性檢驗就像一個繞不過去的門檻,你恨或憤怒,它都在那里,不聲不響,不悲不喜。 1.數(shù)據(jù)分析誤區(qū) 對于兩組均數(shù)比較,一般情況下存在三種誤區(qū): 第一種,無論偏態(tài)、正態(tài)分布,均數(shù)比較直接用t檢驗; 第二種,嚴格按照數(shù)據(jù)SPSS正態(tài)性檢驗結果來看,如果至少一組正態(tài)分布不要用t檢驗了,應該用秩和; 第三種,一般很多教材,特別是《衛(wèi)生統(tǒng)計學》教材帶來了很大的誤解。一般衛(wèi)生統(tǒng)計學教材說,大樣本 (>30)的時候,根據(jù)中心極限理論,樣本均數(shù)也近似正態(tài)分布,是可以做t檢驗的! 你的思路符合哪一種呢? 首先,第一種思路肯定是不對的! 第二種思路呢?SPSS軟件一般可通過統(tǒng)計學檢驗法進行正態(tài)性檢驗。常見的統(tǒng)計學檢驗有Kolmogorov-Smirnov檢驗(KS檢驗)和Shapiro-Wilk檢驗(SW檢驗),當檢驗結果的P值小于0.05,則認為數(shù)據(jù)不滿足正態(tài)性;反之,則認為數(shù)據(jù)滿足正態(tài)性。 但需要注意的是,上述檢驗方法存在一定局限性。因為這兩種方法都畢竟敏感。比如下圖: 你覺得這個是正態(tài)分布嗎?非常接近,遺憾的是,正態(tài)性檢驗結果顯示,不能認為是正態(tài)分布(P=0.015)。為什么會這樣?一般情況下,樣本量增加,P值就越來越小,即便是數(shù)據(jù)非常非常接近于正態(tài)分布。那么此時,t檢驗就不好用了? 第三種思路,你說人衛(wèi)出版社的《衛(wèi)生統(tǒng)計學》教材錯了嗎? 它講的沒有錯,但是卻是比較誤導人的。雖說樣本量大于30,樣本均數(shù)分布呈現(xiàn)正態(tài)分布。但是,這不代表總體也是呈現(xiàn)正態(tài)分布呀。比如兩組大樣本偏態(tài)分布數(shù)據(jù),我們用均數(shù)來比較,來進行t檢驗。雖然,t檢驗方法用的是沒有錯,但本身樣本均數(shù)沒法代表其數(shù)據(jù)的集中度。均數(shù)沒有代表性,還拿出去比較?這不是笑掉牙的事情嗎?t檢驗結果,不能反映數(shù)據(jù)的實際情況。比如說,兩個醫(yī)院開展外科臨床比賽,代表出賽都是內(nèi)科的醫(yī)生們。他們的勝負能反映兩家醫(yī)院的水平高低么! 你還別說,我們的《衛(wèi)生統(tǒng)計學》教材也沒有好好理清這里面的道道。 二、什么時候用t檢驗 那么怎么辦,簡直太混亂了! 我的建議是返璞歸真,不要過分依賴正態(tài)性檢驗結果,要憑著肉眼觀察。 我們常建議研究者通過繪制直方圖、QQ圖等來判斷數(shù)據(jù)的正態(tài)性。在直方圖中數(shù)據(jù)呈現(xiàn)鐘型分布,中間高,兩端逐漸下降左右兩側呈現(xiàn)對稱或近似對稱,或者在QQ圖中的數(shù)據(jù)點和理論直線基本重合,則可認為數(shù)據(jù)滿足正態(tài)性。此外,這種方法還可以發(fā)現(xiàn)極端值,異常值。極端值和異常值情況下,也要舍棄t檢驗的方法。 所以,如果數(shù)據(jù)正態(tài)分布或者近似正態(tài)分布者,無論單組偏態(tài)甚至雙組偏態(tài),均可采用t檢驗,嚴重偏態(tài)分布則則采用秩和檢驗。 |
|
來自: 妙趣橫生統(tǒng)計學 > 《待分類》