命名與源起 “t”,是偉大的Fisher為之取的名字。Fisher最早將這一分布命名為“Student's distribution”,并以“t”為之標(biāo)記。 Student,則是William Sealy Gosset(戈塞特)的筆名。他當(dāng)年在愛爾蘭都柏林的一家酒廠工作,設(shè)計了一種后來被稱為t檢驗的方法來評價酒的質(zhì)量。因為行業(yè)機密,酒廠不允許他的工作內(nèi)容外泄,所以當(dāng)他后來將其發(fā)表到至今仍十分著名的一本雜志《Biometrika》時,就署了student的筆名。所以現(xiàn)在很多人知道student,知道t,卻不知道Gosset。(相對而言,我們常說的正態(tài)分布,在國外更多的被稱為高斯分布……高斯~泉下有知的話,說不定會打出V字手勢~歐耶?。?/p> 看懂概率密度圖 這一點對于初學(xué)者尤為重要,相信還是有不少人對正態(tài)分布或者t分布的曲線沒有確切的理解。 首先,我們看一下頻率分布直方圖,histogram: 上圖,最關(guān)鍵的就是橫軸了,柱高,即,對于橫軸上每一個點,發(fā)生的頻次。圖中橫軸為4處,次數(shù)最多,大約12次;依次類推,橫坐標(biāo)為10處,發(fā)生1次…… 我們做單變量的探索性數(shù)據(jù)分析,最喜歡做柱狀圖了,或者再額外繪制一條Density曲線于其上(見下圖)。很容易就可以看出數(shù)據(jù)的分布(集中趨勢、離散趨勢),圖中,數(shù)據(jù)大多集中在4左右(均數(shù)、眾數(shù)),有一點點右偏態(tài),但基本還是正態(tài)分布。 下圖,手繪曲線,即密度曲線,英文全稱Probability Density Function/Curve。實際上是對上面柱狀圖的一個平滑,但它的縱坐標(biāo)變?yōu)榱烁怕?/span>,區(qū)別于柱狀圖的頻次。但理解起來意義差不多。 以下,我們就用Density曲線來講解T分布的特征。 T分布的可視化 我們平常說的t分布,都是指小樣本的分布。但其實正態(tài)分布,可以算作t分布的特例。也就是說,t分布,在大小樣本中都是通用的。 之前有讀者問過:“是不是樣本量大于30或者大于50,就不能用t分布了呀”? 完全不是這樣的!t分布,大小通吃!具體且看下文分解。 相對于正態(tài)分布,t分布額外多了一個參數(shù),自由度。自由度
以上部分大家大概都學(xué)過的,相信大多數(shù)讀者都會了解。但這里,讓我們回到我們的標(biāo)題(不是標(biāo)題黨):溫良寬厚。 大家仔細(xì)比較一下下圖。t分布(紅色)雖然也是鐘型曲線,但是中間較低、兩側(cè)尾巴卻很高。
比較一下上圖兩條曲線,我用這樣一個詞,“寬厚”,來形容t分布曲線的特征。是不是比正態(tài)分布曲線更寬?。渴遣皇?span>比正態(tài)分布曲線更厚呢?
尾部的高度,有十分重要的統(tǒng)計學(xué)意義。 我們來比較一下下圖中的兩條曲線。這兩條曲線同樣都是對圖中底部6個黑色點(數(shù)值)進行分布擬合。 我們首先看一下那條矮的、正態(tài)分布的曲線。我們前面說過,正態(tài)分布的曲線不具備“寬厚”的特征。它的尾部很低,尾部與橫軸之間高度很“狹窄”。也就是說,正態(tài)分布不能夠容忍它長長的尾部出現(xiàn)大概率的事件(圖中橫軸值為15處一圓點出現(xiàn)概率為六分之一),所以正態(tài)分布就很無奈地,將這一點納入它的胸膛而非留在尾部。于是乎,惡果就出現(xiàn)了:圖中正態(tài)分布的均數(shù),遠(yuǎn)遠(yuǎn)偏離了大多數(shù)點所在的位置,標(biāo)準(zhǔn)差也極大。總之,與我們所期待的很不一致。 再看一下那條高高的t分布曲線。我們前面說過了,t分布“溫良寬厚”,它的尾巴很高(本圖中不明顯,參見上面自由度為1,2,3時所對應(yīng)的圖片),高高的長尾讓它有“容人的雅量”。所以,這條t分布的曲線,很好的捕捉到了數(shù)據(jù)點的集中趨勢(橫坐標(biāo):0附近)和離散趨勢(標(biāo)準(zhǔn)差:只是那條正態(tài)分布曲線標(biāo)準(zhǔn)差的四分之一)。 這也是T分布盛行的原因,即T分布被廣泛應(yīng)用于小樣本假設(shè)檢驗的原因。雖然是很小的樣本,但是,卻強大到可以輕松的排除異常值的干擾,準(zhǔn)確把握住數(shù)據(jù)的特征(集中趨勢和離散趨勢)! 準(zhǔn)確捕捉變量的集中趨勢和離散趨勢在統(tǒng)計中有極為重要的意義,幾句話難以說清,簡單舉幾個栗子:
通過下面一幅圖,我們鞏固一下t分布的“寬厚”: 與正態(tài)分布曲線(矮胖)比較,t分布以其高高的尾部(本圖中不明顯,參見上面自由度為1,2,3時所對應(yīng)的圖片),容忍了在橫軸為9處的異常值,得到了更穩(wěn)健的集中趨勢估計值(均值1.11)和更緊湊的離散趨勢估計值(標(biāo)準(zhǔn)差差0.15,又是正態(tài)分布的四分之一)。要知道,我們?nèi)绻麊螁蜗胪ㄟ^增加樣本量來將標(biāo)準(zhǔn)誤(假設(shè)檢驗中使用的參數(shù),標(biāo)準(zhǔn)差除以自由度的平方根)縮減到四分之一,需要16倍的樣本量!可見,t分布當(dāng)真是威力無窮! PS:上述兩幅圖中的t分布曲線并不是頻率學(xué)派應(yīng)用t分布的常規(guī)套路(更像是貝葉斯學(xué)派的用法)。細(xì)心者可以發(fā)現(xiàn),我們使用的t分布的自由度明顯低于n - 1的自由度計算方法。這里的自由度是根據(jù)最大似然法估計出來的,用以更恰當(dāng)?shù)財M合數(shù)據(jù)的分布。雖然這與我們平時的用法不同,但小編覺得,這一點點不同不僅無傷大雅,反而更有利于大家深入理解t分布的特征——溫良寬厚。 掌握了T分布溫良寬厚的特征,將會對本號后續(xù)介紹的假設(shè)檢驗和T檢驗有更深入透徹的理解,期待后續(xù)文章,記得關(guān)注小號呀! 醫(yī)學(xué)統(tǒng)計分析精粹 實用靠譜統(tǒng)計學(xué),關(guān)注小號! 長按識別二維碼→馬上關(guān)注
|
|