乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      [基本功] T分布:溫良寬厚

       豆包規(guī)劃 2016-01-18





      命名與源起


      “t”,是偉大的Fisher為之取的名字。Fisher最早將這一分布命名為“Student's distribution”,并以“t”為之標(biāo)記。


      Student,則是William Sealy Gosset(戈塞特)的筆名。他當(dāng)年在愛爾蘭都柏林的一家酒廠工作,設(shè)計了一種后來被稱為t檢驗的方法來評價酒的質(zhì)量。因為行業(yè)機密,酒廠不允許他的工作內(nèi)容外泄,所以當(dāng)他后來將其發(fā)表到至今仍十分著名的一本雜志《Biometrika》時,就署了student的筆名。所以現(xiàn)在很多人知道student,知道t,卻不知道Gosset。(相對而言,我們常說的正態(tài)分布,在國外更多的被稱為高斯分布……高斯~泉下有知的話,說不定會打出V字手勢~歐耶?。?/p>


      看懂概率密度圖


      這一點對于初學(xué)者尤為重要,相信還是有不少人對正態(tài)分布或者t分布的曲線沒有確切的理解。


      首先,我們看一下頻率分布直方圖,histogram

      上圖,最關(guān)鍵的就是橫軸了,柱高,即,對于橫軸上每一個點,發(fā)生的頻次。圖中橫軸為4處,次數(shù)最多,大約12次;依次類推,橫坐標(biāo)為10處,發(fā)生1次……


      我們做單變量的探索性數(shù)據(jù)分析,最喜歡做柱狀圖了,或者再額外繪制一條Density曲線于其上(見下圖)。很容易就可以看出數(shù)據(jù)的分布(集中趨勢、離散趨勢),圖中,數(shù)據(jù)大多集中在4左右(均數(shù)、眾數(shù)),有一點點右偏態(tài),但基本還是正態(tài)分布。


      下圖,手繪曲線,即密度曲線,英文全稱Probability Density Function/Curve。實際上是對上面柱狀圖的一個平滑,但它的縱坐標(biāo)變?yōu)榱烁怕?/span>,區(qū)別于柱狀圖的頻次。但理解起來意義差不多。

      以下,我們就用Density曲線來講解T分布的特征。


      T分布的可視化


      我們平常說的t分布,都是指小樣本的分布。但其實正態(tài)分布,可以算作t分布的特例。也就是說,t分布,在大小樣本中都是通用的。


      之前有讀者問過:“是不是樣本量大于30或者大于50,就不能用t分布了呀”?

      完全不是這樣的!t分布,大小通吃!具體且看下文分解。


      相對于正態(tài)分布,t分布額外多了一個參數(shù),自由度。自由度 = n - 1。我們先看幾個例子,主觀感受一下t分布。


      = 1 :紅色為t分布;藍(lán)色為正態(tài)分布。


      = 2 :紅色 = 2,高于 = 1 的綠色,低于正態(tài)分布。


      = 3 :紅色 = 3,高于 = 1,2 的綠色,低于正態(tài)分布。


      = 10 :紅色 = 10,高于 = 1~9的綠色,低于正態(tài)分布。


      可見,隨著樣本量n / 自由度的增加,t分布越來越接近正態(tài)分布。正態(tài)分布,可以看做只是t分布的一個特例而已


      以上部分大家大概都學(xué)過的,相信大多數(shù)讀者都會了解。但這里,讓我們回到我們的標(biāo)題(不是標(biāo)題黨):溫良寬厚。


      大家仔細(xì)比較一下下圖。t分布(紅色)雖然也是鐘型曲線,但是中間較低、兩側(cè)尾巴卻很高


      這就是t分布的優(yōu)勢!這個特征相當(dāng)重要,百年來,t分布就指著這個特征活著的!


      比較一下上圖兩條曲線,我用這樣一個詞,“寬厚”,來形容t分布曲線的特征。是不是比正態(tài)分布曲線更?。渴遣皇?span>比正態(tài)分布曲線更呢?



      大家都說重要的事要重復(fù)三遍,我們再重復(fù)一下,樣本量越小(自由度越?。?,t分布的尾部越高。


      尾部的高度,有十分重要的統(tǒng)計學(xué)意義。


      我們來比較一下下圖中的兩條曲線。這兩條曲線同樣都是對圖中底部6個黑色點(數(shù)值)進行分布擬合。


      我們首先看一下那條矮的、正態(tài)分布的曲線。我們前面說過,正態(tài)分布的曲線不具備“寬厚”的特征。它的尾部很低,尾部與橫軸之間高度很“狹窄”。也就是說,正態(tài)分布不能夠容忍它長長的尾部出現(xiàn)大概率的事件(圖中橫軸值為15處一圓點出現(xiàn)概率為六分之一),所以正態(tài)分布就很無奈地,將這一點納入它的胸膛而非留在尾部。于是乎,惡果就出現(xiàn)了:圖中正態(tài)分布的均數(shù),遠(yuǎn)遠(yuǎn)偏離了大多數(shù)點所在的位置,標(biāo)準(zhǔn)差也極大。總之,與我們所期待的很不一致。

      再看一下那條高高的t分布曲線。我們前面說過了,t分布“溫良寬厚”,它的尾巴很高(本圖中不明顯,參見上面自由度為1,2,3時所對應(yīng)的圖片),高高的長尾讓它有“容人的雅量。所以,這條t分布的曲線,很好的捕捉到了數(shù)據(jù)點的集中趨勢(橫坐標(biāo):0附近)離散趨勢(標(biāo)準(zhǔn)差:只是那條正態(tài)分布曲線標(biāo)準(zhǔn)差的四分之一)。


      這也是T分布盛行的原因,即T分布被廣泛應(yīng)用于小樣本假設(shè)檢驗的原因。雖然是很小的樣本,但是,卻強大到可以輕松的排除異常值的干擾,準(zhǔn)確把握住數(shù)據(jù)的特征(集中趨勢和離散趨勢)!


      準(zhǔn)確捕捉變量的集中趨勢和離散趨勢在統(tǒng)計中有極為重要的意義,幾句話難以說清,簡單舉幾個栗子:


      1. 研究樣本量的估計量更小。熟悉樣本量計算的朋友也知道,標(biāo)準(zhǔn)差是樣本量計算的一個重要參數(shù)。上例中,我們t分布的標(biāo)準(zhǔn)差只是正態(tài)分布的四分之一,那么我們計算所需的樣本量也會極大的減少(只需原來的16分之一),極大地降低研究經(jīng)費和工作量!(關(guān)注“醫(yī)學(xué)統(tǒng)計分析精粹”,回復(fù)關(guān)鍵詞“樣本量”,可以看到很handy的樣本量計算工具哦?。?/p>

      2. 我們縮小了標(biāo)準(zhǔn)差,熟悉假設(shè)檢驗(將在后續(xù)“看圖說話”系列文章中出現(xiàn))的朋友也不難看出,如此,我們更容易得到一個有意義的P值

      3. 點估計更準(zhǔn)確。如果我們需要根據(jù)一個小樣本數(shù)據(jù)來估計學(xué)生的平均身高。那么使用正態(tài)分布來擬合,很容易就受到離群異常值的影響而得到錯誤的估計

      4. 回歸中應(yīng)用t分布,可以得到更穩(wěn)健的估計量(β值或OR值),這也是我們實現(xiàn)“穩(wěn)健回歸”的一個重要手段。


      通過下面一幅圖,我們鞏固一下t分布的“寬厚”:


      與正態(tài)分布曲線(矮胖)比較,t分布以其高高的尾部(本圖中不明顯,參見上面自由度為1,2,3時所對應(yīng)的圖片),容忍了在橫軸為9處的異常值,得到了更穩(wěn)健的集中趨勢估計值(均值1.11)和更緊湊的離散趨勢估計值(標(biāo)準(zhǔn)差差0.15,又是正態(tài)分布的四分之一)。要知道,我們?nèi)绻麊螁蜗胪ㄟ^增加樣本量來將標(biāo)準(zhǔn)誤(假設(shè)檢驗中使用的參數(shù),標(biāo)準(zhǔn)差除以自由度的平方根)縮減到四分之一,需要16倍的樣本量!可見,t分布當(dāng)真是威力無窮!



      PS:上述兩幅圖中的t分布曲線并不是頻率學(xué)派應(yīng)用t分布的常規(guī)套路(更像是貝葉斯學(xué)派的用法)。細(xì)心者可以發(fā)現(xiàn),我們使用的t分布的自由度明顯低于n - 1的自由度計算方法。這里的自由度是根據(jù)最大似然法估計出來的,用以更恰當(dāng)?shù)財M合數(shù)據(jù)的分布。雖然這與我們平時的用法不同,但小編覺得,這一點點不同不僅無傷大雅,反而更有利于大家深入理解t分布的特征——溫良寬厚。


      掌握了T分布溫良寬厚的特征,將會對本號后續(xù)介紹的假設(shè)檢驗T檢驗有更深入透徹的理解,期待后續(xù)文章,記得關(guān)注小號呀!



      醫(yī)學(xué)統(tǒng)計分析精粹


      實用靠譜統(tǒng)計學(xué),關(guān)注小號!

      長按識別二維碼→馬上關(guān)注

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多