乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      如何優(yōu)雅地校正多重檢驗(yàn)的p值?

       Jessiee_ 2018-09-24

            組學(xué)派的大家庭越來越熱鬧,派派也是干勁滿滿!作為一個(gè)公益服務(wù)性的平臺(tái),為組學(xué)戰(zhàn)友們排憂解難始終是派派小組至高無上的責(zé)任和追求!更加要慶賀的是加入派派的小伙伴越來多,我們有了總?cè)?,還有了總?cè)?號(hào)(二維碼見文末),還有各個(gè)分群。我們有了新的LOGO,相信omicsPie會(huì)越來越好!

             上周,群里酷愛科研的大佬們對(duì)差異性分析結(jié)果p value的校正問題掀起了熱情洋溢的民主大討論。既然問題出現(xiàn)了,那么這寶貴的科普機(jī)會(huì)派派又怎么能夠放過,今天就讓苯寶寶系統(tǒng)地為大家梳理一下有關(guān)False Positive(假陽性)的前生今世,為后入的小伙伴們點(diǎn)亮這盞指坑。。。啊,不,脫坑明燈。


      一、什么是False positive(假陽性)?

      提及假陽性,不得不從統(tǒng)計(jì)假設(shè)檢驗(yàn)的兩類錯(cuò)誤講起。第一類錯(cuò)誤(Type I error),就是原假設(shè)H0成立(也就是檢驗(yàn)的兩組之間沒有差別),但是統(tǒng)計(jì)結(jié)果卻顯示拒絕原假設(shè)(可以理解為結(jié)果p<0.05),這樣就得到了“假”的“陽性”結(jié)果。相應(yīng)的第二類錯(cuò)誤(Type II error),則是原假設(shè)H0不成立(也就是檢驗(yàn)的兩組之間有差別,是不同的),但是統(tǒng)計(jì)結(jié)果卻顯示接受原假設(shè)(可以理解為結(jié)果p>0.05),這樣就得到了“假”的“陰性”結(jié)果。

      今天,我們主要談一談“假陽性”。關(guān)于“假陰性”和“把握度”的問題,下次咱們?cè)俳又摹?/p>


           

      二、假陽性是如何產(chǎn)生的?

      科學(xué)研究中,研究者往往很難得到全部的研究對(duì)象的實(shí)驗(yàn)數(shù)據(jù),所以隨機(jī)抽樣、統(tǒng)計(jì)推斷的思想貫穿于實(shí)驗(yàn)設(shè)計(jì)的始終。既然樣本是從總體中抽出來的,即使是隨機(jī)化做得非常好,依然難免會(huì)存在抽樣誤差,導(dǎo)致抽樣數(shù)據(jù)的隨機(jī)波動(dòng),不能完全準(zhǔn)確地反應(yīng)總體的數(shù)據(jù)水平。這種情況下,很顯然,即使是從同一個(gè)總體中反復(fù)抽樣,也有機(jī)會(huì)得到樣本之間的差異經(jīng)統(tǒng)計(jì)學(xué)檢驗(yàn)p<0.05的結(jié)果(如圖1)。因此,不難得到這樣的結(jié)論:假陽性結(jié)果會(huì)隨著抽樣次數(shù)、比較次數(shù)的增多而大量出現(xiàn)。這里派派做了個(gè)簡(jiǎn)單的模擬實(shí)驗(yàn),從同一組正態(tài)分布總體中隨機(jī)抽取兩組進(jìn)行t-test,比較1000次累積的陽性結(jié)果(p<0.05)次數(shù)如圖2所示。

      另外,如果同時(shí)分析的指標(biāo)增加,假陽性率又會(huì)有怎樣的變化呢?若只分析一個(gè)指標(biāo),假陽性率為0.05,那么不犯I類錯(cuò)誤的概率為95%;若同時(shí)分析兩個(gè)指標(biāo),假陽性率則變?yōu)?-(0.95)2=0.0975;若同時(shí)分析三個(gè)指標(biāo),假陽性率則變?yōu)?-(0.95)3=0.0143......若同時(shí)分析十個(gè)指標(biāo),假陽性率則變?yōu)?-(0.95)10=0.4013,假陽性率已經(jīng)超過了40%!

      在組學(xué)數(shù)據(jù)的研究過程中,由于統(tǒng)計(jì)分析的變量維度較高,往往會(huì)進(jìn)行指數(shù)級(jí)的假設(shè)檢驗(yàn)比較,假陽性的結(jié)果則更加常見。


      圖1

      圖2

      三、假陽性的校正方法

      (一)傳統(tǒng)統(tǒng)計(jì)上的多重檢驗(yàn)結(jié)果校正方法,主要用于與多組間方差分析(ANOVA)相結(jié)合的兩兩比較。簡(jiǎn)單總結(jié)為以下幾種:

      1.LSD(least significant difference)最小顯著差異t檢驗(yàn)校正。這種校正方法一般用于事前比較,也就是實(shí)驗(yàn)設(shè)計(jì)時(shí)已經(jīng)確定進(jìn)行某些組之間的比較(如A和B,C和D),而其他組間不必進(jìn)行比較。假如所有組間都要比較用LSD的話會(huì)增加假陽性的概率。

      2. Dunnet-t校正。這種方法適用于多個(gè)實(shí)驗(yàn)組均數(shù)與對(duì)照組均數(shù)間的比較,也就是指定其中一組如A組為對(duì)照組,B、C、D組均與A組比較,但B、C、D組之間不進(jìn)行比較。

      3.SNK(Student-Newman-Keuls)檢驗(yàn)。此方法適用于ANOVA之后的多組間兩兩比較(事后的全局比較,不指限定比較分組),常用于探索性研究。但結(jié)果只告訴有無差異,不提供精確p值。常見的結(jié)果形式為

      分組12
      Amean(A)
      Bmean(B)mean(B)
      C
      mean(C)

      A組和B組在類別上都被定義為1類,說明兩組mean值之間的差異經(jīng)校正后沒有統(tǒng)計(jì)學(xué)意義;同理B、C兩組間的差異也沒有統(tǒng)計(jì)學(xué)意義。但A、C兩組分別被定義為1類和2類,說明A、C兩組間mean值的差異具有統(tǒng)計(jì)學(xué)意義。

      以上三種校正方法,使用的前提是各組均滿足正態(tài)性和方差齊性,即僅適用于與ANOVA、多重t檢驗(yàn)結(jié)合使用。而另外兩種適用性更強(qiáng)的萬能校正方法,也備受推崇:

      4.Bonferroni 校正。這種校正方法比較簡(jiǎn)單:校正檢驗(yàn)水準(zhǔn)α'=α/m(這里α通常為0.05,m為檢驗(yàn)次數(shù)),也相當(dāng)于如果保持α=0.05不變,校正p值為p'=m*p。這種校正方式最為保守嚴(yán)格,也就是得到的陽性結(jié)果把握度會(huì)很高,但靈敏度比較低,往往不適用于潛在研究目標(biāo)的篩選。

      5.Sidak法校正。既可用于事前比較,也可用于事后比較。校正檢驗(yàn)水準(zhǔn)α'=1-(1-α)1/m,m為比較次數(shù),更適用于比較次數(shù)較多時(shí)使用。

           當(dāng)然,還有例Tukey法、Duncan法等諸多方法,小編研究得不多就暫不在此枚舉了。

      (二)更加適用于高維數(shù)據(jù)的校正方法Benjamini-Hochberg false discovery rate (FDR),是基于對(duì)假陽性發(fā)現(xiàn)率的控制來決定p值的閾值。

      相對(duì)Bonferroni來說,F(xiàn)DR校正更加溫和。其目標(biāo)是在假陽性和假陰性間達(dá)到平衡,將假/真陽性的比例控制在一定范圍之內(nèi)。例如,如果檢驗(yàn)100次,我們?cè)O(shè)定的FDR閾值為0.05(5%),那么無論我們得到多少個(gè)差異特征變量,這些差異特征變量中出現(xiàn)假陽性的概率將保持在5%之內(nèi),這就是控制FDR<5%。這種校正方法意義明確,更加適用于新的差異物質(zhì)的發(fā)現(xiàn),例如用FDR<5%的標(biāo)準(zhǔn)篩選到100個(gè)差異基因、蛋白或代謝物,那么可以理解為這100個(gè)物質(zhì)里面大約有95個(gè)是在兩組間存在真實(shí)差異。

      FDR的計(jì)算公式也十分簡(jiǎn)單:q=p *m/rank,這里的m為p值的總個(gè)數(shù),rank為p值從大到小的排序。簡(jiǎn)單來說,若進(jìn)行了100次差異分析得到了100個(gè)p值(m=100),則只有最小的p值rank=100,校正之后保持不變,而其他較大的p值排序靠前<100,都會(huì)由于檢驗(yàn)次數(shù)的增加而受到懲罰。

      當(dāng)然,F(xiàn)DR還有很多其他的估計(jì)方法和計(jì)算公式如:SAM法、經(jīng)驗(yàn)貝葉斯法等,感興趣的童鞋們可以自行查閱相關(guān)文獻(xiàn),如哈醫(yī)大衛(wèi)生統(tǒng)計(jì)教研室李康教授的一篇中文綜述《多重假設(shè)檢驗(yàn)中FDR的控制與估計(jì)方法》中就有更多細(xì)節(jié)的介紹。


      四、FDR校正的R語言實(shí)現(xiàn)

      能做FDR校正的R packages還是有很多的,派派給大家介紹一個(gè)自己常用的“fdrtool”:

      1.計(jì)算p value,合并為一個(gè)向量。

      如果有100個(gè)p value,則可記錄為data = c(p1:p100)

      2. 載入程序包

      library('fdrtool')

      3.計(jì)算FDR校正后的p value

          FDR <- fdrtool(data,statistic='pvalue',plot=F)$qval

      4.計(jì)算結(jié)果中FDR的順序與data中p value的順序一一對(duì)應(yīng)。


      五、p value校正小建議

      千萬不要迷信p value!千萬不要迷信p value!千萬不要迷信p value!

      無論是p value還是校正后的p value,都只是代表了統(tǒng)計(jì)學(xué)上的概率,而概率這個(gè)東西在一定程度上并不意味著最終結(jié)果的真實(shí)與否。所以從統(tǒng)計(jì)學(xué)的角度,派派更傾向于在研究設(shè)計(jì)之前就確認(rèn)好研究的主要目標(biāo),圍繞主要目標(biāo)進(jìn)行的合理嚴(yán)謹(jǐn)?shù)目蒲性O(shè)計(jì)才是提高結(jié)果可靠度的最佳途徑,而在研究過程中意外發(fā)現(xiàn)的陽性結(jié)果,只有經(jīng)過更多的重復(fù)試驗(yàn),或者更有針對(duì)性的實(shí)驗(yàn)設(shè)計(jì)重復(fù)研究,才可以認(rèn)為是靠譜的結(jié)果。

           同樣的,即使發(fā)現(xiàn)的差異物質(zhì)p value不夠顯著,但呈現(xiàn)了預(yù)期的變化趨勢(shì),在考慮到樣本量可能不足,實(shí)驗(yàn)設(shè)計(jì)的混雜因素控制得不夠理想的情況下,建議不要輕易放棄,最好進(jìn)行下實(shí)驗(yàn)研究的把握度評(píng)價(jià)。若本次實(shí)驗(yàn)的把握度不夠理想,而從專業(yè)角度上該物質(zhì)發(fā)揮效用的可能性甚高,那么也值得重新設(shè)計(jì)或擴(kuò)大實(shí)驗(yàn)樣本量,進(jìn)行深入的驗(yàn)證和探索。


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多