乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      困擾多年的問題:如何篩選自變量建立多因素回歸模型

       妙趣橫生統(tǒng)計(jì)學(xué) 2019-12-08



       "如何分析真實(shí)世界研究數(shù)據(jù)"系列第二篇

      在開篇已經(jīng)提過,回歸分析是真實(shí)世界研究最重要的手段,其中目的是探討多因素情況下,各個(gè)因素的獨(dú)立效應(yīng)。那么,困惑諸多分析者的問題是,無論是醫(yī)院的電子病歷、還是調(diào)查研究,均涉及到幾十個(gè)甚至上百個(gè)研究因素(我們稱之為自變量),如何篩選構(gòu)建一個(gè)多因素回歸模型呢?

      一、為什么要篩選變量構(gòu)建回歸模型


      比如,現(xiàn)在研究要評(píng)價(jià)結(jié)直腸癌患者生存的影響因素(后期來構(gòu)建預(yù)測(cè)模型),與患者有關(guān)的因素包括患者的基本情況、患者病情、患者入院治療、用藥的各種特征、出院后行為、飲食、以及就診特征,可能各因素都會(huì)影響生存結(jié)局。

      生存結(jié)局因因素應(yīng)該可以構(gòu)建COX回歸模型。構(gòu)建COX回歸模型時(shí),是要同時(shí)把所有自變量(也就是原因變量)納入回歸方程嗎?

      當(dāng)然不能,理由如下:

      (1)這些因素作為自變量放在一起,各個(gè)變量的復(fù)雜的關(guān)系,比如共線性問題,會(huì)導(dǎo)致模型構(gòu)建失敗

      (2)任何一個(gè)回歸模型,基于有限樣本量構(gòu)建,樣本量和納入模型自變量息息相關(guān),太多變量而樣本量不夠時(shí),同樣模型構(gòu)建失敗

      (3)回歸分析探討影響因素,后期是為了構(gòu)建預(yù)測(cè)模型,自變量個(gè)數(shù)也不能太多。為什么,預(yù)測(cè)模型是為了后期預(yù)測(cè)患者結(jié)局,需要采集模型所有的自變量的指標(biāo)值,測(cè)定指標(biāo)需要成本,自變量個(gè)數(shù)越多,則預(yù)測(cè)成本越高。

      因此,必須篩選為數(shù)不多、合適的變量進(jìn)入回歸模型。總的來說,我用一個(gè)形容詞來說回歸模型構(gòu)建的理念:“大道至簡(jiǎn)”。模型不要太復(fù)雜!

      二、如何篩選自變量


      篩選自變量的方式,估計(jì)很多做過回歸分析的比較熟悉。首先單因素回歸,然后P<0.05的放入模型中,或者在此基礎(chǔ)上,采用逐步回歸法篩選自變量。這個(gè)99%懂回歸分析人士的選擇,本人以往接受的教育也如此。

      但是現(xiàn)在告訴你們,這種方法已經(jīng)不是主流的方法了!

      《歐洲流行病學(xué)》雜志把篩選自變量的方法分為兩類,一類是理論驅(qū)動(dòng)方法,另外一類是數(shù)據(jù)驅(qū)動(dòng)方法,先單因素再多因素或者逐步回歸法是數(shù)據(jù)驅(qū)動(dòng)的一類方法,但不是其中的最主流的方法。

      具體來說,現(xiàn)在常見的篩選自變量方法有四種:

      “Among those, 146 studies (50%) reported using prior knowledge or causal graphs for selecting variables, 34 (12%) used change in effect estimate methods, 26 (9%) used stepwise approaches, 16 (5%) employed univariate analyses, 5 (2%) used various other methods and 107 (37%) did not provide sufficient details to allow classification (more than one method could be employed in a single article)

      1)首選方法,是因果關(guān)系網(wǎng)絡(luò)方法,更多的寫法是有向無環(huán)圖(Directed Acyclic Graph,DAG)方法,也就是理論驅(qū)動(dòng)的方法。根據(jù)變量與變量的因果關(guān)系篩選進(jìn)入回歸模型的自變量。如果理論上不存在因果關(guān)系? 別進(jìn)來!

      2)其次是,效應(yīng)改變法原理,這才是數(shù)據(jù)驅(qū)動(dòng)的首選方法,自變量篩選中,根據(jù)自變量對(duì)研究結(jié)局影響是否足夠大,來篩選自變量。比如當(dāng)一個(gè)變量納入回歸模型后,對(duì)重要變量效應(yīng)值的影響不到10%,那么就認(rèn)為是多余,刪掉!

      3)排在第三的是逐步回歸法,逐步回歸可以處理多重共線性,也是不錯(cuò)的。

      4) 第四才是先單因素后多因素的方法。

      所以本人在這里希望能夠通過本系列文章來革新當(dāng)前構(gòu)建回歸模型的理念和方法。

      三、我的建議:“嚴(yán)進(jìn)寬出”


      綜合四大自變量篩選的方法,我認(rèn)為可以采用"嚴(yán)進(jìn)寬出" 的理念進(jìn)行自變量篩選。

      嚴(yán)進(jìn)寬出(或者本人視頻說的嚴(yán)進(jìn)嚴(yán)納)的方法基本理念是,即在納入自變量的時(shí)候需要嚴(yán)格納入,在排除自變量的時(shí)候,沒有多大意義的別放在最終模型中來。其中嚴(yán)進(jìn)采用理論驅(qū)動(dòng)法,寬出采用數(shù)據(jù)驅(qū)動(dòng)法。常見的組合是,在研究多個(gè)影響因素時(shí),采用DAG+數(shù)+逐步回歸法;在控制混雜時(shí),采用DAG+效應(yīng)改變法。

      本篇就到此結(jié)束。下一篇我將介紹最難理解的DAG的方法。

      “如何分析真實(shí)世界研究數(shù)據(jù)”系列:

      1“如何分析真實(shí)世界臨床研究數(shù)據(jù)”系列文章開啟!敬請(qǐng)關(guān)注。

      2.真實(shí)世界數(shù)據(jù)分析(1): 為什么是回歸方法


      點(diǎn)擊關(guān)注我們

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多