乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      SPSS之1:n傾向性得分匹配

       Memo_Cleon 2021-04-05

      轉(zhuǎn)自個(gè)人微信公眾號(hào)【Memo_Cleon】的統(tǒng)計(jì)學(xué)習(xí)筆記:SPSS之1:n傾向性得分匹配。

      前面我們已經(jīng)有兩篇推文介紹過(guò)傾向性得分匹配(傾向值匹配),一篇是采用SPSS進(jìn)行1:1的PSM,另外一篇采用的是R的MatchIt包來(lái)實(shí)現(xiàn)。SPSS操作簡(jiǎn)便,但目前尚不支持1:n的PSM,也不能直接對(duì)匹配后的數(shù)據(jù)進(jìn)行平衡性分析,安裝R插件后這些問(wèn)題都會(huì)得到解決,安裝教程可參考《PS Matching安裝攻略》。本次筆記的操作需要成功安裝PS Matching插件。

      在進(jìn)行傾向值分析分析過(guò)程中,有幾個(gè)問(wèn)題關(guān)鍵問(wèn)題需要了解一下。
      (1)匹配方法。傾向值匹配用到的具體方法有很多,比如最鄰近匹配(nearest neighbor matching)、卡鉗匹配(caliper matching)、精確匹配(Exact Matching)、最優(yōu)匹配(Optimal Matching)、完全匹配(Full Matching)。最鄰近匹配是從暴露組(或干預(yù)組、處理組)的第一個(gè)研究對(duì)象開(kāi)始在對(duì)照組中尋找傾向值(propensity score,PS)與其最接近的個(gè)體進(jìn)行配對(duì),直至暴露組所有個(gè)體找到對(duì)象。我們?cè)谇懊鎯善莆闹惺褂玫降目ㄣQ匹配,實(shí)際上就是在最臨近匹配的基礎(chǔ)上加一個(gè)限制條件,即要求暴露/干預(yù)組與對(duì)照個(gè)體間的傾向值差值在事先設(shè)定的某范圍內(nèi)才能進(jìn)行匹配。精確匹配要求匹配對(duì)象具有相同的協(xié)變量值。最優(yōu)匹配(Optimal Matching,或稱最優(yōu)成對(duì)匹配Optimal pair matching)和完全匹配(Full Matching,或稱最優(yōu)完全匹配Optimal full matching)不求單個(gè)匹配最好,但整體上更好,最優(yōu)匹配要去每個(gè)暴露組對(duì)象與單個(gè)對(duì)照組對(duì)象相匹配,完全匹配則可以每個(gè)暴露組對(duì)象與一個(gè)或多個(gè)對(duì)照組,或者每個(gè)對(duì)照組對(duì)象與一個(gè)或多個(gè)暴露組對(duì)象相匹配。另外還有一些其他的匹配算法,比如遺傳匹配(Genetic Matching)、粗度精確匹配(Coarsened Exact Matching)、子類匹配(Subclassification)。匹配指標(biāo)除了傾向值外,還有馬氏距離、病例對(duì)照按各個(gè)因素直接匹配等。
      (2)傾向值模型變量的選擇。傾向值是在給定協(xié)變量的條件下,研究對(duì)象被分配到處理組的概率。常通過(guò)傾向值模型來(lái)獲得,一般采用logistic回歸或者Probit回歸。在建立傾向值模型時(shí),應(yīng)該納入哪些變量呢?全部協(xié)變量?與暴露因素和結(jié)局都有關(guān)的協(xié)變量(即混雜因素)?與結(jié)局有關(guān)的變量?還是與暴露和結(jié)局都無(wú)關(guān)的變量?研究表明模型納入與處理無(wú)關(guān)而與結(jié)局有關(guān)的變量,可以增加估計(jì)處理效應(yīng)的精度,同時(shí)不會(huì)增加偏倚,最優(yōu)傾向值模型是納入所有與結(jié)局有關(guān)的變量,而不管其是否與暴露因素有關(guān)。哪些是相關(guān)因素應(yīng)根據(jù)專業(yè)知識(shí)而定,一種可以考慮的辦法是將結(jié)局變量與協(xié)變量構(gòu)建二分類的logistic模型進(jìn)行逐步回歸,進(jìn)入模型的變量作為PS模型的自變量。注意此處構(gòu)建的模型因變量是結(jié)局變量,而不是在構(gòu)建PS模型時(shí)的暴露/干預(yù)因素,如果以暴露/干預(yù)因素為因變量來(lái)進(jìn)行過(guò)logistic逐步回歸篩選,納入的變量再多,最終篩選到的都是與暴露因素相關(guān)的因素,其與結(jié)局變量相關(guān)或不相關(guān)是不知道的,PS模型納入與處理有關(guān)而與結(jié)果無(wú)關(guān)的變量不會(huì)降低偏倚,而且會(huì)降低估計(jì)處理效應(yīng)的精度
      (3)匹配后數(shù)據(jù)集的組間均衡性分析。傾向值匹配只是數(shù)據(jù)的處理過(guò)程,獲得匹配集后還需要再次對(duì)協(xié)變量在處理組和對(duì)照組的均衡性進(jìn)行驗(yàn)證,在均衡的前提下才能考察干預(yù)的作用。很多文章對(duì)匹配數(shù)據(jù)的組間協(xié)變量均衡性檢驗(yàn)采用的是假設(shè)檢驗(yàn)的方法,我們?cè)凇?/span>傾向性得分匹配(SPSS)》、《傾向性得分匹配(R:MatchIt)》、《病例對(duì)照匹配》中對(duì)匹配后的數(shù)據(jù)就是采用這種方法對(duì)均衡性進(jìn)行分析。但這樣做有值得商榷的地方。傾向性匹配數(shù)據(jù)集是從代表總體的樣本的再抽樣,是樣本中的樣本,而假設(shè)檢驗(yàn)對(duì)應(yīng)的是樣本所在的總體,另外傾向性匹配后的數(shù)據(jù)樣本量減少本就會(huì)導(dǎo)致P值變大。基于這兩點(diǎn),有些研究并不采用假設(shè)檢驗(yàn)來(lái)驗(yàn)證匹配后的均衡性,而是采用標(biāo)準(zhǔn)化均數(shù)差異standardized mean difference),PS Matching插件中提供該指標(biāo)的多種驗(yàn)證方法。有些研究會(huì)同時(shí)提供標(biāo)準(zhǔn)差異和假設(shè)檢驗(yàn)的結(jié)果。
      (4)處理效應(yīng)的估計(jì)。數(shù)據(jù)匹配前,干預(yù)組和對(duì)照組間的比較我們一般按照兩個(gè)獨(dú)立樣本來(lái)處理,在經(jīng)過(guò)匹配之后,一種觀點(diǎn)認(rèn)為協(xié)變量在干預(yù)/暴露組和對(duì)照組間分布均衡,個(gè)體之間有配對(duì)特征,兩組間不再獨(dú)立,因此匹配后的組間比較應(yīng)考慮到樣本的配對(duì)特征,還有一種觀點(diǎn)傾向值分析畢竟是在結(jié)局已定情況下的校正,與試驗(yàn)前的配對(duì)不同,考慮到兩配對(duì)樣本更高的分析效率,為不增加假陽(yáng)性錯(cuò)誤,按兩獨(dú)立樣本的設(shè)計(jì)進(jìn)行分析結(jié)果會(huì)更為穩(wěn)健一些。
      (5)回放(replacement)。允許放回就是允許在匹配過(guò)程中重復(fù)利用對(duì)照,這樣可以增大匹配數(shù)據(jù)集,傾向值總體差異也會(huì)變小,其缺點(diǎn)也很明顯,由于對(duì)照組內(nèi)包含了重復(fù)的個(gè)體,缺乏缺乏獨(dú)立性,采用什么方法就存在爭(zhēng)議。因此一般都不允許回放。

      示例仍然采用《傾向性得分匹配》的數(shù)據(jù):考察孕期婦女吸煙對(duì)新生兒體重的影響的觀察性研究。暴露為吸煙(mbsmoke),結(jié)局變量為是否出現(xiàn)低體重新生兒(lbweight),本次筆記僅考慮孕母年齡(mage)、是否白人(mrace)、婚姻狀況(mmarried)、孕期是否飲酒(alcohol)以及父親的年齡(fage)和是否白人(frace)幾個(gè)協(xié)變量。

      【1】基線評(píng)估:
      結(jié)果表明幾個(gè)協(xié)變量在組間均衡性較差,即這幾個(gè)協(xié)變量在暴露和對(duì)照組間存在統(tǒng)計(jì)學(xué)差異。

      【2】?jī)A向性匹配:Analyze >> PS Matching

       l 匹配算法:提供了最鄰近匹配、完全匹配和優(yōu)化匹配。本例默認(rèn)最鄰近算法;

      l 舍棄共同支持域外單位:對(duì)重疊域外的觀察對(duì)象的處理方式,包括不處理、處理組和對(duì)照組均舍棄、舍棄處理組、舍棄對(duì)照組;

      l 估計(jì)算法:默認(rèn)logistic回歸;

      l 二分類治療指示因子(0代表對(duì)照組,1代表處理組):變量類型務(wù)必為尺度變量。本例選入mbsmoke,原變量尺度為名義變量,需要改為尺度變量;

      l 協(xié)變量:選入需要匹配的變量,本例選入所有的協(xié)變量:孕母年齡(mage)、種族(mrace)、婚姻狀況(mmarried)、是否吸煙(mbsmoke)、孕期是否飲酒(alcohol)、父親的年齡(fage)和是否白人(frace);

      l 附加協(xié)變量:可選入與結(jié)局變量無(wú)關(guān)但需要平衡的變量。以結(jié)局變量為因變量,以協(xié)變量為解釋變量進(jìn)行的逐步回歸結(jié)果,進(jìn)入模型的變量選入?yún)f(xié)變量,未進(jìn)入模型的變量選入附加協(xié)變量框,本例未按此法操作,感興趣者可以嘗試;

      l 精確匹配:依據(jù)選入的變量對(duì)個(gè)體進(jìn)行精確匹配,僅適用于最鄰近匹配;

      l 卡鉗值:取值范圍0-1,值越小匹配越嚴(yán)格符合要求的匹配集越小,默認(rèn)取值0.2。

      【繪圖和輸出】

      繪圖:可輸出傾向值直方圖、個(gè)案抖動(dòng)散點(diǎn)圖、標(biāo)準(zhǔn)化差異直方圖、各協(xié)變量標(biāo)準(zhǔn)化均數(shù)差異散點(diǎn)圖、各協(xié)變量匹配前后標(biāo)準(zhǔn)化均數(shù)差異變化線圖,圖片可選擇96~400PPI的分辨率。

      輸出數(shù)據(jù)集:可選擇[帶有傾向值的原始數(shù)據(jù)集]或者[通過(guò)新生成變量“matched_id”來(lái)標(biāo)識(shí)的配對(duì)數(shù)據(jù)集],數(shù)據(jù)集可以包括所有個(gè)案,或者只保留匹配的個(gè)案。新生成數(shù)據(jù)集內(nèi)容如下表所示。本例選擇“Paired dataset by “matched_id”&“Matched cases”。

      平衡性統(tǒng)計(jì)量:基本和詳細(xì)兩種,另外可選擇是否包含交互作用。本例不考慮交互作用。

      【最鄰近匹配選項(xiàng)】

      亞分類:可選擇是否按照傾向值接近程度分為若干亞分類進(jìn)行分析,可以通過(guò)處理組、對(duì)照組或所有個(gè)案來(lái)進(jìn)行分類;

      匹配比率:默認(rèn)處理組和對(duì)照組進(jìn)行1:1匹配,也可以進(jìn)行1:n進(jìn)行匹配。本例設(shè)置為1:2;

      匹配順序:當(dāng)出現(xiàn)多個(gè)滿足匹配條件的個(gè)案時(shí),有從最大傾向值開(kāi)始匹配、從最小傾向值開(kāi)始匹配、隨機(jī)匹配三種方式。本例默認(rèn)從最大值開(kāi)始;

      本例不允許回放(replacement)。

      【3】?jī)A向性值匹配結(jié)果

      (1)樣本匹配概況:原數(shù)據(jù)對(duì)照組3778例,治療組864例,經(jīng)過(guò)傾向值匹配后獲得的數(shù)據(jù)集中處理組841例,對(duì)照組1567例,治療組和對(duì)照組并非剛好是1:2,這是由于有病例組未能找到匹配對(duì)象所致;未能匹配成功的病例中治療組23例,對(duì)照組2199例;有12例對(duì)照組病例不再共同支持域被舍棄掉。 

      (2)平衡性檢驗(yàn)

      (2.1)Hansen&Bowers全局平衡性檢驗(yàn):P>0.05表示協(xié)變量和附加協(xié)變量框中的變量在兩組間整體均衡性良好,但只適用于1:1匹配且數(shù)據(jù)不能回放,本例按1:2進(jìn)行匹配,因此該法不能給出結(jié)果。 

      (2.2)相對(duì)多變量不平衡L1檢驗(yàn):L1值取值范圍0-1,匹配后的值越小匹配效果越好。該例匹配后的值變小,表示匹配對(duì)平衡性有改善。

       

      (2.3)不平衡協(xié)變量概況,若出現(xiàn)|d|>0.25的變量則提示該變量存在不均衡性,且會(huì)按照|d|大小從上到下給出。|d|即標(biāo)準(zhǔn)化均數(shù)差異(standardized mean difference)。本例未出現(xiàn)|d|>0.25的變量,可認(rèn)為匹配后各變量在組間達(dá)到了均衡。 

      (2.4)各變量的平衡性詳情,給出傾向值和各變量在匹配前后處理組均值、對(duì)照組均值、對(duì)照組各變量的標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)化均數(shù)差。|標(biāo)準(zhǔn)化均數(shù)差|<0.1,則組間均衡性良好,|標(biāo)準(zhǔn)化均數(shù)差|>0.25則組間均衡性較差了。本例匹配后各變量標(biāo)準(zhǔn)化均數(shù)差絕對(duì)值均小于0.1,組間均衡性良好。 

      對(duì)于標(biāo)準(zhǔn)差異,除了上述表格直接給出了具體的數(shù)值,后面也給出了標(biāo)準(zhǔn)化差異的幾種圖示法結(jié)果,如各變量的標(biāo)準(zhǔn)化差異的變化線圖(lineplot)、直方圖(histogram)以及散點(diǎn)圖(loveplot),見(jiàn)后面的(2.6)、(2.8)、(2.9)。

      (2.5)個(gè)案抖動(dòng)散點(diǎn)圖,顯示傾向值的分布。本例處理組和對(duì)照組的重疊性較好,雖然處理組還有一些未能匹配的對(duì)象,但是獲得兩組匹配個(gè)體的傾向值都比較接近,匹配效果還是不錯(cuò)的。該圖中對(duì)照組匹配對(duì)象的圈點(diǎn)要比處理組大,是因?yàn)樵谠搱D中圈點(diǎn)的大小表示權(quán)重,本例處理組:對(duì)照組采用的比率是1:2,因此對(duì)照組的點(diǎn)比較大。

      (2.6)標(biāo)準(zhǔn)差異變化線圖,用線圖來(lái)表示各個(gè)變量匹配前后標(biāo)準(zhǔn)化均數(shù)差異絕對(duì)值變化。本例各個(gè)變量的標(biāo)準(zhǔn)差異均明顯降低,匹配對(duì)數(shù)據(jù)的平衡有改善。

      (2.7)傾向值的分布直方圖。提供未匹配和匹配后傾向值的相似度,并提供共同支持域的密度函數(shù)曲線,匹配后處理組和對(duì)照分布近似提示匹配良好。

      (2.8)匹配前后標(biāo)準(zhǔn)差異直方圖,提供匹配前后標(biāo)準(zhǔn)化均數(shù)差異的直方圖即密度曲線。匹配后的標(biāo)準(zhǔn)化差異集中在0附近,提示不再存在系統(tǒng)差異。 

      (2.9)loveplot,即各協(xié)變量標(biāo)準(zhǔn)化均數(shù)差異散點(diǎn)圖,該圖能夠明顯看出匹配前后均衡性發(fā)生的改變。各協(xié)變量匹配前后的標(biāo)準(zhǔn)化差異,若匹配后變量對(duì)應(yīng)點(diǎn)落-0.25~0.25之間,則示變量達(dá)到均衡。

      有的研究對(duì)匹配后數(shù)據(jù)均衡性研究采用的是假設(shè)檢驗(yàn)分析,這個(gè)我們?cè)诒疚牡拈_(kāi)始已經(jīng)提到過(guò)。假設(shè)檢驗(yàn)結(jié)果顯示是否飲酒在組間依舊不平衡。我們可以縮小卡鉗值重新對(duì)原始數(shù)據(jù)進(jìn)行匹配,實(shí)際上當(dāng)卡鉗值設(shè)置為0.1時(shí),飲酒在組間達(dá)到平衡,感興趣的可以自行操作。

      【4】暴露因素作用評(píng)估:孕期吸煙能夠影響新生兒的體重。

      兩獨(dú)立樣本的卡方分析:Chi2=19.784,P<0.001,OR=1.810;

      考慮配對(duì)的單因素條件logistic回歸:wald chi2=15.346,P<0.001,進(jìn)行多因素校正wald chi2=21.841,P<0.001,RR=2.252。

      參考文獻(xiàn)

      王永吉等.中華流行病學(xué)雜志,2010,31(7).

      黃福強(qiáng)等.J south Med Univ,2015,35(11).

      Yoon Kong Loke et al.Diabetes Obes Metab. 2020;22(Suppl. 3).

      轉(zhuǎn)自個(gè)人微信公眾號(hào)【Memo_Cleon】的統(tǒng)計(jì)學(xué)習(xí)筆記:SPSS之1:n傾向性得分匹配

      END

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多