1 傾向值匹配: 歷史、發(fā)展及其對調(diào)查研究的意義
來源:胡安寧. 傾向值匹配與因果推論:方法論述評[J]. 社會學(xué)研究, 2012(1):221-242 1 傾向值匹配: 歷史、發(fā)展及其對調(diào)查研究的意義 在各種控制傾向值的方法中,匹配( matching) 比較簡便易行。其基本邏輯是將受到自變量影響的個體與沒有受到影響的個體進(jìn)行配 對。而傾向值匹配就是保證匹配起來的個體的傾向值相等或者近似。再次回到大學(xué)教育的例子,傾向值匹配就是將沒有受過大學(xué)教育的人 和受過大學(xué)教育的人配對并保證他們的傾向值( 即上大學(xué)的概率) 相 同或近似,這樣我們就得到了上過大學(xué)和沒上過大學(xué)兩組個體。因為 已有的混淆變量已經(jīng)在基于傾向值的配對過程中被控制起來了,兩組個體收入上的差異就只能歸因于大學(xué)教育的有無,而不是其他混淆變 量,由此遏制了選擇性誤差。 羅森鮑姆和魯賓的思想與計量經(jīng)濟學(xué)家赫克曼的想法不謀而合。從樣本選擇的角度出發(fā),赫克曼認(rèn)為社會科學(xué)家在研究某個自變量效 果的時候會不自覺地選擇一些樣本而忽視另外一些。例如,針對某個研究項目,不同的個體有不同的參與意愿,或者研究者對于研究個體的 選擇有特定的傾向。這些選擇效應(yīng)( selection effect) 使得研究者真正接觸的樣本是有一定“偏向的”。而基于一個帶有選擇性的樣本,我們得出的結(jié)論也會由于選擇效應(yīng)的“污染”而出現(xiàn)偏差( Heckman, 1979; Heckman & Smith, 1995) 。面對這種情況,赫克曼認(rèn)為在進(jìn)行研究時需 要做兩步工作。第一步是建立模型來擬合個體參與到某種研究項目中 的可能性,第二步則是在控制這種參與可能性的前提下來考察我們所關(guān)心的自變量對因變量的效果。因此,赫克曼的方法也被稱為“兩步估計法” ( twostep estimator) ( Heckman, 1978, 1979) 。 我們今天所探討的傾向值匹配可以說是羅森鮑姆和魯賓的統(tǒng)計學(xué) 傳統(tǒng)與赫克曼的計量經(jīng)濟學(xué)傳統(tǒng)的結(jié)合。羅森鮑姆和魯賓通過邏輯回 歸方法將混淆變量“總結(jié)”成一個傾向值,而這也恰恰是赫克曼兩步估 計法中的第一步所要做的,即通過模型估算個體參與某項研究的概率, 二者殊途同歸。然而,這兩個傳統(tǒng)的一個不同點在于他們處理傾向值 的方式有一定差異。在得到傾向值之后,羅森鮑姆和魯賓提出了多種 控制傾向值的方法 : 除 了 匹 配 之 外,也可以將傾向值分層 ( stratification) 或細(xì)分( sub-classification) ,然后在每個層次或類別內(nèi)探 索因果關(guān)系;或者也可以將傾向值作為新的變量進(jìn)行回歸分析。① 而在赫克曼的計量經(jīng)濟學(xué)傳統(tǒng)中,傾向值主要是作為一個新的變量被納入到已有的計量經(jīng)濟模型中,例如選擇模型( selection model) ,工具變量( instrumental variable) ,或雙重差分方法( differencein-differences method) 。需要指出的是,這種差異只是在處理傾向值的具體方式上的 不同,本質(zhì)上這兩個傳統(tǒng)的基本邏輯是一致的,即在考察自變量效果之 前通過模型估計并控制個體受到自變量影響的概率。 在社會學(xué)領(lǐng)域,早在1997 年,賓夕法尼亞大學(xué)社會學(xué)系的史密斯 就已經(jīng)使用傾向值匹配方法研究醫(yī)院改革對患者死亡率的影響( Smith, 1997) 。然而,史密斯這篇文章的主要目的是展示傾向值匹配 方法,因此是作為方法論的論文發(fā)表在《社會學(xué)方法論》 ( Sociological Methodology) 期刊上的。兩年以后,哈佛大學(xué)的溫希普和摩根在《美國 社會學(xué)年鑒》 ( Annual Review of Sociology) 上系統(tǒng)梳理了如何通過統(tǒng)計 方法進(jìn)行因果推論,其中也談到了傾向值匹配( Winship & Morgan, 1999) 。 總體上來說,在2000 年之前,社會學(xué)領(lǐng)域內(nèi)對傾向值匹配的主要 關(guān)注點還是在于熟悉傾向值匹配的基本邏輯,而將其作為一種普遍適 用的統(tǒng)計方法去研究實際問題還要到21 世紀(jì)才漸漸興起。2003 年, 當(dāng)時還在哈佛大學(xué)學(xué)習(xí)的哈丁在《美國社會學(xué)雜志》 ( American Journal of Sociology) 上發(fā)表了一篇論文研究社區(qū)貧困程度對社區(qū)少年輟學(xué)及 早孕的影響,其中傾向值匹配開始像多元回歸那樣作為一種統(tǒng)計技術(shù) 來驗證和發(fā)展已有理論( Harding, 2003) 。也正是在這一階段,傾向值 匹配的軟件模塊開始被開發(fā)出來并嵌入到一般的統(tǒng)計軟件中。例如, 貝克爾和櫟野在2002 年發(fā)布了可以嵌入 Stata 的用于傾向值匹配的模 塊“pscore” ( Becker & Ichino, 2002) 。魯汶及夏內(nèi)西也在一年后發(fā)布了 他們所編寫的用于傾向值匹配的模塊“psmatch2” ( Leuven & Sianesi, 2003) 。這些統(tǒng)計模塊的開發(fā)使傾向值匹配開始在社會學(xué)領(lǐng)域廣泛應(yīng) 用。根據(jù)哈佛大學(xué)社會學(xué)系安衛(wèi)華的梳理,截至2009 年,在《美國社會 學(xué)評論》 ( American Sociological Review) 和《美國社會學(xué)雜志》上發(fā)表的 論文中,利用傾向值匹配技術(shù)的超過了200 篇,內(nèi)容涉及教育社會學(xué)、 互聯(lián)網(wǎng)使用、失業(yè)問題、健康問題等諸多方面( An, 2010) ??梢哉f,在 當(dāng)前的社會學(xué)研究中,傾向值匹配已逐漸發(fā)展成為一個普適的統(tǒng)計研 究方法,并得到越來越多的重視。 傾向值匹配在社會學(xué)領(lǐng)域的興起并非偶然,這是和社會學(xué)對大規(guī) 模調(diào)查資料的使用分不開的。與統(tǒng)計學(xué)領(lǐng)域的實驗設(shè)計不同,調(diào)查資 料無法對研究個體進(jìn)行人為控制。從這個意義上說,基于調(diào)查資料的 研究也被稱為“觀察性研究” ( observational studies) ( Rosenbaum, 2002) 。在實驗性研究中,選擇性誤差可以通過隨機化( randomization) 的方法來克服,但在觀察性研究中,類似的隨機化是不可能的。因此, 社會學(xué)家們基于調(diào)查資料去探究任何兩個變量關(guān)系的時候都不可避免 地會受到其他混淆變量的影響。例如,布蘭德和謝宇在2010 年的一篇 論文中列舉了在研究大學(xué)教育和收入關(guān)系時所存在的選擇性誤差( Brand & Xie, 2010) 。一方面,很多人之所以能夠上好大學(xué)就在于其 個人能力較其他人高,而這些人在未來的工作中也很可能表現(xiàn)得更好 從而收入更高。如果我們的研究樣本大部分都是高智商群體,那么就 會“顯得”大學(xué)教育帶來高收入,但實際上,大學(xué)教育對收入的影響是 被個人能力這個變量給“膨脹起來” ( inflated) 的。另一方面,很多人上 大學(xué)概率低是由于他們家庭貧困難以負(fù)擔(dān)教育費用。對這些人,只要 他們完成了大學(xué)教育,即使畢業(yè)后的收入只是達(dá)到平均水平,也已經(jīng)比 之前有很大飛躍。在這種情況下如果我們的樣本偏重于家境貧寒的 人,我們就會發(fā)現(xiàn)大學(xué)教育再一次“顯得”對收入提升有很大促進(jìn)作 用,而此時的混淆變量就是家庭經(jīng)濟背景。對于這種選擇性誤差,我們 可以通過赫克曼誤差修正模型( selection correction model) 來進(jìn)行控制, 但這個模型實施起來較為復(fù)雜。相比而言,傾向值匹配為我們提供了 一種更為直觀簡便的處理選擇性誤差的方法。在下一節(jié),我將通過一 個實例來展示如何進(jìn)行傾向值匹配。 2 傾向值匹配的實施過程:一個實例 在這一部分,筆者將利用傾向值匹配的方法分析中國綜合社會調(diào)查2005 年城市問卷( CGSS2005) 的相關(guān)變量,并由此來估計中國城市 居民大學(xué)教育的收入回報。其中因變量是收入水平( 2004年全年總收入,包括工資、各種獎金、補貼、分紅、股息、保險、退休金、經(jīng)營性純收 入、銀行利息、饋贈等所有收入) ,這里將其取自然對數(shù)。我們關(guān)心的自變量是被訪者教育水平( 1 = 大學(xué)本科教育及以上; 0 = 大學(xué)本科教 育以下) 。我們需要控制的混淆變量包括: 性別( 1 = 女性; 0 = 男性) 、 年齡、政治身份( 1 =黨員;0 =非黨員) 、父親教育水平( 1 = 高中教育及 以上;0 =高中教育以下) 、戶口類型( 1 = 城市戶口; 0 = 非城市戶口) 、 被訪者的單位性質(zhì)及父親的單位性質(zhì)( 1 = 黨政機關(guān); 2 = 國有企業(yè); 3 =國有事業(yè);4 =集體企事業(yè);5 = 其他) 。此處選取這些變量是因為已 有研究表明這些變量會混淆教育水平和收入之間的關(guān)系 一般我們會把這些混淆變量作為控制變量納入到回歸模型中,但這樣做有一些潛在風(fēng)險。首先,如果將這些混淆變量作為自變量放進(jìn) 回歸模型,我們就潛在假定了這些混淆變量對收入的效果與大學(xué)教育 對收入的效果之間存在一種線性關(guān)系。然而這種線性假定缺乏理論和 實踐依據(jù) ( Morgan, 2001) 。也就是說,我們不能簡單認(rèn)為性別對收入 的影響與教育對收入的影響是累加的( additive) 。其次,大學(xué)教育的回 歸系數(shù)代表的是一種“平均”效果。這個系數(shù)所回答的問題是: 在人口 中任意選取一個人,如果他接受的是大學(xué)教育,他的收入會是什么水平。然而,在探索因果關(guān)系時我們所關(guān)心的問題則是:( 1) 一個任意選 取的大學(xué)生如果一開始沒上大學(xué)的話會是什么收入水平; ( 2) 一個任 意選取的非大學(xué)生如果上大學(xué)的話會是什么收入水平。( 1) 和( 2) 是 兩個不同的問題,而回歸模型則沒有區(qū)分它們,只是取了它們的平均水 平,這樣做無疑會帶來誤差。最后,由于混淆變量與我們關(guān)心的自變量 之間存在相關(guān)性,簡單地將混淆變量納入多元回歸模型有可能產(chǎn)生共 線性問題。傾向值匹配有效地控制了這些混淆變量,同時還通過一種 半非參數(shù)性( semi non-parametric) 方法避免了上面提到的三個風(fēng)險。① 具體而言,運用傾向值匹配方法有以下幾步。 步驟一:預(yù)測傾向值。這一步是利用已知的混淆變量使用 Logistic 或 Probit 模型來預(yù)測個體進(jìn)入大學(xué)讀書的概率?;谏厦孀兞浚玫?nbsp;的結(jié)果見表1。 通過表1 我們可以發(fā)現(xiàn),這些混淆變量加在一起對是否進(jìn)入大學(xué) 學(xué)習(xí)有比較強的解釋力,這一點可以從虛擬 R2( Pseudo R2)的數(shù)值( 超 過17%) 看出來。對社會學(xué)研究而言,這個虛擬 R2 值并不低,由此可 以看出該模型中的混淆變量能夠比較顯著地預(yù)測個體能否進(jìn)入大學(xué)讀書。 步驟二:基于傾向值進(jìn)行匹配。有了上面的 Probit 模型,我們就能 夠預(yù)測每個研究個體的傾向值。需要指出的是,雖然每個個體都有傾 向值得分,但有些人的傾向值太高或太低,因此無法找到相匹配的個體。這些傾向值取值非常“極端”的人因為沒有與之匹配的個體存在 往往無法為我們提供有用的信息,所以在隨后的分析中也就沒有被考 慮進(jìn)去,這就使得最后我們在分析高等教育的收入回報時所采用的樣 本量可能要比一開始的樣本量小。在這個最后使用的“匹配樣本”中, 我們能夠確保受過高等教育的個體和沒有受過高等教育的個體匹配起 來?!捌ヅ錁颖尽敝袃A向值的取值范圍被稱為“共同區(qū)間”( common support) 。本研究中共同區(qū)間內(nèi)的樣本量為3164( 其中上過大學(xué)的為 229 人) 。在這個共同區(qū)間內(nèi),我們有不同的匹配方法將受過大學(xué)教育 的229 人和沒受過大學(xué)教育的 2935 人配對。對某個上過大學(xué)的個體 A,比較常用的方法包括鄰近匹配( 找與 A 的傾向值得分最接近的未上 大學(xué)的個體 B 匹配) ,半徑匹配( 以個體 A 的傾向值為中心,以某個數(shù) 值為半徑,在這個范圍內(nèi)的所有沒上過大學(xué)的個體與 A 匹配) 以及核 心匹配。 步驟三:基于匹配樣本進(jìn)行因果系數(shù)估計。在這個匹配好的樣本 中,我們只需比較那些上過大學(xué)和沒上大學(xué)的個體的平均收入差值就 可以估計出大學(xué)教育本身對收入的影響。由于配對樣本的傾向值近 似,配對個體在混淆變量上的取值極為近似,這樣也就控制了混淆變量 的影響。換句話說,我們得到的組間( 上大學(xué)和沒上大學(xué)) 差異就只能 歸因于大學(xué)教育的有無。我們最后的結(jié)果如表2 所示。 通過表2 可以發(fā)現(xiàn),不同匹配方法下我們得到的因果關(guān)系系數(shù)不 完全相等,這是因為受過大學(xué)教育的個體在不同的匹配方式下可能和不同的未受大學(xué)教育的個體進(jìn)行了匹配。然而這些不同的匹配方法得出的結(jié)論基本一致( 系數(shù)在0. 73 到0. 77 之間) 。這些系數(shù)就是大學(xué)教育的收入回報。其可以解釋為與沒有受過大學(xué)教育的人相比,大學(xué)教育帶來 log( 年收入) 的變化。 需要說明的是,在社會學(xué)定量研究中,在完成了匹配以后,通常會 比較每個混淆變量在大學(xué)組與非大學(xué)組之間是否還存在顯著差異。理想情況是大學(xué)組與非大學(xué)組的混淆變量均值沒有顯著差異,這時我們 可以說這樣的配對樣本是“平衡” ( balanced) 的。限于篇幅,這里未將 均值比較結(jié)果展示出來,但我們上面的分析已通過了平衡性檢驗。此 外,傾向值匹配通常配合敏感性分析( sensitivity analysis) 來檢驗我們在 預(yù)測傾向值時是否忽略了某些關(guān)鍵的混淆變量。在敏感性分析階段, 我們假設(shè)存在一個或多個我們沒有能夠控制的混淆變量,如果這些假 設(shè)的未控制變量對收入的影響的大范圍變動都無法改變我們的結(jié)論,我們的結(jié)論就站得住腳。上面的研究就通過了相關(guān)的檢驗。 3 傾向值匹配與因果推論 傾向值匹配后的結(jié)果不僅僅指出了變量之間有聯(lián)系,還進(jìn)一步確 立了二者之間的因果性。這種方法論上的優(yōu)勢可以從科技哲學(xué)和統(tǒng)計 學(xué)兩個方面予以闡釋。 1、科技哲學(xué)角度的闡釋 傾向值匹配對因果性結(jié)論的支持首先依據(jù)的是科技哲學(xué)領(lǐng)域內(nèi)對 因果關(guān)系的理論探討。當(dāng)我們談及因果性的時候,我們往往會回歸到 密爾對求同法( method of agreement) 及求異法 ( method of differences) 的討論( 彭玉生, 2011; Mill, 2002/1984; Sobel, 1995, 1996) 。求同法是 指在一個群體中所有人都在兩個變量上取值相同( 例如所有人都上了 大學(xué),同時所有人都是高智商) 而在其他變量上取值不同( 他們不全是 女性,不全是農(nóng)村居民,等等) ,那么這兩個變量之間( 大學(xué)教育和智力 水平) 就具有因果關(guān)系。求異法是指兩個個體在因變量上的取值不 同,而在某個自變量之外的其他自變量上的取值相同,則那個取值不同 的自變量和因變量之間存在因果關(guān)系。正如彭玉生所論述的那樣,密 爾的這兩種探索因果關(guān)系的方法對后來的統(tǒng)計實驗設(shè)計有著巨大影響 ( 彭玉生, 2011) 。無論是求同法還是求異法,二者都要求對關(guān)鍵自變 量之外的其他自變量進(jìn)行考察。只有其他自變量滿足特定的條件時 ( 求同法要求其他自變量的取值都不一樣,而求異法要求其他自變量 的取值都一樣) 我們才能夠確定某種因果關(guān)系。這實際上是引入了 “控制”的思想,即只有“控制”了其他變量,我們才能夠真正確定我們關(guān)心的兩個變量之間存在因果關(guān)系。 從“控制”的角度出發(fā),傾向值匹配十分巧妙地完成了對多個混淆 變量的控制。我們可以從一個混淆變量的情況談起: 假定只有個人智 力水平混淆了大學(xué)教育和收入之間的關(guān)系。一個比較直觀的控制個人 智力的辦法是將個人智力這一變量細(xì)分( sub-classification) 成不同層次 以保證每一個層次中的人的個人智力水平近似。然后我們在各個層次 內(nèi)部觀察大學(xué)教育和收入的關(guān)系,最后將這些關(guān)系綜合起來( Rubin, 1997) 。如果存在兩個混淆變量( 例如家庭經(jīng)濟背景好壞和個人智力 高低) ,我們可以將這兩個變量交互分成 2x2 個小組,組內(nèi)個體在這兩 個變量上的取值都是一樣的( 家庭背景好且智力高、家庭背景好且智 力低、家庭背景不好且智力高,以及家庭背景不好且智力低) ,在每組 內(nèi)部觀察大學(xué)教育和收入的關(guān)系然后綜合起來。至此,通過細(xì)分的方 法,我們完成了“控制”混淆變量的工作。但隨著混淆變量越來越多, 這種細(xì)分法就變得十分不方便了。例如,如果我們要控制5 個混淆變 量,每個變量有5 個取值水平,我們就需要劃分55 = 3125 個小組。很 快我們的數(shù)據(jù)樣本量就不夠保證每一組都有個體。傾向值匹配的辦法 巧妙地解決了這個多混淆變量下的“多維” ( multiple dimensional) 問 題:它不再關(guān)注每個需要控制的混淆變量的具體取值,而是轉(zhuǎn)而關(guān)注將 這些變量納入 Logistic 回歸方程后預(yù)測出來的傾向值取值。只要保證 傾向值匹配,這些所有需要控制的混淆變量就都考慮到了( Rosenbaum & Rubin, 1983) 。這樣做實際上是將對多個混淆變量的控制轉(zhuǎn)為對傾 向值的控制從而達(dá)到“降維” ( dimension reduction) 的目的。換句話說, 無論有多少需要控制的混淆變量,我們都能夠通過傾向值匹配的方法 將它們控制,從而幫助我們得出因果性結(jié)論。因此,從“控制”的角度 出發(fā),傾向值匹配法很好地解決了多混淆變量時的控制問題,從而支持 了因果推論。 2、統(tǒng)計學(xué)角度的闡釋 傾向值匹配的因果推論功能也能通過統(tǒng)計學(xué)視角進(jìn)行闡釋。這里我們需要引入反事實框架( counterfactual framework) 這一統(tǒng)計學(xué)理論。 反事實( counter facts) 是指相反情境下的某種狀態(tài)。例如,一群病人在 一個實驗中被分到實驗組接受新藥物治療。這些人癥狀的減輕或加重 是我們能夠觀察到的“事實”。而“反事實”則是指“假設(shè)”這同一群病 人當(dāng)時不是被分到實驗組而是對照組,即沒有接受新藥物治療,那么他 們的癥狀會是什么樣子。自變量( 新藥) 對于癥狀的因果性效果在統(tǒng) 計學(xué)意義上就是指這“同一群人”在實驗組時的癥狀和在對照組時的 癥狀之間的差異。換句話說,統(tǒng)計學(xué)上的因果關(guān)系是可觀察到的“事 實”與其“反事實”之間的差異。從反事實的框架出發(fā),因果性的關(guān)系 可以表示為: 在這個公式里, Τ 是指因果關(guān)系; π 是指所有調(diào)查對象中在實驗組 中的比例,而1 - π 也就表示了所有調(diào)查對象中在對照組的比例( 例如 1/3 是大學(xué)生,那么 π = 1/3,而沒上大學(xué)的人的比例就是1 - π = 2/ 3) ; w 是一個二分變量,其中1 代表個體在實驗組而0 代表個體在對照 組; Y1 和 Y0 分別指代實驗組和對照組的成員在因變量上的取值。E 則是取平均值的意思。在上述公式中, E ( Y1 | w =1) 或 E ( Y0 | w = 0) 是可觀測到的事實,而 E( Y1 |w =0) 和 E( Y0 |w =1) 則是反事實。 ① 因 果關(guān)系 T 就表示為實驗組中的個體其“事實”與“反事實”之間的差 異———即 E( Y1 |w = 1) - E( Y0 | w = 1) ———與對照組中的個體其“事實”與“反事實”之間的差異———即 E( Y1 |w =0) - E( Y0 |w =0) ———的 加權(quán)平均值( 權(quán)重分別為 π 和1 - π) 。 但問題在于,我們永遠(yuǎn)也不可能觀測到反事實是什么,因為在某項 特定的研究中,某一群人只可能在實驗組或?qū)φ战M,而不能同時在兩組 中出現(xiàn)。這被稱為“因果推論的基本問題” ( Holland, 1986) 。為了做出因果推論,我們需要用可觀測到的 E( Y1 | w =1) 和 E( Y0 | w = 0) 來簡 化上面的因果推論公式。具體而言,我們希望能夠滿足以下條件,這在 統(tǒng)計學(xué)上稱為“非混淆假設(shè)” ( unconfoundedness assumption) : 不難看出,如果滿足非混淆假設(shè),反事實框架下的因果推論公式就 簡化為: 如果簡化因果推論公式右邊的兩項均能觀測到,我們就能做出因 果性結(jié)論,因此,從反事實框架出發(fā),能否做出因果推論主要取決于非 混淆假設(shè)是否滿足。 ① 隨機化是統(tǒng)計學(xué)中常用的辦法,由于實驗個體 是通過隨機方式分配到實驗組和對照組中的,w 本身就和最后的實驗 結(jié)果 Y1 或 Y0 沒有關(guān)系了。 ② 換句話說,無論 w =0 還是 w =1, E( Y1) 或 E( Y0) 的值都是固定的,進(jìn)而 E( Y1 |w =0) = E( Y1 |w =1) 且 E( Y0 |w =0) = E( Y0 |w =1) 。但是,對基于調(diào)查資料的社會學(xué)研究來講,我 們做不到隨機化。為了滿足非混淆假設(shè),我們能做的是盡可能控制混 淆變量,并保證這些變量一旦被控制起來, w 就能夠近似地和 Y1 或Y0 保持獨立,換句話說,我們希望做到: 上式表明,只要能夠找到并控制混淆變量 X,我們就能夠近似地做 到 w 獨立于 Y。在傾向值匹配中,所有的這些 X 通過Logistic 回歸總 結(jié)成為一個特定的傾向值 P,而非混淆假設(shè)就是通過控制傾向值 P 來 滿足的。即: 至此,通過控制傾向值,我們可以“近似地”滿足統(tǒng)計學(xué)反事實框架下的非混淆假設(shè)從而做出因果推論。之所以說“近似”,是因為控制 傾向值的效果畢竟不是真正的隨機化。很多時候我們很難知道是否已 經(jīng)控制了需要控制的“所有”混淆變量。正因為如此,在完成傾向值匹 配以后我們通常需要進(jìn)行敏感性分析。在這個意義上說,傾向值匹配 只是努力地滿足反事實框架下的因果推論條件,但即使如此,我們也已 經(jīng)從統(tǒng)計學(xué)意義上理解了傾向值匹配為什么能夠幫助我們得出因果性結(jié)論。 4 傾向值匹配與其他社會科學(xué)方法的比較 以上分析從科技哲學(xué)及統(tǒng)計學(xué)的角度闡釋了為什么通過傾向值匹 配可以得到因果性結(jié)論。然而,因果性分析的方法并不局限于傾向值 匹配,在教育學(xué)及計量經(jīng)濟學(xué)領(lǐng)域中有很多其他的方法可以幫助我們 建構(gòu)因果關(guān)系。在以下討論中,我將把傾向值匹配與回歸中斷設(shè)計和 工具變量進(jìn)行比較以展示傾向值匹配的優(yōu)勢。 1、傾向值匹配和回歸中斷設(shè)計 在教育學(xué)中應(yīng)用比較廣泛的因果推論方法是“回歸中斷設(shè)計” ( regression discontinuity design) 。該方法最先由兩位美國學(xué)者在 1960 ( Thistlethwaite & Campbell, 1960) 提出。在他們的研究中,兩位學(xué)者關(guān) 心的是學(xué)習(xí)上的榮譽獎勵( 原因) 是否能夠提升學(xué)生未來的學(xué)術(shù)成就 ( 結(jié)果) 。這里的榮譽獎勵是根據(jù)考試成績而定的: 當(dāng)考試成績 x 超過 一定分?jǐn)?shù) c,則給予獎勵( D =1) ,否則( x < c 時) 則沒有獎勵( D =0) 。通過這種操作,我們就在我們所關(guān)心的自變量那里建立了一種“中斷” ( c 之上和之下) 。隨后如果學(xué)生的學(xué)術(shù)成就也發(fā)生了類似的中斷( 例 如考試成績在 c 以下學(xué)生的學(xué)術(shù)成就低于考試成績在 c 以上的學(xué)生的 學(xué)術(shù)成就) ,則可以認(rèn)為獎勵和學(xué)術(shù)成就之間有因果關(guān)系。圖 1 用圖 示的方式表達(dá)了這種關(guān)系。 在圖1 中, x 在 c 處的中斷對應(yīng)于因變量 Y 的中斷,這種中斷 τ 代 表了 x 對于 Y 的效果。從反事實框架來看,回歸中斷設(shè)計滿足了非混 淆假設(shè)。在上面的榮譽獎勵例子中,一個人得到榮譽獎勵可以理解為 一個人進(jìn)入了實驗組,而這“完全”取決于學(xué)生的考試分?jǐn)?shù) x( 分?jǐn)?shù)高就有獎勵而分?jǐn)?shù)低則沒有獎勵) 。因此,只要我們控制了分?jǐn)?shù) x, w( 是否 得到獎勵) 就和因變量 Y1( 得到獎勵的學(xué)生的學(xué)術(shù)成就) 以及 Y0( 沒有 得到獎勵的學(xué)生的學(xué)術(shù)成就) 獨立了。用公式可以表述如下: 這里我們可以將回歸中斷設(shè)計與傾向值匹配進(jìn)行一下比較。傾向 值匹配將對多個混淆變量的控制轉(zhuǎn)化為對“單一傾向值”的控制,以此 滿足非混淆假設(shè)。而回歸中斷設(shè)計則是通過控制一個變量( 如上例中 的考試成績) 就能完成這一點。回歸中斷設(shè)計之所以不需要考慮多個 混淆變量就在于一個個體是否能夠接受某個自變量的影響( 即能否得 到獎勵) 完全取決于單一變量 x( 考試成績) 。換句話說,回歸中斷設(shè)計 中只有一個混淆變量 x。然而,在社會學(xué)的調(diào)查研究中很難找到這種 “單一混淆變量”的情況。正因為如此,回歸中斷設(shè)計在社會學(xué)中的應(yīng) 用遠(yuǎn)不及在教育學(xué)中普遍( Angrist & Lavy, 1999; Black, 1999) 。此外, 回歸中斷設(shè)計的另一個缺陷在于: 如果存在其他自變量也出現(xiàn)某種 “中斷”的情況,我們就很難知道什么原因造成了因變量取值的中斷。假設(shè)一個人是否獲獎不僅僅與考試成績在臨界點上下有關(guān)( x > c 或x < c) ,也和年齡有關(guān)( 例如年齡大的人容易獲獎,而年齡小的人很難 獲獎) ,則回歸中斷設(shè)計就無法探究榮譽獎勵本身對未來學(xué)術(shù)成就的 影響( 因為學(xué)術(shù)成就的中斷也有可能是因為年齡不同) ( Hahn et al. , 2001) 。在社會學(xué)研究中,類似的多重中斷并不少見,這也使得回歸中 斷設(shè)計的應(yīng)用范圍受到限制。 2、傾向值匹配和工具變量 除了回歸中斷設(shè)計,在經(jīng)濟學(xué)及傳染病學(xué)領(lǐng)域應(yīng)用比較廣泛的另 外一個方法是工具變量( instrumental variable) ( Angrist et al. , 1996; Angrist & Krueger, 2001; Greenland, 2000; Martens et al. , 2006; Newhouse & McClellan, 1998) 。假定我們希望探索變量 X 對 Y 的因果關(guān)系,混淆變量U的存在會影響我們的研究。這時我們尋找到一個工具變量 Z,該 變量的特點在于和 X 相關(guān),但不和 Y 直接相關(guān)( 除非是通過 X) ,同時 Z 也不與混淆變量U 相關(guān)。這樣,我們就不直接考察X 是否能影響 Y, 而是轉(zhuǎn)而考察 Z 對 Y 的影響。如果 Z 很明顯地影響了 Y,我們就能得 出 X 影響了 Y 的結(jié)論。工具變量的基本邏輯表示如圖2。 通過圖2 我們很容易理解工具變量的基本邏輯,由于混淆變量 U 和 X 互相影響,我們很難直接探索 X 對 Y 的“純”作用。所以我們找 到工具變量 Z。Z 和 Y 的關(guān)系只能通過 X,因此如果我們能夠發(fā)現(xiàn) Z 對 Y 有作用,我們就能間接得出結(jié)論說 X 對 Y 有作用,從而確定了一 種因果關(guān)系。 從嚴(yán)格的統(tǒng)計學(xué)意義上來說,利用工具變量進(jìn)行因果推論需要滿 足很多假設(shè)條件( Imbens & Angrist, 1994) 。這里可以通過一個經(jīng)典實例來展示這些假設(shè)。安格里斯特等人( Angrist et al. , 1996) 使用工具變 量分析了服兵役( X) 是否會對士兵在退伍后的健康狀況( Y) 產(chǎn)生因果 性影響。這里,服兵役的工具變量是抽簽的結(jié)果( Z) 。當(dāng)抽到的數(shù)字 低于某個值則服兵役,而高于這個值則不需服兵役。在這個例子中,安 格里斯特及其同事闡述了使用工具變量進(jìn)行因果推論的幾個關(guān)鍵假 設(shè)。第一個假設(shè)稱為“單位實驗效果值穩(wěn)定假設(shè)” ( stable unit treatment value assumption) 。這意味著每個人的抽簽結(jié)果不會對他人是否服兵 役產(chǎn)生影響。第二個假設(shè)就是上面提到的非混淆假設(shè),即抽簽的結(jié) 果和個體的健康之間相互獨立。由于這里是隨機抽簽,因此這一條件 得到滿足。第三個假設(shè)是“排除性假設(shè)” ( exclusion restriction) 。這一 假設(shè)意味著在因果推論中排除兩類人。第一類人是無論抽簽結(jié)果如何 都會服兵役( 總是服兵役的人) ,而第二類人是無論抽簽結(jié)果如何都不 會服兵役( 總是不服兵役的人) 。第四個假設(shè)是“平均因果效果非 零” ( nonzero average causal effect) ,即保證如果抽中的號碼小,則服兵 役的概率就高。最后一個假設(shè)是“單調(diào)性” ( monotonicity) ,意味著抽 中小數(shù)字的人去服兵役的概率要比抽中大數(shù)字的人去服兵役的概率高。根據(jù)這一假設(shè),那些“低數(shù)字偏偏不服兵役”而“高數(shù)字偏偏服兵 役”的“叛逆者”就被排除在外了。 根據(jù)這些假設(shè),我們回到反事實框架下的因果推論公式,即: 這里由于我們有抽簽的機制, π( 即服兵役的比例) 就等于 X( Z =1) , 而沒有服兵役的比例1 - π 則等于 X( Z =0) ,而w = X。其中, X 表示是否 服兵役,它是 Z 的函數(shù),而 Z 表示抽簽結(jié)果( Z = 1 表示抽中小號,而 Z =0 表示抽中大號) 。將它們代入反事實框架下的因果推論公式,我們得到: 由于叛逆者被排除出去,可以假定 E( Y0 | X = 1) = E( Y0 | X = 0) =0,這進(jìn)一步將因果關(guān)系簡化成為: 上述公式右端的各項都是可觀測到的,從而使得因果推論得以完 成。然而,使用工具變量方法存在諸多限制。首先,我們所推論出的因 果關(guān)系被稱為“局部平均治療效果” ( local average treatment effect) ( Wooldridge, 2002) 。這是因為我們最終能夠推算出的因果關(guān)系僅僅 適用于那些遵循“拿到小號服兵役,拿到大號不服兵役”原則的“服從 者” ( complier) ( Imbens & Angrist,1994) ,但我們不能考察總是服兵役 的人、總是不服兵役的人或叛逆者。其次,工具變量方法能否帶來因果 推論很大程度上取決于我們能否找到好的工具變量。如果工具變量本 身不夠好( 比如工具變量和我們關(guān)心的自變量的聯(lián)系很弱,或者和某 些混淆變量有關(guān)系) ,那么我們的結(jié)論就站不住腳了( Bound et al. , 1995) 。最后,工具變量的實施需要滿足一定的隨機性以滿足非混淆 假設(shè)。但在社會學(xué)研究中,類似于隨機抽簽這樣“完美”的工具變量幾 乎很少見到。 總之,無論是回歸中斷設(shè)計還是工具變量都不能夠像傾向值匹配 那樣可以方便地應(yīng)用于基于調(diào)查研究的數(shù)據(jù)分析?;貧w中斷設(shè)計需要 尋找一個變量“完全決定”個體是否進(jìn)入實驗組或?qū)φ战M,而工具變量 的方法也需要尋找到合適的工具變量來滿足上面列舉的諸多條件,這 些在調(diào)查數(shù)據(jù)中往往難以滿足。正因為如此,在社會學(xué)研究中傾向值匹配的方法要比其他方法更為“流行”。 |
|