關(guān)于下方文字內(nèi)容,作者:吳振香,西交利物浦大學(xué)經(jīng)濟(jì)與金融,通信郵箱:Zhenxiang.wu19@student.xjtlu.edu.cn 注:在讀完這篇文章后,可以前往文后PDF進(jìn)行更細(xì)致研讀。 Propensity score matching (PSM) has become a popular technique for estimating average treatment effects (ATEs) in accounting research. In this study, we discuss the usefulness and limitations of PSM relative to more traditional multiple regression (MR) analysis. We discuss several PSM design choices and review the use of PSM in 86 articles in leading accounting journals from 2008–2014. We document a significant increase in the use of PSM from zero studies in 2008 to 26 studies in 2014. However, studies often oversell the capabilities of PSM, fail to disclose important design choices, and/or implement PSM in a theoretically inconsistent manner. We then empirically illustrate complications associated with PSM in three accounting research settings. We first demonstrate that when the treatment is not binary, PSM tends to confine analyses to a subsample of observations where the effect size is likely to be smallest. We also show that seemingly innocuous design choices greatly influence sample composition and estimates of the ATE. We conclude with suggestions for future research considering the use of matching methods. PSM已經(jīng)成為會(huì)計(jì)研究中用于估算平均處理效應(yīng)的一個(gè)越來(lái)越流行的方法(table 1)。通過回顧2008-2014年,在主要會(huì)計(jì)期刊上發(fā)表的86篇文章使用PSM的研究,探討PSM相對(duì)于傳統(tǒng)的多元回歸(MR)分析的有用性和局限性以及PSM設(shè)計(jì)選擇對(duì)統(tǒng)計(jì)推斷的影響。
1 介紹估計(jì)因果處理效應(yīng)通常是實(shí)證會(huì)計(jì)研究的一個(gè)重要目標(biāo)。使用非實(shí)驗(yàn)數(shù)據(jù)的研究必須解決非隨機(jī)處理組分配導(dǎo)致的內(nèi)生性問題。文檔研究多使用多元回歸模型(MR)解決觀測(cè)數(shù)據(jù)的內(nèi)生性問題。然而,多元回歸需要對(duì)回歸結(jié)果和解釋變量之間的關(guān)系進(jìn)行適當(dāng)?shù)暮瘮?shù)設(shè)定才能獲得無(wú)偏估計(jì)量。如果Y和X之間的函數(shù)設(shè)定錯(cuò)誤,那么MR就會(huì)存在模型函數(shù)形式設(shè)定偏誤(FFM)的問題從而使得估計(jì)量有偏。傾向得分匹配的優(yōu)勢(shì)在于不需要設(shè)置特定的函數(shù)形式,故使用該種方法能夠消除由于模型函數(shù)形式設(shè)定不當(dāng)而造成的偏誤。機(jī)理上,傾向得分是在不同維度上通過協(xié)變量算出進(jìn)入處理組的概率/得分(scoring),并根據(jù)這個(gè)概率將處理組和對(duì)照組的觀測(cè)結(jié)果相匹配。PSM的反事實(shí)推斷允許直接和直觀的估計(jì)處理效應(yīng),對(duì)變量之間的函數(shù)關(guān)系放寬假設(shè)。但是,除了減少FFM所帶來(lái)的估計(jì)偏誤,PSM與傳統(tǒng)MR方法相比,在理論上幾乎沒有什么好處。2 傾向得分匹配的背景2.1 內(nèi)生性,F(xiàn)FM和傾向得分匹配在非實(shí)驗(yàn)的設(shè)定下,研究主要面臨的是內(nèi)生性問題。讓我們來(lái)考慮大學(xué)學(xué)位對(duì)個(gè)人收入的影響。最理想的是通過隨機(jī)的分配大學(xué)教育以及比較上大學(xué)和沒上大學(xué)之后的個(gè)人收入來(lái)估計(jì)平均處理效應(yīng)。在這種設(shè)定下,決定收入的因素是獨(dú)立于是否選擇上大選的,這從根本上消除了內(nèi)生性的影響。但不幸的是,這種實(shí)驗(yàn)設(shè)定幾乎是不可能的。由于沒有這種實(shí)驗(yàn),我們需要通過非實(shí)驗(yàn)設(shè)定來(lái)估計(jì)ATE。Wi = b0 + b1Di + bXi + ei (2)如果變量之間的關(guān)系設(shè)定不合理,那么就違背了E[ei|Xi] = 0 的假設(shè),系數(shù)估計(jì)將會(huì)有偏。即,如果Wi和Xi的關(guān)系被錯(cuò)誤設(shè)定,MR模型對(duì)于Xi的調(diào)整就是沒有效的。這種類型的內(nèi)生性被稱為FFM,適當(dāng)?shù)暮瘮?shù)形式的影響歸為誤差項(xiàng)并且和處理組(Di)有關(guān),b1_hat有偏。在估計(jì)處理效應(yīng)時(shí),匹配通常能夠有效解決FFM問題。即,將具有大學(xué)學(xué)歷的個(gè)體(Di = 1)與具有相同IQi (Xi)但沒有大學(xué)學(xué)歷的個(gè)體(Di = 0)匹配,消除了處理樣本和對(duì)照樣本之間的智商差異。因此,研究人員可以根據(jù)IQi (Xi)的影響進(jìn)行調(diào)整,而無(wú)需對(duì)變量之間關(guān)系的函數(shù)形式進(jìn)行假設(shè)。在觀察性研究中,如檔案會(huì)計(jì)研究中,決定處理組分配的因素往往是多維度的。使用條件為Xi的處理概率來(lái)匹配處理和控制多個(gè)維度的觀測(cè)值,其中Xi是影響Di和Wi的變量的向量。這個(gè)概率或“傾向分?jǐn)?shù)”是估計(jì)的二進(jìn)制選擇模型如下:處理過的(Di = 1)觀察值與未處理過的(Di = 0)觀察值匹配,其傾向得分從公式(3)中估計(jì)。由于傾向得分包含了Xi對(duì)Di=1的可能性的影響,PSM理想地創(chuàng)建了一個(gè)處理過的和未處理過的在Xi上相似的觀察的樣本,從而最小化Di和Xi之間的相關(guān)性,并減少FFM的影響。在此過程中,PSM的估計(jì)只關(guān)注“共同支持集”內(nèi)的觀察結(jié)果。如果IQi能夠很好的預(yù)測(cè)哪一個(gè)個(gè)體獲得大學(xué)學(xué)位,那么匹配的樣本就更可能不包含高智商上大學(xué)以及低智商不上大學(xué)的個(gè)體,因?yàn)樗麄儾惶赡苡蟹词聦?shí)。事實(shí)上,隨著IQi和Di關(guān)系的增強(qiáng),高質(zhì)量匹配的數(shù)量減少(共同支撐集↓,將會(huì)↓PSM的一般性和估計(jì)能力)。而PSM估計(jì)值的外部有效性取決于樣本的平均處理效應(yīng)是否接近總體的平均處理效應(yīng)。在許多案例中,PSM縮小了樣本大小,可能會(huì)限制在共同支持集之外有效估計(jì)的能力。2.2 會(huì)計(jì)研究中的傾向分?jǐn)?shù)匹配——誤解與局限與MR相似,PSM并不能解決大部分的關(guān)于自我選擇或者由于無(wú)法定義,無(wú)法準(zhǔn)確衡量某縣變量從而產(chǎn)生的內(nèi)生性問題。故,建議PSM作為Heckman類型的選擇模型是不準(zhǔn)確的,無(wú)條件地聲稱PSM能夠消除大部分的與“內(nèi)生性”,“自我選擇偏誤”以及“遺漏變量偏誤”問題也是不妥當(dāng)?shù)摹?/section>另一個(gè)對(duì)于PSM的明顯誤解是認(rèn)為PSM能夠模擬實(shí)驗(yàn)的條件或稱為準(zhǔn)實(shí)驗(yàn)。雖然處理組和對(duì)照組之間的X上的協(xié)變量平衡可能類似于實(shí)驗(yàn)條件,但PSM缺少真正實(shí)驗(yàn)的重要特點(diǎn)。(1)PSM能緩解處理組在可觀察特征上出現(xiàn)系統(tǒng)性差異時(shí)。但實(shí)驗(yàn)使得處理分配隨機(jī)化,能夠有效地控制可觀察和不可觀察的因素。(2)不同于實(shí)驗(yàn)在設(shè)定分配機(jī)制之前就定義了因果,PSM只決定了在分析中包含(或加權(quán))哪些觀測(cè)值。PSM的另一個(gè)問題與外部有效性有關(guān)。在重疊有限的情況下,PSM系統(tǒng)地排除了缺乏反事實(shí)的觀察結(jié)果,從而影響了ATE估計(jì)在樣本之外的推廣程度。即使在重疊的范圍內(nèi),PSM的結(jié)果對(duì)設(shè)計(jì)選擇也很敏感。許多“重疊”的觀察結(jié)果可能不匹配,除了缺乏適當(dāng)?shù)姆词聦?shí)之外,還有其他因素。2.3 PSM中重要的設(shè)計(jì)選擇Angrist&Pischke (2009,86):“在進(jìn)行傾向得分匹配時(shí),有很多細(xì)節(jié)需要明確說(shuō)明,比如如何對(duì)得分建模,如何進(jìn)行推理;然而這些細(xì)節(jié)沒有固定的標(biāo)準(zhǔn)。因此,即使使用相同的數(shù)據(jù)和協(xié)變量,不同的研究很可能得出不同的結(jié)果?!?/section>2.3.1 估計(jì)傾向得分的主要設(shè)計(jì)選擇確定實(shí)驗(yàn)組和對(duì)照組:通過匹配,觀測(cè)對(duì)象要被分配到實(shí)驗(yàn)組和對(duì)照組中。一些實(shí)驗(yàn)組的構(gòu)成是二元的,例如是否為國(guó)際財(cái)務(wù)報(bào)告準(zhǔn)則,但另一些實(shí)驗(yàn)組是由連續(xù)變量構(gòu)成的,如事務(wù)所規(guī)模,分析師數(shù)量,高管薪酬等在進(jìn)行分配時(shí)需要粗化。因此,必須選擇分界點(diǎn)來(lái)區(qū)分實(shí)驗(yàn)組。在這類情況下,匹配將傾向于發(fā)生在最接近分配的分界點(diǎn)的那些觀測(cè)對(duì)象,處理組的方差會(huì)被降低,從而減弱了檢驗(yàn)的能力增加了犯第二類錯(cuò)誤的可能。
預(yù)測(cè)模型的說(shuō)明--與MR相似,研究者們應(yīng)該識(shí)別與結(jié)果和處理有關(guān)的混淆因素(X)。PSM在估計(jì)傾向得分時(shí),通過在模型中添加X來(lái)控制混淆因素。由于估計(jì)的得分取決于模型中包含的變量X,變量的選擇將會(huì)影響的樣本的構(gòu)成,并且很有可能也會(huì)影響到統(tǒng)計(jì)推斷。因此,X的選擇需要相關(guān)的理論來(lái)支撐。PSM匹配模型不應(yīng)該基于擬合或預(yù)測(cè)能力來(lái)指定而是基于平衡處理組之間潛在的混淆或不正確的協(xié)變量。通常,PSM和MR模型之間的變量選擇應(yīng)該是類似的,如果理論不支持某一個(gè)變量應(yīng)該被放入MR模型中,那么這個(gè)理論應(yīng)該同樣的不允許PSM模型加入該變量。
2.4 形成匹配樣本的主要設(shè)計(jì)選擇重復(fù)和不重復(fù)的匹配 在不重復(fù)匹配中,每個(gè)對(duì)照觀察只能匹配一次,即使它是多個(gè)處理觀察樣本的最佳匹配。因此,與重復(fù)匹配相比,不重復(fù)匹配的匹配質(zhì)量更低,樣本量更小。理論上,重復(fù)觀察可以減少偏差,因?yàn)槊恳粋€(gè)處理組的觀測(cè)值都與最相似的控制組觀測(cè)值相匹配(就傾向得數(shù)而言)。重復(fù)匹配還能增加樣本大小。在估計(jì)時(shí),重復(fù)匹配必須適當(dāng)加權(quán)以反映匹配的次數(shù),并且必須調(diào)整標(biāo)準(zhǔn)誤。但具有極端傾向分?jǐn)?shù)的重復(fù)觀測(cè)值往往更有可能被多次匹配,因此,權(quán)重很大。這個(gè)問題可能導(dǎo)致錯(cuò)誤的統(tǒng)計(jì)推斷,如果與離群傾向得數(shù)的觀察是非代表性的。最后,在進(jìn)行重復(fù)匹配時(shí),研究者應(yīng)該披露哪一組被指定為對(duì)照組且進(jìn)行了重復(fù)匹配。匹配半徑——施加一個(gè)合適的匹配半徑通常能夠降低“差”匹配的可能性并且改善協(xié)變量平衡。
“一對(duì)一”和“一對(duì)多”匹配 會(huì)計(jì)研究中最常見的匹配方法是“一對(duì)一”匹配,即一個(gè)處理觀測(cè)值與一個(gè)對(duì)照觀測(cè)值相匹配。當(dāng)對(duì)照觀測(cè)值超過共同支持范圍內(nèi)的處理觀測(cè)值,并且每個(gè)處理觀測(cè)值存在許多合理的反事實(shí)時(shí),“一對(duì)多”匹配更有效。“一對(duì)多”匹配通常會(huì)降低某些匹配的質(zhì)量,但能降低抽樣方差。與重復(fù)匹配一樣,在一對(duì)多匹配時(shí),ATE的估計(jì)應(yīng)該適當(dāng)?shù)貙?duì)觀測(cè)值進(jìn)行加權(quán)。2.5對(duì)匹配樣本進(jìn)行評(píng)估對(duì)匹配質(zhì)量的評(píng)估——由于PSM是所有變量的綜合度量,這將會(huì)減少協(xié)變量的差異。但PSM并不能總是產(chǎn)生完美的反事實(shí)匹配,特別是對(duì)于連續(xù)變量。因此,研究人員應(yīng)該通過確定協(xié)變量的殘差差異是否足夠顯著,來(lái)測(cè)試匹配質(zhì)量。對(duì)“協(xié)變量平衡”的檢驗(yàn)一般使用組間均值或中位數(shù)差異。然而,即使差異“在統(tǒng)計(jì)上不顯著”,也不能確定模型不存在FFM問題。同時(shí),協(xié)變量差異,即使在統(tǒng)計(jì)上顯著,也可能比未匹配的樣本中小得多,從而顯著減少了FFM的偏差。如果PSM不能實(shí)現(xiàn)協(xié)變量平衡,就沒有明確的解決方案。但在評(píng)估匹配的有效性時(shí),需要考慮協(xié)變量差異大小和潛在影響。
2.6 估計(jì)處理效應(yīng)匹配后,可以使用簡(jiǎn)單的t檢驗(yàn)或MR(有時(shí)稱為“雙向穩(wěn)健”估計(jì))估計(jì)ATEs。如果協(xié)變量平衡,那么可以使用t檢驗(yàn)。當(dāng)協(xié)變量不平衡時(shí),使用MR來(lái)調(diào)整組間協(xié)變量的殘差差異。3.PSM在會(huì)計(jì)研究中的一個(gè)案例分析3.1 樣本選擇和數(shù)據(jù)描述樣本由2004 - 2012財(cái)政年度的post-Sarbanes-Oxley (SOX)后的觀察數(shù)據(jù)組成,排除了所有外國(guó)公司和金融服務(wù)(兩位數(shù)SIC代碼60-69)的觀察結(jié)果。同時(shí),不包括總資產(chǎn)少于500萬(wàn)美元的觀察和所有行業(yè)年(基于兩位數(shù)SIC代碼)中包含少于10個(gè)觀察值得樣本。3.2 研究設(shè)計(jì)分別從事務(wù)所規(guī)模 ,內(nèi)部控制質(zhì)量 ,分析師跟蹤 三個(gè)方面估計(jì)它們對(duì)財(cái)務(wù)報(bào)告質(zhì)量 的影響并檢驗(yàn)其敏感度。使用如下方程估計(jì)傾向得分以及平均處理效應(yīng)。 使用非正常應(yīng)計(jì)利潤(rùn) 和一般公認(rèn)會(huì)計(jì)準(zhǔn)則 作為財(cái)務(wù)質(zhì)量 的代理變量。此外,模型還控制了公司異質(zhì)性,變量主要包括公司規(guī)模,績(jī)效,財(cái)務(wù)狀況等。3.3 檢測(cè)FFM問題首先評(píng)估FFM在使用MR時(shí)是否會(huì)引起內(nèi)生性問題。分別檢驗(yàn)簡(jiǎn)約方程模型和擴(kuò)展方程(包含控制變量的非線性形式,如二次方三次方等)對(duì)ATE的估計(jì)是否相同來(lái)檢驗(yàn)?zāi)P褪欠翊嬖贔FM問題。如果簡(jiǎn)約方程和擴(kuò)展方程的ATF估計(jì)結(jié)果不同,則說(shuō)明模型可能存在FFM問題。table 3 中(3)和(6)的估計(jì)結(jié)果顯示,Chow檢驗(yàn)對(duì)擴(kuò)展模型和簡(jiǎn)化模型之間的ATE測(cè)試表明, 和 的非線性形式顯著影響財(cái)務(wù)報(bào)告質(zhì)量。因此在這兩個(gè)模型中可能存在FFM。3.4 第一階段預(yù)測(cè)模型 table4匯報(bào)了用于計(jì)算每個(gè)處理的傾向得分的第一階段估計(jì)。研究經(jīng)常表明,第一階段的高解釋力是PSM的理想條件。然而,第一階段的解釋力很大程度上是由分配治療的性質(zhì)所驅(qū)動(dòng)的。即處理組在X上的差異越大,預(yù)測(cè)模型的解釋能力越強(qiáng)。我們注意到,第一階段模型的解釋能力程度并不一定表明PSM的有效性,因?yàn)榈谝浑A段模型的解釋能力越強(qiáng),處理組之間的共同支撐集越小。3.5 不可重復(fù)匹配 使用相同的控制變量,table 5 是一對(duì)一不可重復(fù)匹配PSM和MR估計(jì)結(jié)果。結(jié)果表明,對(duì)ATE的PSM估計(jì)的大小可能減弱或缺乏外部有效性(Table5 Panel A)。Table 5 panel B 顯示了使用MR(全部樣本以及和PSM相同樣本)的協(xié)變量平衡性和ATE估計(jì)結(jié)果。值得注意的是,匹配之后的事務(wù)所規(guī)模的九個(gè)中的八個(gè)協(xié)變量在四大與非四大之間統(tǒng)計(jì)上不再顯著。Chow檢驗(yàn)表明PSM和MR估計(jì)在每個(gè)設(shè)定中統(tǒng)計(jì)上存在顯著差異。3.6 重復(fù)匹配在重復(fù)匹配時(shí),應(yīng)仔細(xì)考慮和披露哪一組是重復(fù)的。用table 5的不可重復(fù)匹配作為基準(zhǔn)模型(table 6 的列(1)和列(7)),chow檢驗(yàn)的結(jié)果表明ANLYST和BIG4由于是否重復(fù)的設(shè)計(jì)不同,即使是相同樣本,統(tǒng)計(jì)推斷也有著顯著的差異(table 6 panel A)。
 對(duì)于是否進(jìn)行重復(fù)匹配已經(jīng)重復(fù)匹配的設(shè)計(jì)方式對(duì)ATE估計(jì)中的結(jié)果也是有顯著影響,如Auditor size(table 6 panel B&C)。3.7 匹配變量對(duì)ATE估計(jì)的影響table 7 是將PSM第一階段LNASSETS替換為L(zhǎng)NMARKET,接著進(jìn)行與table 5 相同的匹配,chow檢驗(yàn)結(jié)果顯示,在更換變量后,部分結(jié)果統(tǒng)計(jì)上顯著不同。
 table 8 是在原有的PSM第一階段增加一些額外的變量,與原結(jié)果相比,新增變量模型的估計(jì)結(jié)果存在顯著差異。
4.對(duì)未來(lái)研究的建議和考慮4.1 改進(jìn)傾向得分匹配應(yīng)用的建議研究使用PSM的動(dòng)機(jī)應(yīng)該是為了解決FFM問題,而非消除“內(nèi)生性”,“自我選擇”或“存在遺漏變量”問題。
在僅從單個(gè)(或少數(shù))PSM樣本得出推論之前,對(duì)于結(jié)果應(yīng)更加謹(jǐn)慎。PSM與MR的統(tǒng)計(jì)推斷應(yīng)該是相類似的,因此兩者結(jié)合使用得到的結(jié)果會(huì)更穩(wěn)健。
PSM與MR模型所包含的變量應(yīng)該相同。同樣地,在PSM的第二階段,研究應(yīng)該使用所有控制變量(“雙重穩(wěn)健”估計(jì))估計(jì)MR的處理效應(yīng)。
研究應(yīng)該披露PSM的設(shè)計(jì)選擇,使得估計(jì)結(jié)果具有可重復(fù)性。具體來(lái)說(shuō),應(yīng)該披露(1)用來(lái)估計(jì)傾向得分的模型 (2)用來(lái)估計(jì)ATE的模型 (3)是否為重復(fù)匹配 (4)多少個(gè)對(duì)照組用本匹配一個(gè)處理組樣本 (5)匹配半徑以及協(xié)變量平衡性
4.2 在進(jìn)行傾向得分匹配時(shí)需考慮:(1)處理組的設(shè)定,尤其是當(dāng)變量為連續(xù)變量時(shí)。(2)考慮匹配變量與處理效應(yīng)之間的關(guān)系,決定處理組選擇的樣本特征也可能與處理效應(yīng)有關(guān)(3)考慮備選的匹配設(shè)計(jì)選擇是否也能產(chǎn)生類似的估計(jì)結(jié)果參考文獻(xiàn):Shipman, J. E., Swanquist, Q. T., & Whited, R. L. (2017). Propensity Score Matching in Accounting Research. The Accounting Review, 92(1), 213-244. (如果長(zhǎng)按沒反應(yīng),點(diǎn)一下圖片然后再長(zhǎng)按就可以了) 下面這些短鏈接文章屬于合集,可以收藏起來(lái)閱讀,不然以后都找不到了。
2.5年,計(jì)量經(jīng)濟(jì)圈近1000篇不重類計(jì)量文章,
|