異女子特異功能待考證 金標(biāo)準(zhǔn)黃金實(shí)驗(yàn)蒞危機(jī) 2005 年第一場(chǎng)雪,把伊利諾伊大學(xué)香檳分校打扮得銀妝素裹,一片茫茫。料峭的寒風(fēng)中,剛剛在那兒做完演講的我,由陪同的教授、我過(guò)去的學(xué)生蘇珊作向?qū)?,參觀校園。蘇珊特地把我?guī)У揭粔K空地前。空地已完全被大雪覆蓋,隱約中見(jiàn)到一塊牌子,上面清晰地記載著如下文字:“伊利諾伊大學(xué)莫柔地塊:美國(guó)最早的實(shí)驗(yàn)田,建于1876 年。該實(shí)驗(yàn)田的結(jié)果證明土壤的質(zhì)量是農(nóng)業(yè)生產(chǎn)率最關(guān)鍵的決定因素。(Universityof Illinois, The Morrow Plots. America’sOldest Experimental Field Established in 1876. Results Demonstrate that SoilQuality Is a Vital Component of Agricultural Productivity.)” 看到這塊牌子和實(shí)驗(yàn)田,一種莫名的激動(dòng)使我一時(shí)有些頭暈?zāi)垦?。雖然經(jīng)常在書(shū)中讀到農(nóng)業(yè)實(shí)驗(yàn)的實(shí)證方法并對(duì)它的定理和假設(shè)爛熟于心,雖然早就知道“分割地塊實(shí)驗(yàn)”(Split-Plot Experiment)開(kāi)拓了農(nóng)業(yè)乃至社會(huì)行為領(lǐng)域的實(shí)驗(yàn)方法和用于方差分析(ANOVA)的因子設(shè)計(jì)法 (Factorial Design),今天站在這門(mén)科學(xué)結(jié)出的實(shí)實(shí)在在的果實(shí)面前,依然忍不住激動(dòng)和對(duì)前輩大師們肅然起敬。準(zhǔn)確地說(shuō),是現(xiàn)代農(nóng)業(yè)開(kāi)拓了隨機(jī)實(shí)驗(yàn)法,那位 20 世紀(jì)最偉大的統(tǒng)計(jì)學(xué)家羅納德·費(fèi)雪爵士(Sir Ronald Fisher)在統(tǒng)計(jì)科學(xué)上的主要貢獻(xiàn)都是他在英國(guó)著名的農(nóng)業(yè)實(shí)驗(yàn)室供職時(shí)做出的。 用今天的眼光看,這項(xiàng)始于 1876 年的實(shí)驗(yàn)所證明的土壤質(zhì)量與農(nóng)業(yè)生產(chǎn)率的因果關(guān)系似乎很簡(jiǎn)單。但是,即便是這樣一個(gè)“簡(jiǎn)單的”因果分析課題,花去了幾代科學(xué)家 100 多年的努力,投入的人力物力和消耗的資源不計(jì)其數(shù)。任何科學(xué)假設(shè),沒(méi)有經(jīng)驗(yàn)或?qū)嵶C資料證明,它永遠(yuǎn)只是假設(shè),還稱(chēng)不上科學(xué)。今天,由費(fèi)雪創(chuàng)立的“隨機(jī)實(shí)驗(yàn)法”被稱(chēng)為因果分析的“黃金標(biāo)準(zhǔn)”(Gold Standard)。準(zhǔn)確地說(shuō),美國(guó)食品和藥物管理局(FDA)在對(duì)新產(chǎn)品認(rèn)證的時(shí)候,如果證明結(jié)果的方法有若干種,F(xiàn)DA 只認(rèn)由隨機(jī)實(shí)驗(yàn)法支持的結(jié)果。也就是說(shuō),唯有隨機(jī)實(shí)驗(yàn)法才是擲地有聲的“黃金標(biāo)準(zhǔn)”。 我們或許不會(huì)想到,20 世紀(jì) 30 年代,當(dāng)費(fèi)雪創(chuàng)立純隨機(jī)實(shí)驗(yàn)方法的時(shí)候,占統(tǒng)治地位的因果研究方法是控制法(也稱(chēng)匹配法)。費(fèi)雪以前的科學(xué)家相信控制:要證明因果關(guān)系,研究者必須精確地控制實(shí)驗(yàn)室的一切,要讓實(shí)驗(yàn)組和控制組盡可能地匹配,盡可能地“相像”,這樣他們才能把觀察到的結(jié)果差異歸因于實(shí)驗(yàn)。研究者要盡可能地控制實(shí)驗(yàn)室的一切,如溫度、濕度,乃至實(shí)驗(yàn)者的心理和情緒。費(fèi)雪說(shuō),要控制這一切,在現(xiàn)實(shí)中是不可能的;研究者即便能部分地控制,由此所需要的經(jīng)濟(jì)成本也將實(shí)驗(yàn)變得不可操作。換言之,控制近乎天方夜譚。所以,費(fèi)雪說(shuō),與其控制一切,不如什么都不控制,即“純隨機(jī)”:實(shí)驗(yàn)者用純隨機(jī)的方法把研究的對(duì)象分到實(shí)驗(yàn)組和控制組中去,這樣,純隨機(jī)將使“觀察到的”和“未觀察到的”干擾因素趨于平衡,即實(shí)驗(yàn)組和控制組通過(guò)隨機(jī)而盡可能地相像。在這樣的條件下研究者觀察到的在結(jié)果變量上的差異,可以比較放心地歸因于實(shí)驗(yàn)或干預(yù),也就是說(shuō),這種差異具有統(tǒng)計(jì)意義上的“顯著性”。 費(fèi)雪的“純隨機(jī)實(shí)驗(yàn)”思想見(jiàn)于他的經(jīng)典著作《實(shí)驗(yàn)設(shè)計(jì) Design of Experiments》(1935/1971)中。為了說(shuō)明純隨機(jī)的重要性,費(fèi)雪講了一個(gè)奇異女子的故事。他說(shuō),有一位英國(guó)淑女聲稱(chēng)自己有一種品茶的特異功能:無(wú)論茶道師怎樣備茶,這位女子只要喝一口,馬上就能知道這杯茶是牛奶先放,還是茶葉先放。要證明這位奇女子的特異功能(即她的結(jié)果不是猜出來(lái)),我們?nèi)绻脟?yán)格的控制法,會(huì)將實(shí)驗(yàn)做得異常復(fù)雜,而且也無(wú)法保證結(jié)果的精確性。這里有很多因素要控制,比如茶葉的濃度、牛奶的濃度、水溫、是否要放糖、糖的濃度,等等。費(fèi)雪說(shuō),用純隨機(jī)的方法,就能測(cè)試這位女子是否真正具備特異功能。他說(shuō),我們可以準(zhǔn)備8杯茶,4杯牛奶先放,4杯茶葉先放,然后,我們將這8杯茶次序打亂,用一種純隨機(jī)的方式將這8杯茶呈送給女子。由于8杯茶4杯奶先放4杯茶先放,我們可以計(jì)算出來(lái),總共有70種準(zhǔn)備的方式(即:8樣?xùn)|西每次拿出4樣的組合,一共有70種)。如果我們要求這位女子對(duì)8杯茶的答案與茶道師準(zhǔn)備的方式完全一致,她猜出來(lái)的概率只有70分之一,1/70=0.0124,概率非常?。╬<>我們拒絕這一假設(shè)所犯一型錯(cuò)誤(拒絕一個(gè)不應(yīng)該拒絕的假設(shè))的概率小于0.05,我們的結(jié)論具有統(tǒng)計(jì)意義上的顯著性。請(qǐng)注意,以上結(jié)論要求女子對(duì)8杯茶的答案與茶道師的準(zhǔn)備完全一致,這是很難的;如果這位女子真能做到,那末,我們有比較充足的理由相信她確實(shí)有這個(gè)特異功能。費(fèi)雪進(jìn)一步提出,如果我們把要求降低,只要求六杯茶的結(jié)果與茶道師準(zhǔn)備的方式一致,那么結(jié)論就大不相同了。在70種備茶方式中,有17種方式可以讓女子的答案做到6杯與茶道師一致。在這個(gè)條件下,女子猜出來(lái)的可能性變得很大了,這個(gè)猜出來(lái)的概率是:17/70=0.243。也就是說(shuō),只要求6杯匹配,我們拒絕上述虛擬假設(shè)犯一型錯(cuò)誤的可能性變得很大(p>.05),我們實(shí)驗(yàn)的結(jié)論在.05的水平上將不再具有統(tǒng)計(jì)意義上的顯著性。 從這個(gè)故事中,我們可以看到,純隨機(jī)可以將一個(gè)非常復(fù)雜的任務(wù)變得異常簡(jiǎn)單。這個(gè)著名的費(fèi)雪實(shí)驗(yàn),事實(shí)上是一個(gè)“思維實(shí)驗(yàn)”,沒(méi)有真正的女子參與品茶;但是,它隱含了當(dāng)今統(tǒng)計(jì)學(xué)幾個(gè)非常重要的思想。除了對(duì)隨機(jī)實(shí)驗(yàn)重要性的證明,它揭示了如何做假設(shè)檢驗(yàn),如何建立“研究假設(shè)”以及與之對(duì)應(yīng)的“虛擬假設(shè)”,如何定義統(tǒng)計(jì)意義上的顯著性。費(fèi)雪的深刻思想,奠定了現(xiàn)代統(tǒng)計(jì)研究的基石。 雖然,在當(dāng)代因果分析中隨機(jī)實(shí)驗(yàn)法依然被稱(chēng)作金標(biāo)準(zhǔn),但是科學(xué)家們發(fā)現(xiàn),在很多領(lǐng)域,特別是在人文社會(huì)科學(xué)領(lǐng)域,純隨機(jī)是無(wú)法做到的:很多時(shí)候,將需要接受服務(wù)的人安排到?jīng)]有任何服務(wù)的控制組是違背倫理道德的;很多時(shí)候,研究者不可能實(shí)施社會(huì)實(shí)驗(yàn)。例如,要研究抽煙對(duì)健康的致命影響,研究者就要將研究對(duì)象隨機(jī)地分為“抽煙”和“非抽煙”兩組;事實(shí)上沒(méi)有任何研究者可以進(jìn)行這樣的社會(huì)實(shí)驗(yàn)。從某種意義上說(shuō),純隨機(jī)實(shí)驗(yàn)面臨危機(jī)。正是在這樣的背景下,大約40年前,統(tǒng)計(jì)學(xué)家(以Donald Rubin 和Paul Rosenbaum 為代表)和計(jì)量經(jīng)濟(jì)學(xué)家(以James Heckman 為代表)開(kāi)發(fā)了現(xiàn)代因果分析方法。這些方法主要用于“準(zhǔn)實(shí)驗(yàn)quasi-experimental”設(shè)計(jì)中。在準(zhǔn)實(shí)驗(yàn)中,由于無(wú)法做到“純隨機(jī)”,研究者必須用更復(fù)雜的分析方法將干擾因素去掉。這些復(fù)雜的分析方法,包括樣本選擇模型Sample Selection、傾向值分析Propensity Score Analysis、工具變量法Instrumental-Variable Method、回歸斷裂法Regression Discontinuity、定向無(wú)循環(huán)圖法Directed Acyclic Graphs、貝葉斯法Bayesian Methods,等等。
|
|