科學的目的是盡可能準確地建立事實。因此,分辨觀察到的現(xiàn)象是否是真實的、還是純屬巧合的結(jié)果至關(guān)重要。如果你以為你發(fā)現(xiàn)了一些事實,而它其實只是隨機的,這會被稱為虛假的發(fā)現(xiàn)或假陽性。尤其是在醫(yī)學的某些領(lǐng)域,假陽性這種情況是非常常見的。 假陽性;許多微觀的癌和非癌的人體組織樣本。圖片來源:Wellcome Images 7月22日,一篇發(fā)表在PsyArXiv的文章引發(fā)了一場激烈的大辯論。辯論的問題很簡單,而且還正中所有科學研究的核心,即:什么樣的結(jié)果才能算是可靠的? 這個問題非常重要,因為許多學科目前都面臨著“可重復性危機”,即使是教科書里的內(nèi)容,也未必能通過嚴格的重新測試。 此次辯論的中心是“統(tǒng)計顯著性”這個概念,它是決定研究結(jié)果是否能發(fā)表在科學期刊中最有影響力的度量標準之一。若一個結(jié)果要能被算得上是“統(tǒng)計上顯著的”,它需要通過一項簡單的測試。測試的答案被稱為“P值”。如果P值小于0.05-恭喜你!通過測試,你擁有了一個統(tǒng)計顯著的研究結(jié)果。 但不久前,來自統(tǒng)計學、心理學、經(jīng)濟學、社會學、政治學、還有生物醫(yī)學等學科的72名卓越的學者想要改變這種現(xiàn)狀。他們在一篇即將刊登在《自然人類行為》雜志上的文章中表示,研究結(jié)果必須通過更高的門檻,才能被視為具有“統(tǒng)計顯著性”。 這篇題為《重新定義統(tǒng)計顯著性》的文章即將發(fā)表在《自然:人類行為》雜志。合作者包括了兩位研究可重復性的重量級人物:John Ioannidis和Brian Nosek.圖片來源:D.J.Benjamin 作者寫道:“我們建議將P值改為小于0.005,這個簡單的步驟將即刻提高科學研究在許多領(lǐng)域的重復性?!?如果這一改變被接受,它就有可能大大減少科學文獻中的假陽性。 斯坦福大學健康研究教授 John Ioannidis 是這篇文章的作者之一,他說:“我們使用P值的方式存在很大的問題,這導致了現(xiàn)在學術(shù)論文中出現(xiàn)了大量誤導性的主張?!?同時 Ioannidis 也表示,這個建議并不能解決科學中的所有問題,他說:“我認為這就像是一個大壩,在我們找到永久性修復的方法前,它能幫我們遏制洪水?!?div> 但并不是每個人都認同這種做法。 它能導致的最好結(jié)果是,通過這個簡單的改變,學術(shù)文獻中的錯誤得以顯著減少。而最壞的結(jié)果,這種居高臨下的命令,可能讓科學中一些真正的問題喪失表達機會。 這也正是這場辯論的主要焦點。 什么是P值? 當研究人員計算一個P值時,他們測試的是“零假設”。要知道的是:這不是一個關(guān)于實驗者最迫切想要回答的問題的測試。 什么是零假設呢?舉個簡單粗暴的例子,假設實驗者想要知道每天吃一個巧克力棒是否能減肥,于是分配了50個參與者每天吃一個巧克力棒,安排另50人不許吃巧克力棒。在實驗前和試驗后分別測量兩組參與者的體重,之后再比較兩組的平均體重。 這時,零假設會倡導的論證則是:吃巧克力與不吃巧克力的參與者的體重減輕沒有差別(即假設了要被試驗的效應并不存在)。因此,駁回零假設是科學家在證明自己理論過程中的主要障礙??茖W家會通過統(tǒng)計學來排除一些零假設。最基礎(chǔ)的,他們會問自己:基于現(xiàn)有的結(jié)果,相信零假設是正確的這件事會有多荒謬呢? 駁回零假設與法庭上證明一個人有罪的原則有些類似。比如說,在法庭上,你先假定被告是無辜的,接著你看到證據(jù),如:帶血的刀子上有他的指紋,他有暴力傾向的記錄,還有目擊證人作證等等。根據(jù)這些證據(jù),無罪定論開始顯得幼稚。到了某一程度上,法官會感覺得到,這已超出了合理懷疑,被告并不是無辜的。 零假設檢驗遵循類似的邏輯:如果吃巧克力的人和不吃的人之間的體重差異不同,那么“沒有重量差異”的零假設則看起來很愚蠢。就可以被駁回。 你可能會想:這種證明一個實驗的方式豈不是很迂回?是的,就是很迂回!被駁回的零假設是實驗的一個間接證據(jù)。它并不能說明你的科學結(jié)論是否正確。 就接著上面的例子來說,比如被駁回的零假設并不能告訴提供你任何關(guān)于巧克力引起減肥的機制。它也不能告訴你實驗是否設計良好、控制得當,或者結(jié)果是否被擇優(yōu)挑選過等等。它只是幫你了解結(jié)果的罕見程度。 而P值量化了這個稀有度。它告訴你的是,在假設這個零假設是真的的前提下,在重復實驗中,你能得到相同結(jié)果的次數(shù)是多少。如果P值非常小,也就是說得到相同結(jié)果的次數(shù)很少,則證明零假設的可能性很小,這意味著實驗結(jié)果的數(shù)據(jù)是由隨機運氣導致的可能性就很小。 另外還有一個問題,研究者永遠也無法完全排除零假設,所以科學家們就選擇了一個讓他們比較舒適的門檻,也就是現(xiàn)在設定的P值小于0.05。 在理想情況下,一個等于0.05的P值意味著如果你重復實驗100次(強調(diào):假設零假設為真),你能得到相同的結(jié)果的次數(shù)為5次。 最后一個超級棘手、幾乎大多數(shù)人都弄錯的概念是:P值小于0.05并不意味著你的實驗結(jié)果是由隨機運氣產(chǎn)生的幾率不到5%,也不意味著你只有小于5%的概率得到假陽性的結(jié)果。它能說明的只是:在零假設為真的情況下,你得到的結(jié)果是由于隨機運氣導致的概率不到5%。 這聽起來很吹毛求疵,但卻至關(guān)重要。因為這常導致人們對P值的理解產(chǎn)生誤會,過度自信,因為P值為0.05的實驗出現(xiàn)假陽性的概率可以遠遠高于5%。 反對P < 0.05的聲音 通常,P值不能用來做結(jié)論,而是確定可能性,像一種取樣測試。在很長一段時間以來,小于0.05的P值取樣看上去很不錯。但在最近過去的幾年里,越來越多的研究者和統(tǒng)計學家已經(jīng)意識到,P<0.05并不像想象中的那么有力。 最顯而易見的證據(jù)是:許多P值低于0.05門檻的論文無法被更嚴謹?shù)膶嶒灧椒ㄖ貜汀?div> 2015年《科學》雜志的一篇論文試圖復制100篇發(fā)表在一本優(yōu)秀的心理學雜志上的發(fā)現(xiàn),只有39%通過了測試。其他學科要稍微好一點,經(jīng)濟學中類似的復制發(fā)現(xiàn)約有60%的結(jié)果是可重復的。生物醫(yī)藥也同樣是“可重復性危機”的重災區(qū),但具體數(shù)字還并不清楚。 從2015年《科學》刊登的這篇論文提供的一些線索來看,發(fā)現(xiàn)P值低于0.01的心理學研究的可被重復的可能性要明顯高于剛好在0.05水平的研究。 通常P=0.05被視為“統(tǒng)計顯著”,P=0.01為“非常顯著”。低P值會使假設成立的可能性更大,但不會有非常明顯的差異。圖片來源:R. NUZZO 另外,還有研究人員還發(fā)現(xiàn),我們能看到的所有已發(fā)表的論文都有一個名義上的“統(tǒng)計學上顯著的”結(jié)果。 而實際上,這些P值小于0.05的絕大多數(shù)論文并不符合其真正的效果。 很久以來,科學家都認為P < 0.05代表了事情的罕見,而新的統(tǒng)計學發(fā)現(xiàn)并不是這樣的。 2013年在PNAS刊登的一篇論文中,華盛頓大學的統(tǒng)計學家 Johnson 使用了更先進的統(tǒng)計技術(shù)來測試這個研究者通常所做的“一個0.05的P值意味著零假設為真的幾率是5%”的假設。他的分析顯示,事實上,當P值為0.05時,零假設為真的概率可達到25%到30%。 而25%和30%這樣的數(shù)字,幾乎很難被稱得上“罕見”二字了。 更嚴謹?shù)膶嶒灧椒?div> 這篇論文里所提倡的主要是在修辭上的改變:將達到0.05級別的結(jié)果稱為具有“啟示性”意義的結(jié)果,而達到更嚴格標準的0.005的結(jié)果才能被稱為“統(tǒng)計顯著”的結(jié)果。換句話說,期刊仍然可以像以前一樣發(fā)表一些較弱、甚至可能無效的結(jié)果。這種語言上的調(diào)整將有希望降低媒體在發(fā)布新聞稿和新聞報道時,類似“重磅”、“大突破”、“大發(fā)現(xiàn)”等標題語的濫用。 統(tǒng)計顯著的意義上的變化可能會迫使今后研究人員需采取嚴謹?shù)膶嶒灧椒āH绻麑嶒炇掖_實想發(fā)表“統(tǒng)計顯著”的結(jié)果,在將來可能會變得更加困難。例如,對一些需要參與者的實驗,參與人數(shù)平均可能要增加70%,這樣變化基本能將證據(jù)的力度提高六倍左右。 加重的舉證責任將可能推動研究人員采用其他科學改革者一直呼吁的做法,如與其他實驗室共享數(shù)據(jù)以達成共識,并對已有的科研工作進行更長遠的思考。更高的門檻也將鼓勵實驗室在發(fā)表結(jié)果之前更多次的重復實驗。 值得一提的是,在某些領(lǐng)域中,為了避免錯誤的結(jié)果,早已將P值的閾值設置的非常低。比如粒子物理學家在收集粒子對撞產(chǎn)生的數(shù)據(jù)中一直要求P值低于3 ×10^?7,遺傳學家在進行全基因組關(guān)聯(lián)研究時,也要求P值小于5×10^?8。但也有一些科學家已經(jīng)放棄P值,轉(zhuǎn)而使用更復雜的統(tǒng)計學工具,比如貝葉斯檢驗。 反對P < 0.005的聲音 當然關(guān)于這個提案也有許多反對的聲音,其中一個是心理學家 Daniel Lakens,目前他正與數(shù)十名作者聯(lián)合組織反駁論文。他的主要觀點是,這種改變“統(tǒng)計顯著性”的建議可能減緩科學進步的步伐。 Lakens 舉了一個例子:“我們將科學研究比喻成在公路上駕駛一輛汽車,公路會設定最高速度。你可以將你所在國家的最高速度設置為每小時20英里,這樣的話沒有人會因車禍而死,即便你撞倒了一個人,他們也不會死。這樣很好,對吧?但在科學上我們不這樣做,我們要將最高速度設置得高一點,因為那能讓我們更快的抵達下一個地方。科學就是這樣啊……” Lakens 說,理想的情況下,證明一個假設所需的統(tǒng)計顯著性的水平取決于這個假設的荒謬程度。 換句話說,如果你想要聲稱一個“心靈感應”這類發(fā)現(xiàn)是真的,你會需要一個很低的P值;但是,對一個已經(jīng)很平常的概念,我們是否還需要一個如此極端的測試呢?高標準可能會阻礙只有較少科研資源的年輕博士檢驗他們的想法。 再者,0.05的P值也并不一定意味著實驗將是假陽性。一個好的研究者會知道如何跟進和找出真相。 對這個提案的另一個批評是,它會使得科學界加劇對P值的關(guān)注。而正如上問討論的那樣,P值并不能真正告訴我們一個假設的優(yōu)劣。 Ioannidis 也承認:“統(tǒng)計顯著性本身并不能傳遞一個研究的意義、重要性、臨床價值和實用性?!彼f,在理想情況下,科學家們不需要依靠零假設測試來重新審視他們自己。但是我們不是生活在理想世界里,在現(xiàn)實世界中,P值仍是任何科學家都可以輕松使用來測試的一種快速簡單的工具。而且在現(xiàn)在,P值仍在決定什么是可以被發(fā)表的這一問題上扮演很重要的角色。 真正的問題:科學文化氛圍 或許改變統(tǒng)計顯著性的定義并不能解決真正的問題,因為真正的問題可能是科學文化。 在2016年一項調(diào)查中采訪了200多名美國知名高校的科學家,詢問他們:“如果你能改變一件與現(xiàn)在科學圈有關(guān)的事,那將是什么?”答案中的一個清晰的回復便是:科學機構(gòu)需要設置對待科研失敗的更好的方式。 科學文化氛圍的現(xiàn)狀是,年輕的科學家需要一定的發(fā)表量才能獲得工作,成功發(fā)表論文需要統(tǒng)計顯著的結(jié)果,統(tǒng)計顯著性本身并不導致可重復性危機?;蛟S是這種科研氛圍加劇了這種了使這個行業(yè)變得脆弱的情況。 但就目前而言,調(diào)整P值仍只是一個引發(fā)劇烈爭辯的提案。各類期刊并不會急于在一夜之間改變編輯與審核的標準。這場辯論還將持續(xù)。 但是如果因此變成,修正了措辭的“啟示性”的結(jié)果難以被發(fā)表,只得到“啟示性”結(jié)果的研究無法留住科研經(jīng)費,那么科學共同體或許還沒有汲取足夠的教訓。 其實仔細想想,關(guān)于調(diào)整P值的這項提案似乎更多在說科學家需要更嚴謹?shù)氖褂每茖W措辭,“啟示性”或者“無效的”結(jié)果也是結(jié)果。Ioannidis說:“平均來看,'失敗'的研究平比正面研究可能更有價值?!?div> 科研機構(gòu)和科學期刊其實都知道這一點,但他們只是常常忘記要這樣做。 |
|