這波讓人窒息的操作…… 前幾天,JAMA又登了一篇雄文——建議在醫(yī)學(xué)研究領(lǐng)域,將統(tǒng)計(jì)學(xué)常用的P值的閾值從原來(lái)的0.05下調(diào)至0.005。 知道P值是啥的朋友們大概已經(jīng)反應(yīng)過(guò)來(lái)了——這特么是要廢了一半以上的研究的節(jié)奏?。。?! 為啥這個(gè)建議讓人如此的方?感覺(jué)如此令人窒息? 咱還是先介紹一下P值是啥吧。 什么是P值 嚴(yán)格來(lái)說(shuō),P值指的是在一個(gè)特定的統(tǒng)計(jì)模型下,數(shù)據(jù)的某個(gè)匯總指標(biāo)(例如兩樣本的均值之差)等于觀測(cè)值或比觀測(cè)值更為極端的概率。 通俗的理解,如果我們預(yù)先設(shè)定一個(gè)假設(shè),從這個(gè)假設(shè)出發(fā)我們會(huì)得到一些假定的數(shù)據(jù)范圍,P值呢,就是我們所得到的實(shí)際的樣本觀察結(jié)果或更極端結(jié)果不在假定數(shù)據(jù)范圍之內(nèi)的概率。 如果P值很小,說(shuō)明原假設(shè)情況的發(fā)生的概率很小,同時(shí),P值越小,我們拒絕原假設(shè)的理由越充分。 現(xiàn)有的標(biāo)準(zhǔn)把我們認(rèn)定P值很小、小到有充分的理由拒絕原假設(shè)成立的閾值定為P<><> 正是因?yàn)?span>P值可以一定程度的驗(yàn)證假設(shè)的正確與否,其運(yùn)用已經(jīng)得到廣大科研工作者的廣泛認(rèn)可。 據(jù)估算,現(xiàn)有的科學(xué)論文中96%在其正文或者摘要中都白紙黑字的寫(xiě)著P<> 你做科學(xué)研究要是不P一下,差不多就相當(dāng)于現(xiàn)在的自拍不PS一下一樣,不敢見(jiàn)人。 然而,向來(lái)如此,就一定是對(duì)的嗎? 有關(guān)P值的三個(gè)常見(jiàn)錯(cuò)誤 事實(shí)上,關(guān)于P值的吐槽層出不窮。 甚至在2016年連美國(guó)統(tǒng)計(jì)學(xué)協(xié)會(huì)都專門(mén)發(fā)布了官方吐槽,認(rèn)為P值已經(jīng)被我們玩太多玩壞了,造成了相當(dāng)程度的誤解、迷信和濫用。 這種玩壞主要表現(xiàn)在三個(gè)方面,建議大家自我檢測(cè)一下是不是中招。 一是認(rèn)為P值代表假說(shuō)為真的概率。 比如,有的研究的原假設(shè)為藥物與安慰劑一樣有效,計(jì)算出的P值為0.02。研究者就據(jù)此認(rèn)為這個(gè)假說(shuō)只有2%的可能性是真的,他們繼續(xù)推論,原假說(shuō)的對(duì)立假說(shuō),藥物比安慰劑更有效,正確的概率就是98%。 且不說(shuō)它的對(duì)立假說(shuō)還包括安慰劑比藥物更有效這另一種可能性,對(duì)立假說(shuō)的概率絕對(duì)不能由原假說(shuō)推導(dǎo)出來(lái),需要另外設(shè)計(jì)實(shí)驗(yàn)去驗(yàn)證。 更嚴(yán)重的是,P值其實(shí)并不能衡量某條假設(shè)為真的概率,它只能只解釋數(shù)據(jù)與假設(shè)之間的關(guān)系,并不解釋假設(shè)本身。 二是忘記了“合理的推斷過(guò)程需要完整的報(bào)告和透明度”而迷信P值,覺(jué)得只要把P值放出來(lái)就大功告成,可以開(kāi)香檳慶祝了。 有的研究者可能使用了好幾種分析的方法,而只報(bào)告P值最小的那項(xiàng),這樣缺乏完整性和透明度的研究得到的P值根本不能說(shuō)明問(wèn)題,相反,P值異常的小反而會(huì)使得人懷疑你研究的報(bào)告完整性和透明度。 三是僅僅用P值來(lái)得出科學(xué)結(jié)論、商業(yè)決策或制定政策。 P值或P<> 因此,成功的科學(xué)決策取決于很多方面,包括實(shí)驗(yàn)的設(shè)計(jì),測(cè)量的質(zhì)量,外部的信息和證據(jù),假設(shè)的合理性等等。僅僅看P值是否小于0.05是非常具有誤導(dǎo)性的。 以上關(guān)于P值的錯(cuò)誤觀念中招的人超多,除了要搞研究的醫(yī)生,做流行病統(tǒng)計(jì)的衛(wèi)生人員,還有學(xué)術(shù)雜志編輯,醫(yī)學(xué)媒體編輯以及讀者……哦還有教大家P值是啥的老師……在某些單位,面對(duì)這三個(gè)錯(cuò)誤,搞不好會(huì)全軍覆沒(méi)…… 事實(shí)上,約有三分之一的號(hào)稱有統(tǒng)計(jì)學(xué)差異的P<>,而即使是正確的結(jié)論,也極少值得被運(yùn)用于醫(yī)學(xué)和衛(wèi)生保健之中。 因此,反思、完善P值勢(shì)在必行。 JAMA為啥要求降低P值 降低P值閾值的要求應(yīng)運(yùn)而生,也正是因?yàn)槿绱耍琂AMA才特別刊文提出建議將P值閾值調(diào)低至0.005。 JAMA在文中指出,這樣做有不少好處。 一方面,將P值的閾值從0.05降低到0.005,可以將過(guò)去生物醫(yī)學(xué)文獻(xiàn)中所謂具有“統(tǒng)計(jì)學(xué)顯著性”的結(jié)果,降格為僅僅是有“提示意義”。這對(duì)那些相信非黑即白二元論者特別有好處,免得他們因?yàn)镻值的錯(cuò)誤誘導(dǎo)選擇了錯(cuò)誤的科學(xué)結(jié)論。 另一方面,孟德?tīng)栯S機(jī)化研究表明,過(guò)去以P<> 此外,以往的藥物臨床隨機(jī)試驗(yàn)中,有相當(dāng)大比例的P值在0.05到0.005之間,但是其樣本數(shù)量卻并不足以表明藥物的治療作用對(duì)患者的臨床結(jié)局有幫助。嚴(yán)肅來(lái)看我們并沒(méi)有足夠的證據(jù)將這些藥物投入后續(xù)的研究,以此可以節(jié)約相當(dāng)?shù)馁Y源。 因此,雖然調(diào)低P值閾值有可能會(huì)無(wú)意中忽略掉一些可能正確的、具有有效治療效果的結(jié)論,總體而言,其利是大于弊的。 要降P的話,我們?cè)撜φ?nbsp; 雖然JAMA這篇雄文并不是強(qiáng)制性的命令或者指南,但從P值本身的缺點(diǎn)來(lái)看,更改其閾值乃是大勢(shì)所趨,我們還是應(yīng)該盡早思考、應(yīng)對(duì)這種改變。 首先,我們需要審視以往的研究結(jié)論,很多P值在0.05—0.005之間的研究,其結(jié)果到底準(zhǔn)確與否可能需要審慎的回顧性研究,一些結(jié)果明顯與臨床經(jīng)驗(yàn)不符的研究更應(yīng)該盡早束之高閣,避免知錯(cuò)犯錯(cuò)。 第二,對(duì)于今后的醫(yī)學(xué)研究,必須謹(jǐn)慎選擇研究課題、采用大樣本量的數(shù)據(jù),更精心的構(gòu)思、設(shè)計(jì)試驗(yàn)方法,才能使得結(jié)果符合更嚴(yán)格的P值需要。不說(shuō)別的,萬(wàn)一你努力做了幾年,得到P<> 此外,統(tǒng)計(jì)學(xué)研究方法并不只有一個(gè)P值,還有諸如95%可信區(qū)間、偽發(fā)現(xiàn)率、貝葉斯分析方法等等等等大量的統(tǒng)計(jì)學(xué)方法指標(biāo),可以用做P值的補(bǔ)充或者替代品。一定程度上的聯(lián)合運(yùn)用有助于彌補(bǔ)各個(gè)方法本身的漏洞,使得結(jié)論更為可信。 參考文獻(xiàn) [1].John P.A. loannidis. The Proposal to Lower P Value Thresholds to .005. JAMA. [2].Published online March 22, 2018. doi:10.1001/jama.2018.1536. [3].ASA Statement on Statistical Significance and P-values. |
|
來(lái)自: 昵稱41082923 > 《醫(yī)學(xué)》