最近,四川宜賓、云南楚雄接連發(fā)生地震,再次掀起人們對(duì)地震的恐慌。預(yù)測(cè)地震自古以來(lái)都是地震科學(xué)工作者的奮斗目標(biāo)。在深度學(xué)習(xí)如此火爆的今天,人們不禁想到,強(qiáng)大的深度學(xué)習(xí)能否用于地震預(yù)測(cè)? 去年 8 月,《Nature》上發(fā)表了一篇題為《Deep learning of aftershock patterns following large earthquakes》的火爆論文。該論文由哈佛和谷歌的數(shù)據(jù)科學(xué)家聯(lián)合撰寫,論文一作所屬單位是哈佛大學(xué)地球與行星科學(xué)系。 該論文展示了如何利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)余震。研究者指出,他們利用神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)余震位置方面的準(zhǔn)確率超越了傳統(tǒng)方法。 但很快,這一方法就遭到了深度學(xué)習(xí)從業(yè)者的質(zhì)疑。一位名叫 Rajiv Shah 的數(shù)據(jù)科學(xué)家表示,論文中使用的建模方法存在一些根本性的問(wèn)題,因此實(shí)驗(yàn)結(jié)果的準(zhǔn)確性也有待考究。這名數(shù)據(jù)科學(xué)家本著嚴(yán)謹(jǐn)?shù)木裨谕ㄟ^(guò)實(shí)驗(yàn)驗(yàn)證之后聯(lián)系了原作和《Nature》,卻沒(méi)得到什么積極的回復(fù)。 于是,Rajiv Shah 在 medium 上寫了一篇博客揭露論文中存在的根本性缺陷以及《Nature》的不作為,后來(lái)這件事又在 Reddit 上引起了廣泛的討論。下面我們回顧一下事件的始末。 文章有點(diǎn)長(zhǎng),目錄預(yù)覽:
谷歌&哈佛團(tuán)隊(duì)利用深度學(xué)習(xí)預(yù)測(cè)余震,準(zhǔn)確率空前 這篇名為《Deep learning of aftershock patterns following large earthquakes》的論文展示了如何利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)余震。 論文指出,解釋和預(yù)測(cè)余震的空間分布非常困難。庫(kù)侖破裂應(yīng)力變化可能是解釋余震空間分布最常用的判據(jù),但其適用性一直存在爭(zhēng)議。于是,研究者使用了深度學(xué)習(xí)方法來(lái)確定一種基于靜態(tài)應(yīng)力的準(zhǔn)則,該準(zhǔn)則無(wú)需提前假設(shè)破壞的方向就能預(yù)測(cè)余震的位置。 研究者在超過(guò) 131,000 個(gè)主震-余震對(duì)上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),然后在一個(gè)包含 30000 多個(gè)主震-余震對(duì)的獨(dú)立測(cè)試集上測(cè)試其預(yù)測(cè)余震位置的準(zhǔn)確率。 研究者利用 ROC 曲線來(lái)衡量神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)余震位置在測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。為了構(gòu)建這些曲線,他們繪制了一個(gè)二元分類器的真陽(yáng)性率與該分類器所有可能閾值的假陽(yáng)性率。ROC 的曲線下面積用來(lái)度量模型在所有閾值下的測(cè)試性能(如圖 1 所示)。 圖 1:主震-余震對(duì)示例 下圖 2 的測(cè)試結(jié)果表明,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)余震位置的準(zhǔn)確率(AUC 為 0.849)高于經(jīng)典的庫(kù)侖破裂應(yīng)力變化(AUC 為 0.583)。 圖 2:模型性能比較。 論文鏈接:https://www./articles/s41586-018-0438-y 論文全文:https:///https://www./articles/s41586-018-0438-y Rajiv Shah 博客揭露論文根本缺陷 以下是 Rajiv Shah 題為《Stand Up for Best Practices: Misuse of Deep Learning in Nature』s Earthquake Aftershock Paper》的博客內(nèi)容。 機(jī)器學(xué)習(xí)炒作的危害 AI、深度學(xué)習(xí)、預(yù)測(cè)建模、數(shù)據(jù)科學(xué)等方面的從業(yè)者數(shù)量在過(guò)去的幾年里急劇增長(zhǎng)。這個(gè)混合了多種知識(shí)且曾被認(rèn)為有利可圖的領(lǐng)域正在成為一個(gè)快速發(fā)展的行業(yè)。隨著人們對(duì) AI 的熱情持續(xù)高漲,機(jī)器學(xué)習(xí)增強(qiáng)、自動(dòng)化和 GUI 工具的浪潮將促進(jìn)預(yù)測(cè)模型構(gòu)建者人數(shù)的持續(xù)增長(zhǎng)。 但問(wèn)題是,盡管使用預(yù)測(cè)模型的工具變得越發(fā)簡(jiǎn)單,但預(yù)測(cè)建模所需的知識(shí)還不是一種大眾化的商品。錯(cuò)誤可能是違反直覺(jué)且微妙的,你一不小心就會(huì)得出錯(cuò)誤的結(jié)論。 我是一名數(shù)據(jù)科學(xué)家,與數(shù)十位數(shù)據(jù)科學(xué)專家共事,每天目睹這些團(tuán)隊(duì)努力構(gòu)建高質(zhì)量模型。最好的團(tuán)隊(duì)通力合作,檢查他們的模型以找出問(wèn)題。有很多問(wèn)題可能難以被檢測(cè)到,這樣就會(huì)得到有問(wèn)題的模型。 挑毛病的過(guò)程一點(diǎn)也不好玩,需要承認(rèn)那些振奮人心的結(jié)果「好得不真實(shí)」,或者他們的方法不是正確的方法。換句話說(shuō),這是一門嚴(yán)謹(jǐn)?shù)膶W(xué)科,與那些登上頭條的性感數(shù)據(jù)科學(xué)炒作沒(méi)多大關(guān)系。 糟糕的方法得到糟糕的結(jié)果 大約在一年前,我讀到了《Nature》上的一篇論文,論文作者聲稱他們利用深度學(xué)習(xí)預(yù)測(cè)余震達(dá)到了前所未有的準(zhǔn)確率。讀過(guò)之后,我對(duì)他們的結(jié)果產(chǎn)生了深深的懷疑。他們的方法根本不具備一個(gè)嚴(yán)謹(jǐn)預(yù)測(cè)模型的諸多特征。 因此我開始深挖。與此同時(shí),這篇論文成了爆款,而且得到了廣泛認(rèn)可,甚至出現(xiàn)在 TensorFlow 的版本更新公告中,用于說(shuō)明深度學(xué)習(xí)的應(yīng)用。 然而,我在深挖過(guò)程中發(fā)現(xiàn)了論文的重大缺陷,即導(dǎo)致不真實(shí)準(zhǔn)確率得分的數(shù)據(jù)泄漏(data leakage)以及模型選擇(當(dāng)一個(gè)較為簡(jiǎn)單的模型可以提供相同水平的準(zhǔn)確率時(shí),完全不必構(gòu)建一個(gè) 6 層的網(wǎng)絡(luò))。 測(cè)試集的 AUC 比訓(xùn)練集高得多……這不正常。 如上所述,這些都是很微小但卻非?;A(chǔ)的預(yù)測(cè)模型錯(cuò)誤,可能導(dǎo)致整個(gè)實(shí)驗(yàn)結(jié)果無(wú)效。數(shù)據(jù)科學(xué)家在工作中會(huì)學(xué)著識(shí)別并避免此類問(wèn)題。我認(rèn)為作者只是忽視了這一點(diǎn),因此我與她取得了聯(lián)系,以告知她這些問(wèn)題來(lái)提高分析結(jié)果。但她沒(méi)有回復(fù)我的郵件。 他們充耳不聞,我不能 那么我接下來(lái)該做什么呢?我的同事建議我發(fā)篇 twitter 就算了,但我想站出來(lái),為那些好的建模實(shí)踐發(fā)聲。我認(rèn)為理性的推理和良好的實(shí)踐會(huì)比較有說(shuō)服力,因此我開始了一場(chǎng)為期六個(gè)月的研究,并寫下我的結(jié)果分享給《Nature》。 分享了我的結(jié)果之后,我在 2019 年 1 月收到了《Nature》的一份通知,稱雖然擔(dān)心數(shù)據(jù)泄漏和建模選擇可能會(huì)使實(shí)驗(yàn)無(wú)效,但他們認(rèn)為沒(méi)必要糾正錯(cuò)誤,因?yàn)椤窪evries 等人的主要目的是將機(jī)器學(xué)習(xí)作為一種工具來(lái)深入了解自然界,而不是設(shè)計(jì)算法的細(xì)節(jié)。」而作者給出了更嚴(yán)厲的回應(yīng)。 僅僅用「失望」來(lái)表達(dá)我的感受是遠(yuǎn)遠(yuǎn)不夠的。這可是一篇重要論文(《Nature》發(fā)的?。?,這助長(zhǎng)了 AI 的炒作之風(fēng),尤其是在其使用了有缺陷的方法之后還是得到了發(fā)表。 就在這周,我偶然看到了 Arnaud Mignan 和 Marco Broccardo 發(fā)表的關(guān)于這篇余震預(yù)測(cè)論文的文章。這兩位數(shù)據(jù)科學(xué)家也注意到了論文中的缺陷。 Arnaud Mignan 和 Marco Broccardo 的論文:A Deeper Look into 『Deep Learning of Aftershock Patterns Following Large Earthquakes』: Illustrating First Principles in Neural Network Physical Interpretability 論文鏈接:https://link./chapter/10.1007/978-3-030-20521-8_1 我把我的分析和可復(fù)現(xiàn)代碼貼在了 GitHub 上。 GitHub 鏈接:https://github.com/rajshah4/aftershocks_issues 你可以親自運(yùn)行分析,看看問(wèn)題所在 支持預(yù)測(cè)建模方法,但論文存在根本缺陷 我想說(shuō)清楚的一點(diǎn)是:我的目的并不是詆毀余震預(yù)測(cè)論文的作者。我相信他們不是惡意的,我覺(jué)得他們的目標(biāo)可能只是想展示機(jī)器學(xué)習(xí)如何應(yīng)用于余震。Devries 是一位有成就的地震科學(xué)家,她只是想在自己的研究領(lǐng)域中使用最新的方法,并從中發(fā)現(xiàn)了令人興奮的結(jié)果。 但問(wèn)題是:他們的見解和結(jié)果是基于有根本缺陷的方法?!高@不是一篇機(jī)器學(xué)習(xí)論文,而是關(guān)于地震的論文?!惯@樣評(píng)價(jià)是不夠的。如果你使用預(yù)測(cè)建模方法,那結(jié)果的質(zhì)量是由建模質(zhì)量決定的。如果你做的是數(shù)據(jù)科學(xué)工作,那你的科學(xué)嚴(yán)謹(jǐn)性岌岌可危。 在這個(gè)領(lǐng)域,人們對(duì)使用最新技術(shù)和方法的論文有著極大的興趣。而一旦有問(wèn)題,收回這些論文又比較困難。 但如果我們?cè)试S有基本問(wèn)題的論文或項(xiàng)目繼續(xù)推進(jìn),那會(huì)對(duì)所有人都不利。它破壞了預(yù)測(cè)建模領(lǐng)域。 請(qǐng)反對(duì)不好的數(shù)據(jù)科學(xué),公布那些糟糕的發(fā)現(xiàn)。如果他們不行動(dòng),那就去推特發(fā)帖子,公布你發(fā)現(xiàn)的結(jié)果,讓大家能夠知道。如果我們希望機(jī)器學(xué)習(xí)領(lǐng)域繼續(xù)發(fā)展并保持信譽(yù),那我們需要的是良好的實(shí)踐。 論文作者回應(yīng) 上文中,Rajiv Shah 對(duì)論文作者的回應(yīng)僅用了一個(gè)詞:嚴(yán)厲。而 Reddit 網(wǎng)友發(fā)現(xiàn),作者的回復(fù)可以說(shuō)是很不客氣了。在下面這篇寫給《Nature》編輯的回復(fù)中,論文作者在最后一段甚至這么表述:「我們是地震科學(xué)家,你是誰(shuí)?」 以下是作者回復(fù)原文:
Reddit 熱評(píng)精選 在 Rajiv Shah 發(fā)表自己的分析結(jié)果之后,一位網(wǎng)友將此事發(fā)到了 reddit 平臺(tái)上,引發(fā)了眾多討論。 熱評(píng) 1:相比評(píng)論者(Rajiv)的言論,作者的回復(fù)更居高臨下。 評(píng)論者認(rèn)為更簡(jiǎn)單的方法可以達(dá)到差不多的效果,強(qiáng)調(diào)了進(jìn)行適當(dāng)控制變量實(shí)驗(yàn)的必要性。作者回復(fù)的最后一段基本上在說(shuō)「我們是地震科學(xué)家,你是誰(shuí)?」,并告訴《Nature》如果發(fā)表這些評(píng)論他們會(huì)很失望。 為什么評(píng)論者的這些擔(dān)憂不值得在《Nature》上發(fā)表?為什么這些評(píng)論要被限制?發(fā)表它們不是會(huì)促進(jìn)更健康的科學(xué)討論嗎?如果我在為機(jī)器學(xué)習(xí)大會(huì)審查這篇論文,我也會(huì)有類似的擔(dān)憂。至少需要一些控制變量實(shí)驗(yàn)吧。 熱評(píng) 2:論文的論點(diǎn)有些奇怪,Rajiv 的批評(píng)可以更具體 個(gè)人認(rèn)為,Rajiv 犯的一個(gè)錯(cuò)誤是指出更簡(jiǎn)單的模型可以做同樣的工作,這讓他的批評(píng)焦點(diǎn)變得不明確。這個(gè)問(wèn)題并不會(huì)使論文無(wú)效,它更適合單獨(dú)寫一篇文章來(lái)討論,就像 Mignan 和 Broccardo 所做的那樣。 不過(guò),在作者的回復(fù)中,論文的論點(diǎn)有些令人困惑:他們的論點(diǎn)似乎是「剪應(yīng)力的最大變化和米塞斯屈服準(zhǔn)則是有用的量,因?yàn)樯窠?jīng)網(wǎng)絡(luò)得出的準(zhǔn)確率與它們相同」。如果這些基于非機(jī)器學(xué)方法的 AUC 分?jǐn)?shù)只能相對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)解釋,那準(zhǔn)確地實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)非常重要。 總之,我認(rèn)為 Rajiv 最好這么做:1)明確指出對(duì)該研究應(yīng)做的修改,例如更新 AUC 分?jǐn)?shù)并在論文中解釋方差值;2)寫下他更廣泛的評(píng)論并發(fā)表在 arXiv 或類似的網(wǎng)站上。 btw,我的博士生導(dǎo)師經(jīng)常說(shuō),像《Nature》和《Science》這樣的頂級(jí)期刊有相對(duì)較高的幾率發(fā)表那種后來(lái)無(wú)法復(fù)現(xiàn)或者被發(fā)現(xiàn)有某種缺陷的論文。它們可能是最負(fù)盛名的期刊,但這并不意味著它們是最科學(xué)嚴(yán)謹(jǐn)?shù)摹?/p> 熱評(píng) 3:《Nature》負(fù)有不可推卸的責(zé)任,不作為實(shí)在令人惱火 人們都把注意力集中在作者身上,但有網(wǎng)友指出,《Nature》本身也有責(zé)任。人們花了那么多錢才能讀他們的內(nèi)容,因此他們應(yīng)該花功夫仔細(xì)審查,避免發(fā)表錯(cuò)誤的方法。 另一位網(wǎng)友表示,Ta 被《Nature》的反應(yīng)惹火了?!禢ature》好像在說(shuō),「反正大眾也不懂這些批評(píng),所以我們什么也不用做」。至少要讓論文作者更新論文來(lái)應(yīng)對(duì)批評(píng)啊。 熱評(píng) 4:論文作者真的懂什么是數(shù)據(jù)泄漏嗎? 博客中已經(jīng)提到,這篇論文的兩大問(wèn)題之一在于「數(shù)據(jù)泄漏」,那么什么是數(shù)據(jù)泄漏呢? Reddit 熱評(píng)認(rèn)為,數(shù)據(jù)泄漏是指當(dāng)你進(jìn)行預(yù)測(cè)時(shí),使用了一些現(xiàn)實(shí)上無(wú)法用于預(yù)測(cè)的信息,比如說(shuō) 2017 年做預(yù)測(cè)的時(shí)候無(wú)法獲得關(guān)于 2018 年的數(shù)據(jù)。網(wǎng)友認(rèn)為,關(guān)于地震預(yù)測(cè),使用的數(shù)據(jù)只能用來(lái)預(yù)測(cè)關(guān)于同一場(chǎng)地震的信息,而如果要預(yù)測(cè)未來(lái)的地震,你沒(méi)有相關(guān)的信息數(shù)據(jù)來(lái)訓(xùn)練模型。 網(wǎng)友 Xorlium 表示,Ta 沒(méi)看論文,因此也不太理解其它討論。但作者關(guān)于數(shù)據(jù)泄漏的回答卻似乎暴露了其沒(méi)有真正理解數(shù)據(jù)泄漏的真相。 熱評(píng) 5:他們只是為了經(jīng)費(fèi) 一位網(wǎng)友表示,「你們是地震科學(xué)家,那么你們應(yīng)該知道自己的知識(shí)和教育邊界,而機(jī)器學(xué)習(xí)并沒(méi)有包括在里面。」 這只是眾多真正的科學(xué)家走向墮落的故事之一。他們不是為了科學(xué),而是為了得到關(guān)注(發(fā)表),以此獲得更多的經(jīng)費(fèi),然后利用這些經(jīng)費(fèi)得到更多的關(guān)注。這不再是關(guān)于真理的研究。因此他們那「更加嚴(yán)厲」的回應(yīng)是出于自我防衛(wèi)。他們根本不在乎真理和真正的科學(xué)。 |
|
來(lái)自: 泰榮林黑皮 > 《數(shù)據(jù)箅法之美》