本文作者:Will Koehrsen 編譯:camel,楊曉凡 引言:本篇文章重新回顧了Breiman于2001年發(fā)表的《Statistical Modeling:The Two Cultures》一文,對(duì)數(shù)據(jù)建模和算法建模兩種文化做了詳細(xì)的反思,并指出要想發(fā)展統(tǒng)計(jì)學(xué),應(yīng)當(dāng)秉持「先有模型準(zhǔn)確性,再有模型可解釋」的觀點(diǎn)。 這是值得深思的一篇文章,一起來(lái)看 Koehrsen 的觀點(diǎn)。 在 2001 年的論文《Statistical Modeling: The Two Cultures》中,隨機(jī)森林、袋模型以及提升集成算法的提出者 Leo Breiman 總結(jié)了應(yīng)對(duì)統(tǒng)計(jì)建模問(wèn)題的兩種截然不同的處理方式:
當(dāng)年寫這篇論文的時(shí)候,Leo Breiman 估計(jì)大約有 98% 的統(tǒng)計(jì)學(xué)學(xué)者都習(xí)慣用前一種數(shù)據(jù)建模方法,而使用算法建模方法的只有大概 2%。他自己屬于后者,所以他寫這篇論文的目的就是希望提醒統(tǒng)計(jì)學(xué)學(xué)者們,不要完全依賴數(shù)據(jù)建模方法(他認(rèn)為這會(huì)帶來(lái)有誤導(dǎo)性的結(jié)論和沒(méi)有什么學(xué)術(shù)價(jià)值的理論),如今面對(duì)越來(lái)越大的數(shù)據(jù)集、越來(lái)越新穎也越貼近真實(shí)世界的問(wèn)題,大家應(yīng)當(dāng)轉(zhuǎn)向算法建模。 Breiman自己是位學(xué)者,他在UC伯克利研究統(tǒng)計(jì)學(xué)有21年了。不過(guò)在此之前他還做過(guò)13年的獨(dú)立顧問(wèn),這讓他同時(shí)也非常了解工業(yè)界是如何使用統(tǒng)計(jì)學(xué)的。 Breiman當(dāng)時(shí)是很沮喪的,因?yàn)樗罃?shù)據(jù)建模沒(méi)辦法解決收集到的大規(guī)模數(shù)據(jù)中產(chǎn)生的新挑戰(zhàn),而且統(tǒng)計(jì)學(xué)的學(xué)術(shù)研究由于不斷拒絕這些新的工具(高預(yù)測(cè)表現(xiàn)、低可解釋性的復(fù)雜算法)而開(kāi)始走向邊緣化。十八年之后,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)都有了許多變化,98%-2%的比例相信現(xiàn)在也有所不同,但他在論文中提出一些觀點(diǎn)如今仍然能對(duì)機(jī)器學(xué)習(xí)的實(shí)踐起到幫助,尤其是對(duì)于正在考慮從學(xué)術(shù)界轉(zhuǎn)向工業(yè)界的人。其中有這么幾點(diǎn)我覺(jué)得很有價(jià)值:
總的來(lái)說(shuō),這篇論文想要表達(dá)的觀點(diǎn)和我自己在工業(yè)界的機(jī)器學(xué)習(xí)實(shí)踐中的感悟是相符的:首先關(guān)注模型準(zhǔn)確率,然后只有在建立完畢一個(gè)具有很好預(yù)測(cè)表現(xiàn)的模型之后才開(kāi)始考慮如何解釋它。一個(gè)高度復(fù)雜、高度準(zhǔn)確、但難以解釋的模型,要比簡(jiǎn)單、線性、完全理解但是預(yù)測(cè)準(zhǔn)確率低下的模型有價(jià)值得多。 下面我談?wù)勗贐reiman這篇論文基礎(chǔ)上的一些個(gè)人想法。不過(guò)我也需要提前說(shuō)明,我自己只有一年的學(xué)術(shù)經(jīng)驗(yàn)和一年的工業(yè)界經(jīng)驗(yàn),要比Breiman寫這篇論文的時(shí)候稚嫩太多了。我建議各位首先閱讀一下Breiman的原文(以及,可能的話,對(duì)這篇論文的批評(píng)之聲),形成一個(gè)自己的基本判斷。 雖然機(jī)器學(xué)習(xí)的發(fā)展驚人地快,但是較早的論文、專著里仍然有許多很有價(jià)值的信息值得我們回看,像Breiman這樣對(duì)整個(gè)領(lǐng)域的發(fā)展產(chǎn)生了巨大影響的知名學(xué)者的論文尤其值得關(guān)注。 統(tǒng)計(jì)建模的兩種路線在我們討論一個(gè)好的模型需要考慮哪些因素之前,我們需要首先理解,建模的目標(biāo)同時(shí)包含了這兩點(diǎn):
在不同的情境中,這兩個(gè)目標(biāo)之間的權(quán)衡可以完全不同:如果你想要預(yù)測(cè)股價(jià)漲跌,你大概除了模型準(zhǔn)確率之外什么都不關(guān)心;而如果是在醫(yī)學(xué)研究中使用,建模的主要目標(biāo)很可能是為了了解某種疾病的誘因。不過(guò),Breiman也在論文中提出,算法建模的方法其實(shí)對(duì)于任一個(gè)目標(biāo)都更有優(yōu)勢(shì)。 一、數(shù)據(jù)建模 使用數(shù)據(jù)建模方法的研究人員首先構(gòu)建了數(shù)據(jù)生成方式的合理機(jī)制。(Breiman認(rèn)為數(shù)據(jù)模型是線性回歸或邏輯回歸等)也就是說(shuō),研究人員想出了一個(gè)線性方程,它將自變量(特征)與直覺(jué)、經(jīng)驗(yàn)或領(lǐng)域知識(shí)中的因變量(目標(biāo))聯(lián)系起來(lái)。 通過(guò)將其擬合到數(shù)據(jù)集來(lái)找到模型中的系數(shù)(特征權(quán)重)。得到的線性方程表示實(shí)際的數(shù)據(jù)生成機(jī)制——自然界產(chǎn)生因變量和自變量值的黑匣子。系數(shù)用作變量重要性的度量(權(quán)重),顯示特征對(duì)響應(yīng)的影響。 在數(shù)據(jù)建模中進(jìn)行校驗(yàn)是通過(guò)R^2或殘差分析等擬合優(yōu)度度量來(lái)完成的——兩者都是在訓(xùn)練數(shù)據(jù)集上測(cè)量的。這里很少考慮預(yù)測(cè)準(zhǔn)確性;相反,模型的重點(diǎn)在于如何更好地解釋研究中的現(xiàn)象。如果系數(shù)上的p值足夠低,那么它們就是“重要的”,模型就成了“真理”,用Breiman的話來(lái)說(shuō),從模型中得出的任何結(jié)論都是絕對(duì)可靠的。 整個(gè)過(guò)程以直覺(jué)和主觀決策為指導(dǎo):研究人員不是讓數(shù)據(jù)說(shuō)話,而是通過(guò)選擇來(lái)強(qiáng)加自己的個(gè)人理論,例如使用哪些特征以及將哪些數(shù)據(jù)點(diǎn)作為異常值拋出。 Breiman引用了Mosteller和Tukey的教科書來(lái)總結(jié)他對(duì)數(shù)據(jù)建模的失望:“整個(gè)引導(dǎo)回歸領(lǐng)域充滿了知識(shí)、統(tǒng)計(jì)、計(jì)算和主題的困難?!?/p> 換句話說(shuō),數(shù)據(jù)建模采用簡(jiǎn)單的線性模型和直覺(jué)不是從數(shù)據(jù)中學(xué)習(xí)的客觀方法。然而據(jù)Breiman表示,這是98%的學(xué)術(shù)統(tǒng)計(jì)學(xué)家采取的方法! 難怪他對(duì)自己的領(lǐng)域感到沮喪。 二、算法建模 算法建模方法圍繞著這樣一個(gè)問(wèn)題:模型在校驗(yàn)數(shù)據(jù)上的性能是什么? 對(duì)于選擇模型,不考慮模型是否代表生成數(shù)據(jù)的基礎(chǔ)機(jī)制,而只考慮模型是否可以對(duì)新(或保持)觀察進(jìn)行可靠估計(jì)。 Breiman將算法文化的興起歸功于新算法的發(fā)明,例如隨機(jī)森林(他自己的工作)、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)。這些都是——至少在當(dāng)時(shí)——理論上并未得到很好理解的模型,但產(chǎn)生了非凡的預(yù)測(cè)準(zhǔn)確性,特別是在大型數(shù)據(jù)集上。 算法社區(qū)的中心思想是:自然是一個(gè)黑盒子,我們的模型也應(yīng)該是一個(gè)黑盒子。 嘗試解釋一個(gè)不準(zhǔn)確的模型幾乎沒(méi)有用處,因此在專注于從中學(xué)習(xí)任何有關(guān)自然的知識(shí)之前,首先要集中精力構(gòu)建具有最佳性能的模型。準(zhǔn)確的模型,無(wú)論多么復(fù)雜,對(duì)于預(yù)測(cè)和信息收集都更有用。 算法文化不是來(lái)自學(xué)術(shù)統(tǒng)計(jì),而是來(lái)自“年輕的計(jì)算機(jī)科學(xué)家、物理學(xué)家和工程師加上一些老化的統(tǒng)計(jì)學(xué)家”。換句話說(shuō),那些不怕采用(甚至發(fā)明)新技術(shù)來(lái)解決新問(wèn)題的人。這些是從業(yè)者而不是理論家,他們使用神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林來(lái)解決從醫(yī)學(xué),到基因組學(xué),到股票市場(chǎng),到天文學(xué)等各個(gè)領(lǐng)域的問(wèn)題。 Breiman在擔(dān)任企業(yè)顧問(wèn)時(shí),認(rèn)識(shí)到計(jì)算機(jī)是一種非常寶貴的工具,因?yàn)樗軌驅(qū)?fù)雜的技術(shù)應(yīng)用于大量數(shù)據(jù)。回到學(xué)術(shù)界后,他對(duì)依賴數(shù)據(jù)模型而忽視預(yù)測(cè)準(zhǔn)確性感到失望。 即使你的主要目標(biāo)是通過(guò)建模提取有關(guān)自然的信息,首要任務(wù)也應(yīng)該是準(zhǔn)確性。 1、模型的多樣性許多具有不同特征集的模型具有幾乎相同的預(yù)測(cè)精度。我在最初建立的幾個(gè)模型中,被一個(gè)反復(fù)出現(xiàn)的模式所困擾。我試圖通過(guò)測(cè)量校驗(yàn)分?jǐn)?shù)來(lái)選擇“最佳”功能,但每次我嘗試不同的子集時(shí),整體校驗(yàn)分?jǐn)?shù)幾乎保持相同。這令人很費(fèi)解,但反復(fù)出現(xiàn):改變特征,甚至嘗試不同的超參數(shù)值仍然產(chǎn)生類似的性能。 Breiman說(shuō),這沒(méi)什么可擔(dān)心的,對(duì)于大多數(shù)問(wèn)題,當(dāng)使用復(fù)雜模型時(shí),有許多特征和超參數(shù)可以提供大致相同的性能。換句話說(shuō),單個(gè)最佳模型的想法是不存在的,所以我們不應(yīng)該操心如何找到它。 不過(guò)這樣的問(wèn)題確實(shí)讓那些依賴數(shù)據(jù)模型的人感到不安,因?yàn)楹?jiǎn)單的線性模型不能很好地處理大量特征,所以它們必須從中選擇,通常是用直覺(jué)或形式方法的組合。通過(guò)選擇特征和通過(guò)擬合計(jì)算系數(shù)而創(chuàng)建的從特征到目標(biāo)的映射被假定為表示基礎(chǔ)事實(shí),即數(shù)據(jù)生成過(guò)程。但是,如果實(shí)際上有許多特征可以提供相同的性能,那么如何才能成為真理的最終來(lái)源呢?實(shí)際上,有許多同樣好的模型,因此只選擇一個(gè)并不能準(zhǔn)確地表示問(wèn)題。 是什么導(dǎo)致模型的多樣性?我的經(jīng)驗(yàn)是:特征相關(guān)(變量之間的關(guān)聯(lián))。盡管線性回歸假設(shè)輸入變量是獨(dú)立的,但在實(shí)際數(shù)據(jù)集中,幾乎所有特征都具有一定程度的相關(guān)性,而且通常相當(dāng)高。因此,一個(gè)特征可以替代模型中的另一個(gè)特征而不會(huì)降低精度。 構(gòu)建一個(gè)單一的數(shù)據(jù)模型并將其稱為真理的來(lái)源,會(huì)錯(cuò)過(guò)所有其他可以執(zhí)行的模型。算法建模者就不用擔(dān)心選擇特征的問(wèn)題:只需將它們?nèi)拷唤o隨機(jī)森林,讓它找出哪些是重要的;訓(xùn)練之后,要認(rèn)識(shí)到擬合模型只是從特征到目標(biāo)諸多映射中的一種可能表示。 2、機(jī)器學(xué)習(xí)權(quán)衡:簡(jiǎn)單和準(zhǔn)確這是一個(gè)論文顯示年齡的時(shí)代。Breiman當(dāng)年提出了一個(gè)主張,即:復(fù)雜的機(jī)器學(xué)習(xí)模型是完全無(wú)法解釋的(特別是隨機(jī)森林和神經(jīng)網(wǎng)絡(luò))。因此在選擇模型時(shí),他說(shuō)我們總是需要在可解釋性和提高準(zhǔn)確率之間進(jìn)行權(quán)衡。 然而,過(guò)去幾年在解釋負(fù)責(zé)模型方面取得了重大進(jìn)展,特別是SHAP值和局部可解釋模型-不可知解釋(LIME)。這些操作基于構(gòu)建復(fù)雜模型的一般原則,然后使用簡(jiǎn)單模型(如線性回歸)解釋其中的一部分(局部)。 (有關(guān)可解釋機(jī)器學(xué)習(xí)的課程,請(qǐng)參閱Kaggle的機(jī)器學(xué)習(xí)解釋性)。 這些模型解釋技術(shù)可以適用于從隨機(jī)森林到神經(jīng)網(wǎng)絡(luò)的任何模型,并提供對(duì)各個(gè)模型預(yù)測(cè)的合理解釋。 不過(guò),Breiman對(duì)缺乏可解釋性的擔(dān)憂仍然是有效的。算法開(kāi)發(fā)的速度比解釋快得多。這可以理解——我們需要在嘗試解釋它們之前確保算法是準(zhǔn)確的。解釋不準(zhǔn)確模型的預(yù)測(cè)沒(méi)有用處?,F(xiàn)在,模型解釋技術(shù)已經(jīng)趕上了算法,我們可以同時(shí)具有預(yù)測(cè)背后的推理和高預(yù)測(cè)準(zhǔn)確性。 雖然我們?nèi)祟惸軌驅(qū)ψ约旱男袨檫M(jìn)行解釋,但要注意,人類對(duì)他們決定的解釋是很糟糕的。一個(gè)人做出選擇確實(shí)可以給出理由,但這事實(shí)上包含了影響決策的環(huán)境、遺傳、情境、情緒、神經(jīng)遞質(zhì)等各種因素。當(dāng)我們問(wèn)某人為什么上班遲到,他會(huì)告訴我們“因?yàn)槲也扇×瞬煌牡罔F路線”,我們可能會(huì)接受這一點(diǎn)并不再提問(wèn)。我們沒(méi)有深入研究推理或提出詳細(xì)的后續(xù)行動(dòng),因?yàn)檫@會(huì)導(dǎo)致更多后續(xù)行動(dòng)(我們需要知道這個(gè)人整個(gè)人生歷史,甚至完全解釋他們做出的每一個(gè)選擇)。 我發(fā)現(xiàn)人們總想對(duì)任何事情得到一個(gè)解釋,不管這個(gè)解釋多么站不住腳;即使它是一個(gè)重言式(男孩將是男孩)或循環(huán)推理(因?yàn)槲业钠磳懞懿睿曳噶嗽S多拼寫錯(cuò)誤),人們都有可能接受。 與人類的原因相反,機(jī)器學(xué)習(xí)模型輸出的SHAP值則更加全面,它能夠顯示分配給每個(gè)變量的確切權(quán)重。從這一點(diǎn)來(lái)看,我更喜歡這些模型解釋技術(shù)中的數(shù)字,而不是人類給出的誤導(dǎo)性理由。相比于擔(dān)心模型可解釋性,也許我們更應(yīng)該處理人類決策的問(wèn)題! 我們?cè)诮忉寵C(jī)器學(xué)習(xí)輸出方面取得了比弄清個(gè)人行為背后的復(fù)雜影響網(wǎng)絡(luò)方面取得了更多的進(jìn)展。 3、使用算法模型,更多特征可以提高性能在我讀研究生時(shí)上的數(shù)據(jù)科學(xué)建模課中,教授花了大量的時(shí)間使用方差膨脹因子(variance inflation factor)或互信息(mutual information)等技術(shù)進(jìn)行特征選擇。在實(shí)驗(yàn)室中,我也見(jiàn)到了許多特征選擇幾乎都是由直覺(jué)而不是標(biāo)準(zhǔn)化程序選擇的。原因聽(tīng)起來(lái)也很合理:線性模型往往不能很好地處理許多特征,因?yàn)樗鼈儧](méi)有足夠的能力對(duì)特征中的所有信息進(jìn)行建模。但這里所使用的方法通常是主觀的,這導(dǎo)致模型更多的是人類驅(qū)動(dòng),而不是數(shù)據(jù)驅(qū)動(dòng)。 相比之下,算法模型可以從大量特征中獲益。Breiman指出,更多的變量意味著更多的信息,而更有效的模型應(yīng)該能夠從噪聲中挑選出信號(hào)。像隨機(jī)森林這樣的模型可以用大量特征得到準(zhǔn)確預(yù)測(cè),即使變量的數(shù)量遠(yuǎn)超數(shù)據(jù)點(diǎn)的數(shù)量。我們可以為算法模型提供所有特征,并讓它找出于任務(wù)最相關(guān)的特征,而不是花大量時(shí)間用直覺(jué)去選擇特征。此外,我們還可以根據(jù)現(xiàn)有變量生成輔助特征,以便提取更多信息。 直覺(jué)在算法建模文化中沒(méi)有地位,這與在數(shù)據(jù)模型不同。如果我們真的想從數(shù)據(jù)中學(xué)習(xí),那么我們就必須信任數(shù)據(jù)本身,而不是我們主觀的觀點(diǎn)。算法建模不需要我們選擇任何的特征;相反,我們保留所有特征,甚至添加更多新的特征,并以更少的工作量來(lái)獲得更好的性能。 4、科學(xué):簡(jiǎn)單到復(fù)雜隨著我們對(duì)世界的了解,我們需要更復(fù)雜的預(yù)測(cè)和學(xué)習(xí)信息的模型。 宇宙的早期模型是將中心置于地球,然后是移到太陽(yáng),而現(xiàn)在我們知道即使更大的銀河系也不過(guò)是數(shù)十億個(gè)星系中渺小的一個(gè)。在每一步改進(jìn)中,模型都變得越來(lái)越復(fù)雜,因?yàn)槲覀兪占烁嗖贿m合現(xiàn)有模型的信息。牛頓萬(wàn)有引力定律在幾百年中一直運(yùn)作良好,直到我們觀察到它的局限性?,F(xiàn)在我們需要愛(ài)因斯坦的相對(duì)論才能確保GPS系統(tǒng)的準(zhǔn)確性。 類似其他領(lǐng)域不斷開(kāi)發(fā)出更復(fù)雜的模型來(lái)解決新的困難(例如為了解決微觀物理問(wèn)題,人們開(kāi)發(fā)除了量子力學(xué)),統(tǒng)計(jì)學(xué)也應(yīng)該拋棄在實(shí)用性方面已經(jīng)過(guò)時(shí)的線性模型,去擁抱更復(fù)雜的非線性模型。數(shù)據(jù)模型適用于一小部分問(wèn)題,但我們現(xiàn)在在數(shù)據(jù)科學(xué)中面臨的挑戰(zhàn)要大得多。用于解決這些問(wèn)題的技術(shù)也應(yīng)當(dāng)擴(kuò)展。 科學(xué)的其他部分正朝著更大的復(fù)雜性發(fā)展,為什么統(tǒng)計(jì)學(xué)要仍然堅(jiān)持最簡(jiǎn)單的模型呢? 目前,在統(tǒng)計(jì)領(lǐng)域仍然存在大量令人興奮的問(wèn)題等待探索,去設(shè)計(jì)最合適的工具,或發(fā)明新的技術(shù)。所以這仍然是一個(gè)讓有學(xué)術(shù)抱負(fù)的人可以馳騁的學(xué)科。 批評(píng)Breiman在其論文的附錄中貼出了4位統(tǒng)計(jì)學(xué)家的批評(píng)及對(duì)他們的回應(yīng)。我認(rèn)為這種傳統(tǒng)對(duì)于科學(xué)來(lái)說(shuō)是非常好的傳統(tǒng),科學(xué)可以通過(guò)公開(kāi)討論來(lái)推進(jìn),因?yàn)闆](méi)有任何一個(gè)人能夠有正確的答案,提出一個(gè)想法,接受批評(píng),對(duì)之改進(jìn),形成閉環(huán)的迭代過(guò)程,由此在科學(xué)創(chuàng)新上才能取得巨大的成功。 1、簡(jiǎn)單模型仍然有用這是Breiman承認(rèn)的一點(diǎn):在某些情況下,線性模型是合適的。例如,如果我們將距離建模為速率的函數(shù),則這是線性關(guān)系:距離=速率×?xí)r間。然而,自然界中很少有現(xiàn)象遵循這樣一個(gè)好機(jī)制(即使上面的例子幾乎從未在現(xiàn)實(shí)世界中存在過(guò)。)線性模型可以在非常小的數(shù)據(jù)集(特征很少)中使用,但在處理新問(wèn)題時(shí)很快就會(huì)過(guò)時(shí),在諸如天文學(xué)、氣候、股票市場(chǎng)預(yù)測(cè)、自然語(yǔ)言處理等領(lǐng)域,其數(shù)據(jù)集很大并且包含數(shù)千或更多變量。 算法文化不是放棄數(shù)據(jù)模型。其強(qiáng)調(diào)的重點(diǎn)是:在任何情況下都使用最合適的模型。如果線性模型在數(shù)據(jù)集上能夠獲得最高的預(yù)測(cè)準(zhǔn)確度,那就選擇它。Breiman的觀點(diǎn)準(zhǔn)確來(lái)說(shuō)應(yīng)該是,我們不應(yīng)該提前假設(shè)正確模型。 2、過(guò)度擬合校驗(yàn)數(shù)據(jù)過(guò)度擬合是機(jī)器學(xué)習(xí)中的一個(gè)基本問(wèn)題:在部分?jǐn)?shù)據(jù)集上學(xué)習(xí)到的參數(shù),并不能代表問(wèn)題面向的所有數(shù)據(jù)。通過(guò)選擇具有最佳分?jǐn)?shù)的模型,我們可能無(wú)意中選擇了對(duì)未來(lái)數(shù)據(jù)概括并不那么好的模型。 但這不是算法模型所特有的問(wèn)題,盡管使用更復(fù)雜的模型可能更容易過(guò)度擬合(因?yàn)橛懈嗟淖杂蓞?shù)來(lái)訓(xùn)練)。 解決方案不是追溯到更簡(jiǎn)單的模型,而應(yīng)該是使用更魯棒的校驗(yàn)。我個(gè)人更喜歡交叉驗(yàn)證,使用多個(gè)訓(xùn)練/測(cè)試子集,這樣性能就不會(huì)受到隨機(jī)選擇的偏差。模型可能仍然會(huì)過(guò)度擬合(這應(yīng)該被稱為Kaggle效應(yīng)),但魯棒的校驗(yàn)設(shè)置應(yīng)該能夠在新數(shù)據(jù)上提供一個(gè)良好的性能指標(biāo)。 監(jiān)控模型在生產(chǎn)中的持續(xù)性能也至關(guān)重要。定期檢查模型精度是否降低,可以讓你捕獲模型或數(shù)據(jù)的漂移。一旦發(fā)生這種情況,你就需要構(gòu)建新的模型,收集更多其他數(shù)據(jù)或重新解決問(wèn)題。 過(guò)度擬合是一個(gè)嚴(yán)重的問(wèn)題,但可以用正確的方法解決。 3、特征重要性Breiman 關(guān)于從復(fù)雜模型中提取信息的大部分論點(diǎn)都依賴于「特征重要性」的概念。他在論文中沒(méi)有定義,而是在對(duì)批評(píng)的回應(yīng)中給了定義。他的定義取決于準(zhǔn)確率。特征的重要性通過(guò)以下問(wèn)題來(lái)衡量:模型中的特征是否會(huì)提高性能? 傳統(tǒng)上,變量重要性是從線性模型的權(quán)重系數(shù)確定的。但我們已經(jīng)看到多個(gè)特征可以產(chǎn)生相同的性能,因此使用學(xué)習(xí)的權(quán)重作為重要性的度量并不能捕獲任何單一的基本事實(shí)。 事實(shí)上,變量重要性領(lǐng)域的問(wèn)題仍未得到完全解決。當(dāng)變量共線(高度相關(guān))時(shí),由于特征重要性可能在特征之間分開(kāi),所以問(wèn)題依然存在。目前,還沒(méi)有一種令人滿意的方法來(lái)確定哪些變量是最重要的,但基于準(zhǔn)確率的方法比基于權(quán)重的方法更不主觀。SHAP 值提供了變量重要性的每個(gè)預(yù)測(cè)度量,可以讓我們看到每個(gè)特征值對(duì)輸出的確切影響。預(yù)測(cè)到的特征重要性可能并不代表特征本質(zhì)上的“真實(shí)”相關(guān)性,但它可以給我們變量之間的相對(duì)比較。 4、建模目標(biāo)一些統(tǒng)計(jì)學(xué)家認(rèn)為建模的目標(biāo)是預(yù)測(cè),因此主張重視信息收集。我的回答是,沒(méi)有預(yù)測(cè)準(zhǔn)確性的模型無(wú)法提供有關(guān)問(wèn)題的任何有用信息。它可能提供模型權(quán)重,但如果不能導(dǎo)致準(zhǔn)確預(yù)測(cè),我們?yōu)槭裁匆獓L試從中學(xué)習(xí)呢?相反,我們應(yīng)該首先關(guān)注準(zhǔn)確性 —— 也因此,我們知道我們的模型已經(jīng)學(xué)到了一些有用的東西 —— 然后再試著弄清楚模型是如何運(yùn)作的。 模型必須準(zhǔn)確,才能提供有用信息! 試圖去理解一個(gè)連簡(jiǎn)單的非機(jī)器學(xué)習(xí)極限都比不過(guò)的線性模型,這本身其實(shí)沒(méi)有意義。目標(biāo)集中在準(zhǔn)確性上,然后才是花費(fèi)你的時(shí)間來(lái)解釋模型。擁有一個(gè)還沒(méi)有解釋的精確模型,比提供了清晰解釋卻只能產(chǎn)生無(wú)意義信息的模型要好得多。 結(jié)論 Breiman 的這篇論文對(duì)我從學(xué)術(shù)轉(zhuǎn)向工業(yè)非常重要。一開(kāi)始,我花費(fèi)了大量時(shí)間試圖理解各種模型背后的理論,或者通過(guò)直覺(jué)來(lái)解決問(wèn)題,而不是針對(duì)準(zhǔn)確性并讓數(shù)據(jù)來(lái)決定模型。 通過(guò)這篇論文,讓我明白了至關(guān)重要的一點(diǎn):先準(zhǔn)確,再解釋。一個(gè)模型值得用于知識(shí)提取的前提是它有很高的預(yù)測(cè)能力;否則就沒(méi)有意義。 這在實(shí)踐中意味著什么(特別是對(duì)于那些在工業(yè)中的人)?很簡(jiǎn)單:專注于建立一個(gè)強(qiáng)大的校驗(yàn)方案并找到表現(xiàn)最佳的模型。在你知道模型有效之前,不要花太多時(shí)間擔(dān)心模型背后的理論。此外,經(jīng)驗(yàn)表明,許多模型可以使用不同的特征集生成相同的精度,附加特征可以提高復(fù)雜算法的性能,并且模型可解釋性和準(zhǔn)確性之間存在平衡,盡管新技術(shù)在很大程度上縮小了差距。 當(dāng)我們看到預(yù)測(cè)或決定時(shí),我們都想要解釋。但是,我們必須承認(rèn),當(dāng)我們的知識(shí)和大腦限制我們時(shí):我們根本無(wú)法處理現(xiàn)在面臨的數(shù)據(jù)量,我們必須依靠機(jī)器為我們做大部分推理。機(jī)器學(xué)習(xí)是用于解決數(shù)據(jù)問(wèn)題的工具,我們應(yīng)該使用最好的工具。統(tǒng)計(jì)學(xué)是一個(gè)古老的領(lǐng)域,但這并不意味著它必須一直停留在過(guò)去:通過(guò)采用最新的算法,統(tǒng)計(jì)學(xué)家可以解決建模中出現(xiàn)的挑戰(zhàn)性的新問(wèn)題。 End |
|
來(lái)自: geoallan > 《數(shù)據(jù)分析》