首推:2020年寒假 機(jī)器學(xué)習(xí)五天現(xiàn)場(chǎng)班 陳強(qiáng) 主講 北京, 1月11-15日 Now or Never! (詳見(jiàn)頁(yè)底) 機(jī)器學(xué)習(xí)始于計(jì)算機(jī)科學(xué)的人工智能領(lǐng)域,后來(lái)也有不少統(tǒng)計(jì)學(xué)家加入。如果說(shuō)哪位統(tǒng)計(jì)學(xué)家對(duì)機(jī)器學(xué)習(xí)的貢獻(xiàn)最大,里奧·布萊曼(Leo Breiman)或許當(dāng)之無(wú)愧。 Leo Breiman,1928-2005 如果你人到中(青)年還(幾乎)一事無(wú)成,一定可以從 Leo Breiman 的傳奇人生得到慰藉與鼓舞,因?yàn)?Breiman 最偉大的貢獻(xiàn)(Bagging與Random Forest)都是他從伯克利統(tǒng)計(jì)系退休之后作出的。其中,他去世前四年發(fā)表的Random Forest 論文,在 Google Scholar 的引用量已經(jīng)超過(guò)5萬(wàn)。 本文內(nèi)容的主要來(lái)源: Olsen, Richard, 2001, 'A Conversation with Leo Breiman,' Statistical Science, 16(2), 194-198. 猶太貧民窟 1928年1月27日,Leo Breiman 出生于紐約,五年后隨父母移居舊金山,初中時(shí)再次搬家到洛杉磯。Breiman 所在的社區(qū) Boyle Heights,是當(dāng)時(shí)洛杉磯的猶太貧民窟(a poor Jewish ghetto),與邊上的墨西哥裔貧民窟相鄰。 盡管 Breiman 就學(xué)的羅斯福高中(Roosevelt High School)位于當(dāng)時(shí)洛杉磯的貧民區(qū),但在學(xué)術(shù)上依然領(lǐng)先,因?yàn)樵撔5拇蠖鄶?shù)學(xué)生都是追求上進(jìn)的移民后代(highly motivated sons and daughters of immigrants)。 在高中時(shí)代,首先讓 Breiman 感興趣的課程是幾何學(xué)。他母親偶然聽(tīng)說(shuō),加州理工學(xué)院(Caltech)是美國(guó)西部最好的大學(xué),于是決定她的兒子應(yīng)該去Caltech 讀大學(xué)(這也是錢(qián)學(xué)森的母校)。 加州理工學(xué)院 1945年,經(jīng)過(guò)長(zhǎng)達(dá)16小時(shí)的入學(xué)考試后,Breiman 成功進(jìn)入加州理工學(xué)院,主修物理,并因成績(jī)優(yōu)異而獲得獎(jiǎng)學(xué)金。然而,到了大學(xué)高年級(jí),由于在校園里到處充斥著理工知識(shí)而漸生厭倦,感覺(jué) Caltech 就像一個(gè)“科學(xué)修道院”(scientific monastery)。終于,他在大學(xué)最后一年的四門(mén)物理課中都得了 “D”。如果在這個(gè)時(shí)點(diǎn),用機(jī)器學(xué)習(xí)的方法預(yù)測(cè)年輕 Breiman 的未來(lái),應(yīng)該也不會(huì)太輝煌吧? 哥倫比亞大學(xué) 然而,Breiman 依然對(duì)數(shù)學(xué)很有興趣,于是開(kāi)始向許多大學(xué)申請(qǐng)讀研究生,但僅被哥倫比亞大學(xué)(Columbia University)錄取。由于家境貧寒,Breiman利用兼職打工攢下的錢(qián),供自己讀研。事實(shí)上,剛到哥大時(shí),Breiman 曾決心讀哲學(xué)專業(yè),并找到了哥大哲學(xué)系主任,當(dāng)時(shí)的知名哲學(xué)家Erwin Edwin。Erwin Edwin 和藹地拍了拍 Breiman 的膝蓋說(shuō),“我最好的兩位博士生現(xiàn)在都無(wú)法找到工作。要不你還是待在數(shù)學(xué)系,可以先上幾門(mén)哲學(xué)課,看情況再說(shuō)吧”。之后,Breiman 上了幾門(mén)哲學(xué)課,諸如美學(xué)、希臘哲學(xué),發(fā)現(xiàn)與自己的預(yù)想大相徑庭。于是,Breiman 開(kāi)始專攻數(shù)學(xué),并在一年內(nèi)拿到了數(shù)學(xué)碩士學(xué)位。 加州大學(xué)伯克利分校 1950年,Breiman 從哥大畢業(yè)后,進(jìn)入加州大學(xué)伯克利分校攻讀數(shù)學(xué)博士學(xué)位。為了供自己上學(xué),Breiman入學(xué)前的整個(gè)暑期都在當(dāng)酒店招待,以及在海岸警衛(wèi)隊(duì)(Coast Guard)的艦船上洗碗(下圖為當(dāng)時(shí)的工作證)。 在伯克利,Breiman 選修了著名概率學(xué)家 Michel Loeve 的概率論課程(知名同班同學(xué)包括 Manny Parzen,Howard Tucker 等),并愛(ài)上了概率論。Breiman 完成博士論文之后,自我感覺(jué)良好,但完美主義的導(dǎo)師 Michel Loeve 卻依然不滿意;直至著名統(tǒng)計(jì)學(xué)家 Harald Cramer 來(lái)訪,聽(tīng)了Breiman 的報(bào)告后認(rèn)為 “this is pretty good”。最后,在限期參軍的壓力下,Michel Loeve 終于讓 Breiman 于 1954 年博士畢業(yè)。 博士畢業(yè)后,Breiman 服了兩年兵役。之后,Breiman 成為伯克利的 “代理助理教授”(acting assistant professor),并與伯克利的著名統(tǒng)計(jì)學(xué)家 David Blackwell相熟。在伯克利的學(xué)術(shù)講座中,Blackwell 經(jīng)常寫(xiě)條子給Breiman,“你能證明這個(gè)與這個(gè)嗎?” 這其中的一個(gè)紙條,使得 Breiman 證明了后來(lái)被稱為“Shannon-Breiman-McMillan Theorem”的定理(Breiman, 1957)。 加州大學(xué)洛杉磯分校 當(dāng)時(shí)伯克利有嚴(yán)格的規(guī)定,剛從伯克利畢業(yè)的博士生無(wú)法在伯克利得到第一份正式工作。退而求其次,Breiman 成為加州大學(xué)洛杉磯分校(UCLA)的助理教授,為當(dāng)時(shí) UCLA 數(shù)學(xué)系唯一的概率論學(xué)者。 Breiman 在 UCLA 執(zhí)教了七年,期間很快拿到了終身教職。然而,他最后決定自己并不想做一名 “抽象的數(shù)學(xué)家”(abstract mathematician),于是從UCLA 辭職。之后,Breiman 花了半年時(shí)間,專心總結(jié)他對(duì)于概率論的心得與教學(xué)經(jīng)驗(yàn),于1968年出版其第一本著作 “Probability”,成為概率論的經(jīng)典書(shū)籍。 統(tǒng)計(jì)咨詢工作 從UCLA辭職后,當(dāng) Breiman 的積蓄快要花光時(shí),他開(kāi)始Technology Service Corporation(TSC)從事 “統(tǒng)計(jì)咨詢”(statistical consulting)工作。離開(kāi)了抽象的概率論,Breiman 開(kāi)始接觸到大量的鮮活數(shù)據(jù);比如,與空氣污染有關(guān)的幾百個(gè)變量,每天或每小時(shí)的數(shù)據(jù),跨度達(dá)到七年。研究問(wèn)題包括預(yù)測(cè)洛杉磯盆地(Los Angeles Basin)第二天的臭氧水平,預(yù)測(cè)高速公路的一氧化碳水平等回歸問(wèn)題(regression)。當(dāng)然,也有一些分類問(wèn)題(classification),比如根據(jù)雷達(dá)聲吶數(shù)據(jù)來(lái)區(qū)分俄國(guó)與美國(guó)的潛艇。在此期間,Breiman 開(kāi)始使用并完善 “決策樹(shù)”(decision tree)模型進(jìn)行預(yù)測(cè)。與通常的線性回歸或邏輯回歸不同,決策樹(shù)模型是一種非參數(shù)方法,并不設(shè)定具體的函數(shù)形式,故在進(jìn)行預(yù)測(cè)時(shí)更為靈活。 重回加州大學(xué)伯克利分校 Breiman 從事了 13 年的統(tǒng)計(jì)咨詢工作,一直很享受,本不想再回學(xué)術(shù)界。然而,當(dāng)母校召喚時(shí),Breiman 于 1980 年重回伯克利,成為統(tǒng)計(jì)系教授。此時(shí),伯克利統(tǒng)計(jì)系依然處于紙與筆的時(shí)代,計(jì)算機(jī)設(shè)備十分原始。在 Breiman的倡導(dǎo)與努力下,伯克利統(tǒng)計(jì)系終于有了現(xiàn)代的統(tǒng)計(jì)計(jì)算中心(Statistical Computing Facility)。 1984年,Breiman與三位合作者共同出版了決策樹(shù)的經(jīng)典書(shū)籍 “Classification and Regression Trees”,提出了著名的 CART 算法。 退休生涯 1993年,Breiman 從伯克利退休。但或許誰(shuí)也沒(méi)有想到,Breiman 學(xué)術(shù)生涯的高潮才剛剛開(kāi)始。在研究中,Breiman 發(fā)現(xiàn),使用線性模型選擇變量的子集(subset selection in linear regression)是一個(gè)很不穩(wěn)定的過(guò)程;只要數(shù)據(jù)稍微變化,所選變量就可能很不相同。對(duì)于決策樹(shù)也如此,只要數(shù)據(jù)稍有變化,所生成的決策樹(shù)可能就大相徑庭。 于是,Breiman 想,能否將這些不同的模型結(jié)果進(jìn)行平均,以得到更好的預(yù)測(cè)效果。但如何擾動(dòng)數(shù)據(jù)呢?Breiman想到了有放回的自助抽樣(bootstrap)。首先,從原始樣本得到大量的自助樣本(bootstrap sample),分別用 CART 算法來(lái)估計(jì)決策樹(shù),然后再將這些決策樹(shù)進(jìn)行聚合平均(比如,平均1000棵決策樹(shù))。這就是Breiman (1996)提出的 “bagging” 算法(bootstrap aggregating),該文目前在 Google Scholar的引用量已超過(guò) 2 萬(wàn)。 2001年,Breiman 進(jìn)一步提出了 “隨機(jī)森林”(Random Forest)的算法。與Bagging 不同,在決策樹(shù)的每個(gè)節(jié)點(diǎn),僅隨機(jī)選取部分變量進(jìn)行分裂,以降低不同決策樹(shù)之間的相關(guān)性。結(jié)果發(fā)現(xiàn),Random Forest的預(yù)測(cè)效果比 Bagging 又有了進(jìn)一步的提高,這使得隨機(jī)森林成為機(jī)器學(xué)習(xí),特別是數(shù)據(jù)科學(xué)的主要算法之一。2005年,Breiman 在伯克利家中去世,享年 77 歲。 謹(jǐn)以此文向Leo Breiman致敬…… 參考文獻(xiàn) 陳強(qiáng),《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用》,第2版,高等教育出版社,2014年 陳強(qiáng),《計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用》,高等教育出版社,2015年(好評(píng)如潮的配套教學(xué)視頻,可在網(wǎng)易云課堂購(gòu)買(mǎi)) 陳強(qiáng),《機(jī)器學(xué)習(xí)及R應(yīng)用》,高等教育出版社,2020年,即將出版 |
|