山景城,加利福尼亞——在研發(fā)出自動(dòng)駕駛汽車和增強(qiáng)現(xiàn)實(shí)眼鏡的谷歌X實(shí)驗(yàn)室中,一個(gè)研究小組近年來一直致力于模擬人類大腦的運(yùn)作模式。
在這里,谷歌的科學(xué)家用16 000臺計(jì)算機(jī)構(gòu)建了世界上最大的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)系統(tǒng)——谷歌大腦,并讓它在因特網(wǎng)上自主學(xué)習(xí)。在YouTube上看了數(shù)以千萬記的視頻之后,你猜谷歌大腦做了什么?與許多人類在YouTube上做的事情差不多——看貓。
學(xué)會如何識別貓對于谷歌大腦來說并不是一件不值一提的小事。研究者們將在本周于在蘇格蘭愛丁堡舉行的學(xué)術(shù)會議上發(fā)表他們的研究成果。盡管現(xiàn)如今,喵星人的視頻在因特網(wǎng)上到處都是,但是谷歌的科學(xué)家和程序員仍然認(rèn)為這一模擬結(jié)果是一個(gè)驚喜。與之前的成果相比,它能夠更為精確地識別近20 000個(gè)不同的物體。
這一研究有效利用了計(jì)算成本的下降和大型數(shù)據(jù)中心的海量計(jì)算機(jī)資源,這種研究方法已經(jīng)成為新一代計(jì)算機(jī)科學(xué)研究的主流方法,并被廣泛應(yīng)用于機(jī)器視覺、機(jī)器知覺、語音識別和機(jī)器翻譯等領(lǐng)域中。
盡管這一研究中運(yùn)用的計(jì)算機(jī)科學(xué)的概念并不新奇,但是如此規(guī)模龐大的模擬在之前是不可想象的。在這一被稱為“深度學(xué)習(xí)”的計(jì)算機(jī)模型的研究領(lǐng)域中,并不只有谷歌一家。去年微軟科學(xué)家的研究表明,這一技術(shù)同樣可以很好地應(yīng)用于計(jì)算機(jī)系統(tǒng)的語音識別。
“這算得上是最近語音識別領(lǐng)域中最熱門的東西了,”紐約大學(xué)科朗數(shù)學(xué)研究院的機(jī)器學(xué)習(xí)領(lǐng)域的計(jì)算機(jī)專家Yann LeCun如是說。
接下來,我們說說喵的事情。
斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家Andrew Y. Ng和谷歌工程師Jeff Dean帶領(lǐng)的谷歌研究團(tuán)隊(duì),用16 000個(gè)處理器的陣列構(gòu)建了一個(gè)超過十億個(gè)節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)。然后,他們從一千萬YouTube視頻中選取縮略圖給這一神經(jīng)網(wǎng)絡(luò)。
由于這些視頻是隨機(jī)選取的,因此它們代表了這一互聯(lián)網(wǎng)時(shí)代最吸引人的東西。但是這一研究仍然是令人振奮的?;谲浖纳窠?jīng)網(wǎng)絡(luò)的運(yùn)行方式與生物學(xué)家的關(guān)于大腦的神經(jīng)網(wǎng)絡(luò)的運(yùn)行理論相似,即每個(gè)單獨(dú)的神經(jīng)單元都盡可能的找尋重要的物品。
現(xiàn)如今商用的機(jī)器視覺技術(shù)都是在人類的“督查”下完成的,即在學(xué)習(xí)的過程中人為地指定特定的表征。而在谷歌的研究中,機(jī)器獨(dú)立地識別和定義物品的特征。
“這一理念認(rèn)為:與其投入大量的人力物力努力教會機(jī)器定義物品的邊緣和特征什么的,還不如將大量的數(shù)據(jù)塞給軟件算法,讓數(shù)據(jù)說話,軟件自己會從海量數(shù)據(jù)中自我學(xué)習(xí),” Ng博士說。
“在整個(gè)訓(xùn)練過程中,我們從來沒告訴過計(jì)算機(jī):‘這種有四條腿一條尾巴的形態(tài)姿勢各異的詭異萌物叫做貓’,”Dean博士,最初在谷歌負(fù)責(zé)將已將程序轉(zhuǎn)變?yōu)槎嗳蝿?wù)同時(shí)進(jìn)行?!八约喊l(fā)明了‘喵’的概念,可能還有‘喵的側(cè)面’的概念?!?
在看過了數(shù)百萬的圖像之后,谷歌大腦通過對記憶的辨識和特征篩選,最終“夢”到了一只貓。科學(xué)家認(rèn)為他們建立了一個(gè)與大腦皮層視覺中樞類似的控制論模型。
神經(jīng)學(xué)家也正在討論被他們稱作“祖母神經(jīng)元”存在的可能性,即大腦中特定的神經(jīng)細(xì)胞,在不斷重復(fù)地看到某一面部圖像時(shí)被激活?!疤焯煲娋湍芑靷€(gè)臉熟,”加利福尼亞州帕洛阿爾托的Industrial Perception的Gary Bradski說。
除了貓的圖像以外,人臉和部分人體的圖像也出現(xiàn)在這一計(jì)算機(jī)系統(tǒng)的記憶模塊中。盡管取得了這一系列激動(dòng)人心的結(jié)果,Ng博士對于將這一軟件模擬系統(tǒng)與生物大腦的類比持謹(jǐn)慎態(tài)度。
“將我們的數(shù)字參數(shù)比喻做神經(jīng)突觸是一個(gè)牽強(qiáng)的甚至可以說糟糕的類比,”Ng博士說。他進(jìn)一步之處,盡管研究者利用了一個(gè)極大的計(jì)算機(jī)系統(tǒng),但是它的節(jié)點(diǎn)數(shù)與大腦相比仍然相形見絀。
“值得一提的是,我們的神經(jīng)網(wǎng)絡(luò)與人類大腦皮層視覺中樞相比仍然是個(gè)小不點(diǎn)兒。無論從神經(jīng)元數(shù)量還是突觸數(shù)量而言,大腦都比我們的系統(tǒng)大百萬倍,”研究者寫道。
盡管遠(yuǎn)遠(yuǎn)比不上生物大腦,但是谷歌的研究表明,機(jī)器學(xué)習(xí)算法在學(xué)習(xí)了大量數(shù)據(jù)之后仍然有了很大的提升。
“斯坦福/谷歌論文通過一個(gè)更大的網(wǎng)絡(luò)將神經(jīng)網(wǎng)絡(luò)的構(gòu)建向前推進(jìn)了一步,”佐治亞理工學(xué)院計(jì)算機(jī)學(xué)院的高性能計(jì)算的執(zhí)行董事David A. Bader說。他認(rèn)為計(jì)算機(jī)技術(shù)的迅速發(fā)展可以快速拉近計(jì)算機(jī)系統(tǒng)與大腦之間的差距:“也許在十年內(nèi)我們就能夠模擬完整的大腦皮層視覺中樞?!?
谷歌科學(xué)家聲稱,這一谷歌X實(shí)驗(yàn)室的研究工作正在公司中的搜索等相關(guān)業(yè)務(wù)中的得到應(yīng)用。潛在的應(yīng)用主要包括圖片搜索、語音識別和機(jī)器翻譯。
盡管取得了不錯(cuò)的進(jìn)展,谷歌的研究者仍然對于他們是否真的得到了讓機(jī)器自我學(xué)習(xí)的圣經(jīng)持謹(jǐn)慎態(tài)度?!叭绻覀兊默F(xiàn)有算法沒有任何問題,需要做的只是將網(wǎng)絡(luò)變得更大而已的話,那就太完美了。但是直覺告訴我,我們還沒有找到完美的算法。”Ng博士說道。