斯坦福大學(xué)每年都會(huì)舉行一個(gè)比賽,邀請(qǐng)谷歌、微軟,百度等 IT 企業(yè)使用 ImageNet ——全球最大的圖像識(shí)別數(shù)據(jù)庫(kù),測(cè)試他們的系統(tǒng)運(yùn)行情況。每年一度的比賽也牽動(dòng)著各大巨頭公司的心弦,過(guò)去幾年中,系統(tǒng)的圖像識(shí)別功能大大提高,出錯(cuò)率僅為約 5% (比人眼還低)。它的締造者就是斯坦福大學(xué)的李飛飛教授,下一步就是圖像理解,她開(kāi)啟了 Visual Genome(視覺(jué)基因組)計(jì)劃,要把語(yǔ)義和圖像結(jié)合起來(lái),推動(dòng)人工智能的進(jìn)一步發(fā)展。這一篇“硅谷 AI 名人錄”來(lái)介紹李飛飛教授,整理于 TED 講座。 背景 李飛飛生于北京,16 歲隨父母移居美國(guó)。 現(xiàn)為斯坦福大學(xué)計(jì)算機(jī)系終身教授,人工智能實(shí)驗(yàn)室與視覺(jué)實(shí)驗(yàn)室主任。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、認(rèn)知計(jì)算神經(jīng)學(xué),側(cè)重大數(shù)據(jù)分析為主,已在 Nature、PNAS、Journal of Neuroscience、CVPR、ICCV、NIPS 等頂級(jí)期刊與會(huì)議上發(fā)表了 100 余篇學(xué)術(shù)論文。她于 1999 年以最高榮譽(yù)獲普林斯頓大學(xué)本科學(xué)位,并于 2005 年獲加州理工學(xué)院電子工程博士學(xué)位。她作為 TED 2015 大會(huì)演講嘉賓,曾獲 2014 年 IBM 學(xué)者獎(jiǎng)、2011 年美國(guó)斯隆學(xué)者獎(jiǎng)、2012 年雅虎實(shí)驗(yàn)室學(xué)者獎(jiǎng)、2009 年 NSF 杰出青年獎(jiǎng)、2006 年微軟學(xué)者新星獎(jiǎng)以及谷歌研究獎(jiǎng)。 她是世界上頂尖的計(jì)算機(jī)視覺(jué)專(zhuān)家之一。她參與建立了兩個(gè)被 AI 研究者廣泛使用來(lái)教機(jī)器分類(lèi)物體的數(shù)據(jù)庫(kù):Caltech 101 和 ImageNet。 她想要打造出一種看得見(jiàn)東西、能幫助我們改善生活的機(jī)器。過(guò)去 15 年中,李飛飛一直在教計(jì)算機(jī)看東西。從一個(gè)博士生成長(zhǎng)為斯坦福大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室主任,李飛飛不遺余力地朝著困難重重的目標(biāo)邁進(jìn)。 她希望創(chuàng)造出一種電子眼,能讓機(jī)器人和機(jī)器看懂世界,更重要的是,能夠了解自己所處的環(huán)境。 在一場(chǎng)被觀看了 120 多萬(wàn)次的 TED 演講(如下方視頻)中她說(shuō):「我總在想著里奧和他將生活的未來(lái)世界?!乖谒闹凶罾硐氲奈磥?lái)中,機(jī)器可以看見(jiàn)世界,但目的并不是為了效率最大化,而是為了共情。 ?。v訊視頻) 如何教計(jì)算機(jī)理解圖片 以下是李飛飛的 TED 演講: 這是一個(gè)三歲的小孩在講述她從一系列照片里看到的東西。對(duì)這個(gè)世界,她也許還有很多要學(xué)的東西,但在一個(gè)重要的任務(wù)上,她已經(jīng)是專(zhuān)家了:去理解她所看到的東西。 我們的社會(huì)已經(jīng)在科技上取得了前所未有的進(jìn)步。我們把人送上月球,我們制造出可以與我們對(duì)話(huà)的手機(jī),或者訂制一個(gè)音樂(lè)電臺(tái),播放的全是我們喜歡的音樂(lè)。然而,哪怕是我們最先進(jìn)的機(jī)器和電腦也會(huì)在這個(gè)問(wèn)題上犯難。所以今天我在這里,向大家做個(gè)進(jìn)度匯報(bào):關(guān)于我們?cè)谟?jì)算機(jī)視覺(jué)方面最新的研究進(jìn)展。這是計(jì)算機(jī)科學(xué)領(lǐng)域最前沿的、具有革命性潛力的科技。 是的,我們現(xiàn)在已經(jīng)有了具備自動(dòng)駕駛功能的原型車(chē),但是如果沒(méi)有敏銳的視覺(jué),它們就不能真正區(qū)分出地上擺著的是一個(gè)壓扁的紙袋,可以被輕易壓過(guò),還是一塊相同體積的石頭,應(yīng)該避開(kāi)。我們已經(jīng)造出了超高清的相機(jī),但我們?nèi)匀粺o(wú)法把這些畫(huà)面?zhèn)鬟f給盲人。我們的無(wú)人機(jī)可以飛躍廣闊的土地,卻沒(méi)有足夠的視覺(jué)技術(shù)去幫我們追蹤熱帶雨林的變化。安全攝像頭到處都是,但當(dāng)有孩子在泳池里溺水時(shí)它們無(wú)法向我們報(bào)警。照片和視頻,已經(jīng)成為全人類(lèi)生活里不可缺少的部分。它們以極快的速度被創(chuàng)造出來(lái), 以至于沒(méi)有任何人,或者團(tuán)體,能夠完全瀏覽這些內(nèi)容,而你我正參與其中的這場(chǎng) TED,也為之添磚加瓦。 直到現(xiàn)在,我們最先進(jìn)的 軟件也依然為之犯難:該怎么理解和處理這些數(shù)量龐大的內(nèi)容? 所以換句話(huà)說(shuō),在作為集體的這個(gè)社會(huì)里,我們依然非常茫然,因?yàn)槲覀冏钪悄艿臋C(jī)器依然有視覺(jué)上的缺陷。 “為什么這么困難?”你也許會(huì)問(wèn)。照相機(jī)可以像這樣獲得照片:它把采集到的光線(xiàn)轉(zhuǎn)換成二維數(shù)字矩陣來(lái)存儲(chǔ)——也就是“像素”,但這些仍然是死板的數(shù)字。它們自身并不攜帶任何意義。就像“聽(tīng)到”和“聽(tīng)”完全不同,“拍照”和“看”也完全不同。通過(guò)“看”,我們實(shí)際上是“理解”了這個(gè)畫(huà)面。 事實(shí)上,大自然經(jīng)過(guò)了 5 億 4 千萬(wàn)年的努力才完成了這個(gè)工作,而這努力中更多的部分是用在進(jìn)化我們的大腦內(nèi)用于視覺(jué)處理的器官,而不是眼睛本身。 所以“視覺(jué)”從眼睛采集信息開(kāi)始,但大腦才是它真正呈現(xiàn)意義的地方。 15 年來(lái), 從我進(jìn)入加州理工學(xué)院攻讀 Ph.D. 到后來(lái)領(lǐng)導(dǎo)斯坦福大學(xué)的視覺(jué)實(shí)驗(yàn)室,我一直在和我的導(dǎo)師、合作者和學(xué)生們一起教計(jì)算機(jī)如何去“看”。我們的研究領(lǐng)域叫做“計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)”。 這是 AI(人工智能)領(lǐng)域的一個(gè)分支。 最終,我們希望能教會(huì)機(jī)器像我們一樣看見(jiàn)事物:識(shí)別物品、辨別不同的人、推斷物體的立體形狀、理解事物的關(guān)聯(lián)、人的情緒、動(dòng)作和意圖。像你我一樣,只凝視一個(gè)畫(huà)面一眼就能理清整個(gè)故事中的人物、地點(diǎn)、事件。 實(shí)現(xiàn)這一目標(biāo)的第一步是教計(jì)算機(jī)看到“對(duì)象”(物品),這是建造視覺(jué)世界的基石。在這個(gè)最簡(jiǎn)單的任務(wù)里,想象一下這個(gè)教學(xué)過(guò)程:給計(jì)算機(jī)看一些特定物品的訓(xùn)練圖片,比如說(shuō)貓,并讓它從這些訓(xùn)練圖片中,學(xué)習(xí)建立出一個(gè)模型來(lái),這有多難呢? 不管怎么說(shuō),一只貓只是一些形狀和顏色拼湊起來(lái)的圖案罷了,比如這個(gè)就是我們最初設(shè)計(jì)的抽象模型。我們用數(shù)學(xué)的語(yǔ)言,告訴計(jì)算機(jī)這種算法:“貓”有著圓臉、胖身子、兩個(gè)尖尖的耳朵,還有一條長(zhǎng)尾巴,這算法看上去挺好的。 但如果遇到這樣的貓呢?它整個(gè)蜷縮起來(lái)了。現(xiàn)在你不得不加入一些別的形狀和視角 來(lái)描述這個(gè)物品模型。 但如果貓是藏起來(lái)的呢? 再看看這些傻貓呢? 你現(xiàn)在知道了吧。 即使那些事物簡(jiǎn)單到只是一只家養(yǎng)的寵物,都可以出呈現(xiàn)出無(wú)限種變化的外觀模型,而這還只是“一個(gè)”對(duì)象的模型。 大概在 8 年前,一個(gè)非常簡(jiǎn)單、有沖擊力的觀察改變了我的想法。沒(méi)有人教過(guò)嬰兒怎么“看”,尤其是在他們還很小的時(shí)候。他們是從真實(shí)世界的經(jīng)驗(yàn)和例子中學(xué)到這個(gè)的。如果你把孩子的眼睛都看作是生物照相機(jī),那他們每 200 毫秒就拍一張照——這是眼球轉(zhuǎn)動(dòng)一次的平均時(shí)間。所以到 3 歲大的時(shí)候,一個(gè)孩子已經(jīng)看過(guò)了上億張的真實(shí)世界照片。這種“訓(xùn)練照片”的數(shù)量是非常大的。 所以,與其孤立地關(guān)注于算法的優(yōu)化、再優(yōu)化,我的關(guān)注點(diǎn)放在了給算法提供像那樣的訓(xùn)練數(shù)據(jù)——那些,嬰兒們從經(jīng)驗(yàn)中獲得的 質(zhì)量和數(shù)量都極其驚人的訓(xùn)練照片。 一旦我們知道了這個(gè),我們就明白自己需要收集的數(shù)據(jù)集,必須比我們?cè)羞^(guò)的任何數(shù)據(jù)庫(kù)都豐富——可能要豐富數(shù)千倍。因此,通過(guò)與普林斯頓大學(xué)的 Kai Li 教授合作,我們?cè)?2007 年發(fā)起了 ImageNet(圖片網(wǎng)絡(luò))計(jì)劃。幸運(yùn)的是,我們不必在自己腦子里裝上一臺(tái)照相機(jī),然后等它拍很多年。我們運(yùn)用了互聯(lián)網(wǎng),這個(gè)由人類(lèi)創(chuàng)造的最大的圖片寶庫(kù)。 我們下載了接近 10 億張圖片并利用眾包技術(shù)(利用互聯(lián)網(wǎng)分配工作、發(fā)現(xiàn)創(chuàng)意或解決技術(shù)問(wèn)題),像亞馬遜(Amazon)土耳其機(jī)器人(Mechanical Turk)這樣的平臺(tái) 來(lái)幫我們標(biāo)記這些圖片。 在高峰期時(shí),ImageNet 是「亞馬遜土耳其機(jī)器人」 這個(gè)平臺(tái)上最大的雇主之一。 來(lái)自世界上 167 個(gè)國(guó)家的接近 5 萬(wàn)個(gè)工作者,在一起工作幫我們篩選、排序、標(biāo)記了 接近 10 億張備選照片。這就是我們?yōu)檫@個(gè)計(jì)劃投入的精力,去捕捉,一個(gè)嬰兒可能在他早期發(fā)育階段獲取的“一小部分”圖像。他們幫忙給數(shù)百萬(wàn)張貓、飛機(jī)和人的隨機(jī)圖像貼標(biāo)簽。 現(xiàn)在回頭看,用大數(shù)據(jù)來(lái)訓(xùn)練計(jì)算計(jì)算法的做法或許顯而易見(jiàn)。但是在 2007 年,這并不顯然。在這段旅途中,我很長(zhǎng)一段時(shí)間都非常孤獨(dú),有些同事友情建議我做些對(duì)獲得終身教職更有用的事。我們?cè)谘芯拷?jīng)費(fèi)方面也一直碰到麻煩,我可能需要重開(kāi)我的干洗店來(lái)為 ImageNet 籌資。 我們?nèi)匀辉诶^續(xù)著。在 2009 年,ImageNet 項(xiàng)目誕生了——一個(gè)含有 1500 萬(wàn)張照片的數(shù)據(jù)庫(kù), 涵蓋了 22000 種物品。這些物品是根據(jù)日常英語(yǔ)單詞進(jìn)行分類(lèi)組織的。無(wú)論是在質(zhì)量上還是數(shù)量上,這都是一個(gè)規(guī)模空前的數(shù)據(jù)庫(kù)。 舉個(gè)例子,在”貓”這個(gè)對(duì)象中, 我們有超過(guò) 62000 只貓,長(zhǎng)相各異,姿勢(shì)五花八門(mén),而且涵蓋了各種品種的家貓和野貓。 我們對(duì) ImageNet 收集到的圖片感到異常興奮, 而且我們希望整個(gè)研究界能從中受益, 所以以一種和 TED 一樣的方式,我們公開(kāi)了整個(gè)數(shù)據(jù)庫(kù),免費(fèi)提供給全世界的研究團(tuán)體。 那么現(xiàn)在,我們有了用來(lái)培育計(jì)算機(jī)大腦的數(shù)據(jù)庫(kù),我們可以回到“算法”本身上來(lái)了。 因?yàn)?ImageNet 的橫空出世,它提供的信息財(cái)富完美地適用于一些特定類(lèi)別的機(jī)器學(xué)習(xí)算法。 “卷積神經(jīng)網(wǎng)絡(luò)”, 最早由 Kunihiko Fukushima,Geoff Hinton,和 Yann LeCun 在上世紀(jì)七八十年代開(kāi)創(chuàng)。 就像大腦是由上十億的緊密聯(lián)結(jié)的神經(jīng)元組成,神經(jīng)網(wǎng)絡(luò)里最基礎(chǔ)的運(yùn)算單元也是一個(gè)“神經(jīng)元式”的節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)從其它節(jié)點(diǎn)處獲取輸入信息,然后把自己的輸出信息再交給另外的節(jié)點(diǎn)。 此外,這些成千上萬(wàn)、甚至上百萬(wàn)的節(jié)點(diǎn) 都被按等級(jí)分布于不同層次,就像大腦一樣。 在一個(gè)我們用來(lái)訓(xùn)練“對(duì)象識(shí)別模型”的 典型神經(jīng)網(wǎng)絡(luò)里,有著 2400 萬(wàn)個(gè)節(jié)點(diǎn),1 億 4 千萬(wàn)個(gè)參數(shù),和 150 億個(gè)聯(lián)結(jié)。這是一個(gè)龐大的模型。借助 ImageNet 提供的巨大規(guī)模數(shù)據(jù)支持,通過(guò)大量最先進(jìn)的 CPU 和 GPU,來(lái)訓(xùn)練這些堆積如山的模型,“卷積神經(jīng)網(wǎng)絡(luò)”以難以想象的方式蓬勃發(fā)展起來(lái)。它成為了一個(gè)成功體系,在對(duì)象識(shí)別領(lǐng)域,產(chǎn)生了激動(dòng)人心的新成果。 神經(jīng)網(wǎng)絡(luò)用于解讀圖片,包括一些分層排列的人工神經(jīng)元,神經(jīng)無(wú)數(shù)量從幾十到幾百、幾千,甚至上百萬(wàn)不等。每層神經(jīng)元負(fù)責(zé)識(shí)別圖像的不同成分,有的識(shí)別像素,有的識(shí)別顏色差異,還有的識(shí)別形狀。到頂層時(shí)——如今的神經(jīng)網(wǎng)絡(luò)可以容納多達(dá) 30 層——計(jì)算機(jī)就能對(duì)圖像識(shí)別出個(gè)大概了。 上面幾張圖是計(jì)算機(jī)在告訴我們:照片里有一只貓、還有貓所在的位置。當(dāng)然不止有貓了,這是計(jì)算機(jī)算法在告訴我們照片里有一個(gè)男孩,和一個(gè)泰迪熊;一只狗,一個(gè)人,和背景里的小風(fēng)箏;或者是一張拍攝于鬧市的照片比如人、滑板、欄桿、燈柱…等等。 有時(shí)候,如果計(jì)算機(jī)不是很確定它看到的是什么,我們還教它用足夠聰明的方式給出一個(gè)“安全”的答案,而不是“言多必失” ——就像人類(lèi)面對(duì)這類(lèi)問(wèn)題時(shí)一樣。 但在其他時(shí)候,我們的計(jì)算機(jī)算法厲害到可以告訴我們 關(guān)于對(duì)象的更確切的信息, 比如汽車(chē)的品牌、型號(hào)、年份。 我們?cè)谏习偃f(wàn)張谷歌街景照片中應(yīng)用了這一算法,那些照片涵蓋了上百個(gè)美國(guó)城市。我們從中發(fā)現(xiàn)一些有趣的事:首先,它證實(shí)了我們的一些常識(shí):汽車(chē)的價(jià)格,與家庭收入 呈現(xiàn)出明顯的正相關(guān)。但令人驚奇的是,汽車(chē)價(jià)格與犯罪率也呈現(xiàn)出明顯的正相關(guān)性,以上結(jié)論是基于城市、或投票的郵編區(qū)域進(jìn)行分析的結(jié)果。 那么等一下,這就是全部成果了嗎? 計(jì)算機(jī)是不是已經(jīng)達(dá)到,或者甚至超過(guò)了人類(lèi)的能力?——還沒(méi)有那么快。目前為止,我們還只是教會(huì)了計(jì)算機(jī)去看對(duì)象。這就像是一個(gè)小寶寶學(xué)會(huì)說(shuō)出幾個(gè)名詞。這是一項(xiàng)難以置信的成就,但這還只是第一步。很快,我們就會(huì)到達(dá)發(fā)展歷程的另一個(gè)里程碑:這個(gè)小孩會(huì)開(kāi)始用“句子”進(jìn)行交流。所以不止是說(shuō)這張圖里有只“貓”,你在開(kāi)頭已經(jīng)聽(tīng)到小妹妹告訴我們“這只貓是坐在床上的”。 為了教計(jì)算機(jī)看懂圖片并生成句子, “大數(shù)據(jù)”和“機(jī)器學(xué)習(xí)算法”的結(jié)合需要更進(jìn)一步。 現(xiàn)在,計(jì)算機(jī)需要從圖片和人類(lèi)創(chuàng)造的自然語(yǔ)言句子中同時(shí)進(jìn)行學(xué)習(xí)。 就像我們的大腦,把視覺(jué)現(xiàn)象和語(yǔ)言融合在一起,我們開(kāi)發(fā)了一個(gè)模型,可以把一部分視覺(jué)信息,像視覺(jué)片段,與語(yǔ)句中的文字、短語(yǔ)聯(lián)系起來(lái)。 大約 4 個(gè)月前,我們最終把所有技術(shù)結(jié)合在了一起,創(chuàng)造了第一個(gè)“計(jì)算機(jī)視覺(jué)模型”,它在看到圖片的第一時(shí)間,就有能力生成類(lèi)似人類(lèi)語(yǔ)言的句子。現(xiàn)在,我準(zhǔn)備給你們看看計(jì)算機(jī)看到圖片時(shí)會(huì)說(shuō)些什么 ——還是那些在演講開(kāi)頭給小女孩看的圖片。 計(jì)算機(jī):“一個(gè)男人站在一頭大象旁邊?!? 計(jì)算機(jī)還是會(huì)犯很多錯(cuò)誤的。比如:“一只貓?zhí)稍诖采系奶鹤由?。”?dāng)然——如果它看過(guò)太多種的貓,它就會(huì)覺(jué)得什么東西都長(zhǎng)得像貓…… 計(jì)算機(jī):“一個(gè)小男孩拿著一根棒球棍?!被蛘摺绻鼜臎](méi)見(jiàn)過(guò)牙刷,它就分不清牙刷和棒球棍的區(qū)別。 計(jì)算機(jī):“建筑旁的街道上有一個(gè)男人騎馬經(jīng)過(guò)?!蔽覀冞€沒(méi)教它 Art 101(美國(guó)大學(xué)藝術(shù)基礎(chǔ)課)。 計(jì)算機(jī):“一只斑馬站在一片草原上?!彼€沒(méi)學(xué)會(huì)像你我一樣欣賞大自然里的絕美景色。 所以,這是一條漫長(zhǎng)的道路。將一個(gè)孩子從出生培養(yǎng)到 3 歲是很辛苦的。而真正的挑戰(zhàn)是從 3 歲到 13 歲的過(guò)程中,而且遠(yuǎn)遠(yuǎn)不止于此。讓我再給你們看看這張關(guān)于小男孩和蛋糕的圖。目前為止,我們已經(jīng)教會(huì)計(jì)算機(jī)“看”對(duì)象,或者甚至基于圖片,告訴我們一個(gè)簡(jiǎn)單的故事。計(jì)算機(jī):“一個(gè)人坐在放蛋糕的桌子旁?!? 而坐在桌子旁邊的人,這個(gè)一個(gè)年幼的男孩就是李飛飛的兒子,里奧。 但圖片里還有更多信息——遠(yuǎn)不止一個(gè)人和一個(gè)蛋糕。計(jì)算機(jī)無(wú)法理解的是:這是一個(gè)特殊的意大利蛋糕,它只在復(fù)活節(jié)限時(shí)供應(yīng)。而這個(gè)男孩穿著的是他最喜歡的 T 恤衫,那是他父親去悉尼旅行時(shí)帶給他的禮物。另外,你和我都能清楚地看出,這個(gè)小孩有多高興,以及這一刻在想什么。 電腦或許能用簡(jiǎn)單的語(yǔ)言來(lái)描述它所「看見(jiàn)」的圖片,但它卻無(wú)法描述照片背后的故事。 后邊這一段話(huà)也鼓舞人心,這個(gè)世界的另一端有一部分人在孜孜不倦為視覺(jué)領(lǐng)域的進(jìn)步不斷努力。 在我探索視覺(jué)智能的道路上,我不斷地想到 Leo 和他未來(lái)將要生活的那個(gè)世界。當(dāng)機(jī)器可以“看到”的時(shí)候,醫(yī)生和護(hù)士會(huì)獲得一雙額外的、不知疲倦的眼睛,幫他們?cè)\斷病情、照顧病人。汽車(chē)可以在道路上行駛得 更智能、更安全。機(jī)器人,而不只是人類(lèi),會(huì)幫我們救助災(zāi)區(qū)被困和受傷的人員。我們會(huì)發(fā)現(xiàn)新的物種、更好的材料,還可以在機(jī)器的幫助下探索從未見(jiàn)到過(guò)的前沿地帶。 一點(diǎn)一點(diǎn)地,我們正在賦予機(jī)器以視力。 首先,我們教它們?nèi)ァ翱础?。然后,它們反過(guò)來(lái)也幫助我們,讓我們看得更清楚。這是第一次,人類(lèi)的眼睛不再獨(dú)自地思考和探索我們的世界。我們將不止是“使用”機(jī)器的智力,我們還要以一種從未想象過(guò)的方式,與它們“合作”。 我所追求的是:賦予計(jì)算機(jī)視覺(jué)智能,并為 Leo 和這個(gè)世界,創(chuàng)造出更美好的未來(lái)。 也許這就是科學(xué)家的理想和情懷吧。 題圖來(lái)自:YouTube |
|
來(lái)自: llvsh > 《深度學(xué)習(xí)》