這篇文章的內(nèi)容取自我編輯的電子期刊《人工智能大勢(shì)》第20期,2020年4月7日發(fā)表。由于這部分內(nèi)容特別長(zhǎng),且有些意猶未盡,故將其提取出來,作一些補(bǔ)充,獨(dú)立成一篇文章。 最近有一篇文章比較有意思,標(biāo)題為《劉鐵巖談機(jī)器學(xué)習(xí):隨波逐流的太多,我們需要反思》,劉鐵巖是微軟亞洲研究院副院長(zhǎng)、博士,文章是他最近一次在線公開課的演講內(nèi)容。 這篇文章非常長(zhǎng),前面主要介紹微軟亞洲研究院在人工智能上的一些研究成果,如對(duì)偶學(xué)習(xí)解決機(jī)器學(xué)習(xí)對(duì)大量有標(biāo)簽數(shù)據(jù)的依賴、解決機(jī)器學(xué)習(xí)對(duì)大計(jì)算量的依賴、深度學(xué)習(xí)理論探索、元學(xué)習(xí)的限制等,這些都是非常專業(yè)的內(nèi)容,不太適合一般人看。 不過,在該文章的最后部分對(duì)機(jī)器學(xué)習(xí)進(jìn)行了“展望未來”,該部分內(nèi)容對(duì)目前人工智能的研究做了很有意義的反思,并帶領(lǐng)讀者開闊腦洞,去展望人工智能和機(jī)器學(xué)習(xí)發(fā)展的更多可能性。對(duì)于關(guān)注人工智能的讀者,有必要了解下。 首先我們摘要文章這部分的一些主要內(nèi)容,看看微軟亞洲研究院是如何展望機(jī)器學(xué)習(xí)未來的(文中常說機(jī)器學(xué)習(xí),其實(shí)主要是指深度學(xué)習(xí)): 現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的會(huì)議越來越膨脹,有一點(diǎn)點(diǎn)不理智。每一年那么多論文,甚至都不知道該讀哪些。人們?cè)趯懻撐摹⒆鲅芯康臅r(shí)候,有時(shí)也不知道重點(diǎn)該放在哪里。比如,如果整個(gè)學(xué)術(shù)界都在做 learning2learn,是不是我應(yīng)該做一篇 learning2learn 的論文?大家都在用自動(dòng)化的方式做 neural architecture search,我是不是也要做一篇呢?隨波逐流、人云亦云的心態(tài)非常多。 我們其實(shí)應(yīng)該反思:現(xiàn)在大家關(guān)注的熱點(diǎn)是不是涵蓋了所有值得研究的問題?有哪些重要的方向其實(shí)是被忽略的? 量子計(jì)算 量子和機(jī)器學(xué)習(xí)理論相互碰撞時(shí),會(huì)發(fā)生一些非常有趣的現(xiàn)象。我們知道,量子有不確定性,這種不確定性有的時(shí)候不見得是件壞事,因?yàn)樵跈C(jī)器學(xué)習(xí)領(lǐng)域,我們通常希望有不確定性,甚至有時(shí)我們還會(huì)故意在數(shù)據(jù)里加噪聲,在模型訓(xùn)練的過程中加噪聲,以期獲得更好的泛化性能。 從這個(gè)意義上講,量子計(jì)算的不確定性是不是反而可以幫助機(jī)器學(xué)習(xí)獲得更好的泛化性能?如果我們把量子計(jì)算的不確定性和機(jī)器學(xué)習(xí)的泛化放在一起,形成一個(gè)統(tǒng)一的理論框架,是不是可以告訴我們它的 Trade-off 在哪里?(編者注:Trade-off,平衡點(diǎn))是不是我們對(duì)量子態(tài)的探測(cè)就不需要那么狠?因?yàn)樘綔y(cè)得越狠可能越容易 overfit(編者注:overfit,過擬合)。 以簡(jiǎn)治繁 深度學(xué)習(xí)是一個(gè)以繁治繁的過程,為了去處理非常復(fù)雜的訓(xùn)練數(shù)據(jù),它使用了一個(gè)幾乎更復(fù)雜的模型。但這樣做真的值得嗎?跟我們過去幾十年甚至上百年做基礎(chǔ)科學(xué)的思路是不是一致的? 在物理、化學(xué)、生物這些領(lǐng)域,人們追求的是世界簡(jiǎn)單而美的規(guī)律。不管是量子物理,還是化學(xué)鍵,甚至經(jīng)濟(jì)學(xué)、遺傳學(xué),很多復(fù)雜的現(xiàn)象背后其實(shí)都是一個(gè)二階偏微分方程……看起來很復(fù)雜的世界,其實(shí)背后的數(shù)學(xué)模型都是簡(jiǎn)單而美的。這些以簡(jiǎn)治繁的思路,跟深度學(xué)習(xí)是大相徑庭的。 以前的這種以簡(jiǎn)治繁的思路,從來都不認(rèn)為數(shù)據(jù)是上帝,他們認(rèn)為背后的規(guī)律是上帝,數(shù)據(jù)只是一個(gè)表象。 我們要學(xué)的是生成數(shù)據(jù)的規(guī)律,而不是數(shù)據(jù)本身,這個(gè)方向其實(shí)非常值得大家去思考。……而不是簡(jiǎn)單地使用一個(gè)非線性的模型去做數(shù)據(jù)擬合。 我們?nèi)祟惖降资侨绾螌W(xué)習(xí)的。到今天為止,深度學(xué)習(xí)在很多領(lǐng)域的成功,其實(shí)都是做模式識(shí)別。模式識(shí)別聽起來很神奇,其實(shí)是很簡(jiǎn)單的一件事情。幾乎所有的動(dòng)物都會(huì)模式識(shí)別。人之所以有高的智能,并不是因?yàn)槲覀儠?huì)做模式識(shí)別,而是因?yàn)槲覀冇兄R(shí),有常識(shí)?;谶@個(gè)理念,Yann LeCun 一個(gè)新的研究方向叫 Predictive Learning(預(yù)測(cè)學(xué)習(xí))。它的思想是什么?就是即便我們沒有看到事物的全貌,因?yàn)槲覀冇谐WR(shí),有知識(shí),我們?nèi)匀豢梢宰鲆欢ǔ潭鹊念A(yù)測(cè),并且基于這個(gè)預(yù)測(cè)去做決策。這件事情已經(jīng)比傳統(tǒng)的模式識(shí)別高明很多,它會(huì)涉及到人利用知識(shí)和常識(shí)去做預(yù)測(cè)的問題。 但是,反過來想一想,我們的世界真的是可以預(yù)測(cè)的嗎?可能一些平凡的規(guī)律是可以預(yù)測(cè)的,但是我們每個(gè)人都可以體會(huì)到,我們的生活、我們的生命、我們的世界大部分都是不可預(yù)測(cè)的。 我們猜測(cè)人類其實(shí)在做一件事情,叫 Improvisation,什么意思?就是我們每個(gè)人其實(shí)是為了生存在跟這個(gè)世界抗?fàn)帯N覀兠刻鞆氖澜缋锩鎸W(xué)習(xí)的東西,都是為了應(yīng)付將來未知的異常。當(dāng)一件不幸的事情發(fā)生的時(shí)候,我們?nèi)绾尾拍苌嫦聛??其?shí)是因?yàn)槲覀儗?duì)這個(gè)世界有足夠的了解,于是會(huì)利用已有的知識(shí),即興制定出一個(gè)方案,讓我們規(guī)避風(fēng)險(xiǎn),走過這個(gè)坎。 從這個(gè)意義上講,這個(gè)過程其實(shí)跟 Predictive Learning不一樣,跟強(qiáng)化學(xué)習(xí)也不一樣,因?yàn)樗鼪]有既定的學(xué)習(xí)規(guī)律和學(xué)習(xí)目標(biāo),并且它是跟環(huán)境做交互,希望能夠處理未來的未知環(huán)境。這其實(shí)就跟我們每個(gè)人積累一身本事一樣,為的就是養(yǎng)兵千日用兵一時(shí)。當(dāng)某件事情發(fā)生時(shí),我怎么能夠把一身的本事使出來,活下去。 群體智慧 一個(gè)更哲學(xué)的思辨:人類的智能之所以這么高,到底是因?yàn)槲覀儌€(gè)體非常強(qiáng)大,還是因?yàn)槲覀內(nèi)后w非常強(qiáng)大?今天絕大部分的人工智能研究,包括深度學(xué)習(xí),其實(shí)都在模仿人類個(gè)體的大腦,希望學(xué)會(huì)人類個(gè)體的學(xué)習(xí)能力??墒菕行淖詥?,人類個(gè)體的學(xué)習(xí)能力真的比大猩猩等人類近親高幾個(gè)數(shù)量級(jí)嗎? 所以我們堅(jiān)信人類除了個(gè)體聰明以外,還有一些更加特殊的東西,那就是社會(huì)結(jié)構(gòu)和社會(huì)機(jī)制,使得我們的智能突飛猛進(jìn)。比如文字的產(chǎn)生,書籍的產(chǎn)生,它變成了知識(shí)的載體,使得某一個(gè)人獲得的對(duì)世界的認(rèn)知,可以迅速傳播給全世界其他人,這個(gè)社會(huì)機(jī)制非常重要,會(huì)加速我們的進(jìn)化。 再者,社會(huì)分工不同會(huì)使得每個(gè)人只要優(yōu)化自己的目標(biāo),讓自己變強(qiáng)大就可以了。各個(gè)領(lǐng)域里有各自的大師,而這些大師的互補(bǔ)作用,使得我們社會(huì)蓬勃發(fā)展。 所以社會(huì)的多樣性,社會(huì)競(jìng)爭(zhēng)、進(jìn)化、革命、革新,這些可能都是人類有今天這種高智能的原因。 以上是文章摘要,下面說說我的觀點(diǎn): 首先微軟亞洲研究院勇于探索、不隨波逐流的精神非常值得稱贊,要有革命性的突破,就要敢于走別人、主流不走的道路,敢于成為開拓者。 這一“展望未來”的最大意義在于,反思了目前深度學(xué)習(xí)并不是最好的道路,它并不能讓我們走向真正的人工智能——通用人工智能,要想有質(zhì)的飛躍,必須另辟蹊徑。不像一些專家認(rèn)為的,深度學(xué)習(xí)就是最終道路,可以解決人工智能的所有問題,比如文章《人工智能專家之間針鋒相對(duì),凸顯AI未來發(fā)展的分歧與不確定性》中的丹尼·蘭格(Danny Lange),他是Unity負(fù)責(zé)人工智能和機(jī)器學(xué)習(xí)的副總裁,他完全屬于深度學(xué)習(xí)陣營(yíng)。 但開拓新方向的難度非常高,循規(guī)蹈矩的思維模式肯定行不通,必須要“異想天開”才有可能突破。 具體到文章提出的一些觀點(diǎn),首先非常贊賞其“擁抱不確定性”的觀點(diǎn),我們認(rèn)為這是人工智能最核心的思維方式,因?yàn)槿斯ぶ悄芫褪且寵C(jī)器像我們?nèi)艘粯尤ヌ幚矸浅?fù)雜、不確定的事物,而不是只會(huì)用公式去進(jìn)行機(jī)械的計(jì)算。因此,沒有擁抱不確定性的思維,是不可能有高水平的人工智能研究,甚至是高水平應(yīng)用也難以進(jìn)行。 但擁抱不確定性確實(shí)是一件非常難以讓人接受的事情,我們總是本能地抵觸不確定性,總是希望用一個(gè)簡(jiǎn)單的、確定的方法去解決問題。比如這篇文章的另一個(gè)觀點(diǎn),希望像物理、化學(xué)等用一個(gè)簡(jiǎn)單的方程去處理復(fù)雜的事物,比如語言,就又不知不覺滑回了摒棄不確定性的老路。但就如文章《“人工智能之父”揭示思維能級(jí)的秘密》中的大神,圖靈獎(jiǎng)、諾貝爾獎(jiǎng)獲得者西蒙認(rèn)為“數(shù)學(xué)不適合用來研究人類行為”,這條老路是行不通的。 說數(shù)學(xué)是宇宙的語言,認(rèn)為任何事物都可以用數(shù)學(xué)來解決的觀點(diǎn),確實(shí)是值得商榷的。西蒙說數(shù)學(xué)不適合用來研究人類行為,對(duì)此非常贊同。正如有專家說,數(shù)學(xué)不適合處理自然語言,因?yàn)閿?shù)學(xué)函數(shù)的連續(xù)性,與自然語言的離散性,很難協(xié)調(diào)。同理,對(duì)于這個(gè)復(fù)雜的、離散的大千世界,數(shù)學(xué)并不是包治百病的良藥。換句話說,人的大腦里并沒有那些高深的數(shù)學(xué)算法,比如像微積分等,有的只是簡(jiǎn)單的1+1統(tǒng)計(jì),刺激多的,記憶就深刻,就強(qiáng)相關(guān),就這么簡(jiǎn)單。 誠(chéng)然,深度學(xué)習(xí)“以繁治繁”的思路并不是最好的,但這并不代表復(fù)雜的事物可以用一個(gè)簡(jiǎn)單的方程解決,就如同牛頓的力學(xué)公式可以計(jì)算所有天體的運(yùn)動(dòng)軌跡(其實(shí)也有不能完全計(jì)算出來的,比如水星進(jìn)動(dòng),就需要用到愛因斯坦的相對(duì)論)。事物發(fā)展是螺旋式上升,我們需要尋找簡(jiǎn)潔的方法去解決復(fù)雜問題,但此簡(jiǎn)非彼簡(jiǎn)。 深度學(xué)習(xí)的以繁治繁的思路,就是因?yàn)樵械姆椒y以解決更復(fù)雜的問題,從而發(fā)展出來的新方法,這種方法比原有方法能夠在一定程度上更好地解決復(fù)雜問題。雖然這種方法還不夠好,但可以肯定地說,退回原有的思路和方法是更不好的。需要的是在其基礎(chǔ)上發(fā)展出更好的方法,也許這種方法包含更簡(jiǎn)潔思路在里面,但已不是原來那種簡(jiǎn)單,而是更高級(jí)的“簡(jiǎn)單”。“過去幾十年甚至上百年做基礎(chǔ)科學(xué)的思路”也許已經(jīng)到了需要與時(shí)俱進(jìn)、需要改革的時(shí)候了。 “以繁治繁”并不是完全錯(cuò)誤的,我們的大腦實(shí)際上就是類似的工作原理。大腦本身就是一個(gè)非常復(fù)雜的系統(tǒng),而之所以人類大腦能夠很好的處理世間的許多復(fù)雜性問題,應(yīng)該說也正是因?yàn)槠渥陨淼膹?fù)雜性。也就是說,大腦實(shí)際上就是為了去處理非常復(fù)雜的問題,“而使用了一個(gè)幾乎更復(fù)雜的模型”。很可能“以繁治繁”是解決非線性、離散、復(fù)雜問題的根本方法。 但另一方面,大腦的基本工作原理又是簡(jiǎn)單的,也正如西蒙的觀點(diǎn),只是根據(jù)外界刺激,用經(jīng)驗(yàn)去應(yīng)對(duì)。這一觀點(diǎn)與微軟文章的觀點(diǎn),“我們每天從世界里面學(xué)習(xí)的東西,都是為了應(yīng)付將來未知的異常”,“因?yàn)槲覀儗?duì)這個(gè)世界有足夠的了解,于是會(huì)利用已有的知識(shí),即興制定出一個(gè)方案,讓我們規(guī)避風(fēng)險(xiǎn),走過這個(gè)坎”,兩者也是很類似的。 就像我們上面所說,大腦中經(jīng)驗(yàn)的積累,實(shí)際上也是簡(jiǎn)單的原理,即根據(jù)外界刺激的多寡、強(qiáng)弱,按照簡(jiǎn)單的統(tǒng)計(jì)原理,在大腦中形成神經(jīng)元的聯(lián)接強(qiáng)弱,刺激越多,聯(lián)接就越強(qiáng)。這種簡(jiǎn)單的統(tǒng)計(jì),也是大數(shù)據(jù)的原理,同時(shí)非常適合電腦進(jìn)行處理。并且這也符合復(fù)雜性原理,即通過大量簡(jiǎn)單的重復(fù),形成高級(jí)、復(fù)雜的特性,從而可以應(yīng)對(duì)和解決復(fù)雜問題。 所以,我們認(rèn)為這種“以簡(jiǎn)形成繁并治繁”的原理是更高級(jí)的處理復(fù)雜性問題的方法,而且理論上其泛化和通用性非常好,或許就是通用人工智能的根本之路。 所以,數(shù)據(jù)在這里就變得非常重要,就如同每個(gè)人的大腦基本結(jié)構(gòu)都是一樣的,但之所以你是你、我是我,你和我是不同的,其根源就在于我們所接收到的數(shù)據(jù)不同,從而形成了各種不同的思想、觀念,有了人類社會(huì)的千姿百態(tài)。從這個(gè)意義上說,數(shù)據(jù)不只是表象,其蘊(yùn)含了深層的規(guī)律在里面,數(shù)據(jù)就是上帝。機(jī)器學(xué)習(xí)所要做的,就是應(yīng)用大數(shù)據(jù)原理,從數(shù)據(jù)中去挖掘出規(guī)律,包括常識(shí)、知識(shí)。 一旦機(jī)器能夠應(yīng)用一個(gè)簡(jiǎn)單的、泛化的算法,從紛繁的大千世界和人類知識(shí)這些數(shù)據(jù)中去挖掘出規(guī)律,形成它們自己的常識(shí)和知識(shí),不論是基于預(yù)測(cè)去做決策,還是即興制定方案去解決臨時(shí)遇到的問題,不說能夠解決得十全十美,但應(yīng)該可以和我們?nèi)祟愖龅靡粯雍?,甚至超過人類。換句話說,通用人工智能的問題就解決了。 其實(shí),文章中把“預(yù)測(cè)問題”和“即興解決問題”對(duì)立起來是有問題的,我們?nèi)嗽诮鉀Q世間的問題,這兩種方法都會(huì)用到,也就是“制定計(jì)劃”和“隨機(jī)應(yīng)變”。我們既不能因?yàn)橹贫擞?jì)劃,就按部就班地照計(jì)劃執(zhí)行,即使有意外情況,也不可越雷池一步;也不能因?yàn)槲覀兙哂须S機(jī)應(yīng)變的能力,就不制定計(jì)劃,一切問題都兵來將擋、水來土掩,都靠臨時(shí)去解決。很顯然,必須是這兩種方法有機(jī)地結(jié)合,才有可能把所有問題都處理到一個(gè)比較好的程度(把所有問題都處理完美只能是理想)。 就像發(fā)生在2020年初席卷世界的新冠肺炎疫情,各個(gè)主要國(guó)家想必都有應(yīng)對(duì)突發(fā)疫情的預(yù)案,如果沒有這樣的預(yù)案,沒有醫(yī)療物資的儲(chǔ)備,如口罩、呼吸機(jī)等,那么想必最初的損失將更加慘重。 但是,即使有再充分的準(zhǔn)備,實(shí)際情況都有可能超出預(yù)期,甚至如這次疫情般大大超出預(yù)期,那么這時(shí)就必須要隨機(jī)應(yīng)變,根據(jù)具體情況進(jìn)行調(diào)整,做出新的方案。就像中國(guó)很快做出封城的決定,在很短的時(shí)間里建起火神山、雷神山醫(yī)院,以及十幾個(gè)方艙醫(yī)院,全國(guó)十幾個(gè)省市、上萬醫(yī)護(hù)人員火速增援湖北、武漢,全國(guó)停工、停學(xué),所有人戴口罩等等措施,這都是史無前例的。但正因?yàn)橛羞@樣快速、果斷、徹底的應(yīng)變,使得中國(guó)能夠在很短的時(shí)間里將疫情控制,把損失降到最低程度,成為世界抗擊疫情的典范。 反觀其它歐美發(fā)達(dá)國(guó)家,如美國(guó)、英國(guó)等,其醫(yī)療體系無疑是世界上最先進(jìn)的,他們應(yīng)對(duì)疫情的預(yù)案也肯定是所有國(guó)家中最完善的,但就因?yàn)閷?duì)于遠(yuǎn)超出預(yù)期的突發(fā)情況不能隨機(jī)應(yīng)變,不能像中國(guó)這樣果斷采取措施,從而導(dǎo)致受到的損失遠(yuǎn)遠(yuǎn)高于中國(guó)。 不論是計(jì)劃還是隨機(jī)應(yīng)變,都離不開常識(shí)和知識(shí),沒有這兩樣,任何事情都做不了。人工智能要想把復(fù)雜事情做好,也必須具有常識(shí)和知識(shí),且必須是機(jī)器自己去學(xué)習(xí)所獲得常識(shí)和知識(shí),不是靠人工去給它輸入,否則“有多少人工,才有多少智能”,終究只是人工,不是智能。 文章最后是關(guān)于“群體智能”的思考,不過這一觀點(diǎn)更加值得商榷。僅舉一例,在文字、書籍出現(xiàn)之前,人類就已經(jīng)具有很高的智能水平了,不然也不可能發(fā)明出文字和書籍。當(dāng)然,文字、書籍、社會(huì)分工等會(huì)促進(jìn)智能的提高是毫無疑問的。 總之,人工智能還處在發(fā)展的嬰兒期,很多問題,包括根本性的問題,都還沒有解決。我們切不可固步自封、不思進(jìn)取,一定要多反思,開闊視野,勇于探索前人沒有走過的路,才有可能讓人工智能,這一將主宰人類未來終極命運(yùn)的科技,取得突破,躍上新的臺(tái)階! 解、存儲(chǔ)、應(yīng)用為研究方向,以感知信息的深度理解和自然語言信息的深度理解為突破口,以跨學(xué)科理論體系為指導(dǎo),從而形成的新一代理論、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué)。 認(rèn)知智能的核心研究范疇包括:1.宇宙、信息、大腦三者關(guān)系;2.人類大腦結(jié)構(gòu)、功能、機(jī)制;3.哲學(xué)體系、文科體系、理科體系;4.認(rèn)知融通、智慧融通、雙腦(人腦和電腦)融通等核心體系。 認(rèn)知智能四步走:1.認(rèn)知宇宙世界。支撐理論體系有三體(宇宙、信息、大腦)論、易道論、存在論、本體論、認(rèn)知論、融智學(xué)、HNC 等理論體系;2.清楚人腦結(jié)構(gòu)、功能、機(jī)制。支撐學(xué)科有腦科學(xué)、心理學(xué)、邏輯學(xué)、情感學(xué)、生物學(xué)、化學(xué)等學(xué)科。3.清楚信息內(nèi)涵規(guī)律規(guī)則。支撐學(xué)科有符號(hào)學(xué)、語言學(xué)、認(rèn)知語言學(xué)、形式語言學(xué)等學(xué)科。4.系統(tǒng)落地能力。支撐學(xué)科有計(jì)算機(jī)科學(xué)、數(shù)學(xué)等學(xué)科。 |
|