乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

       羅宋湯的味道 2019-10-09
      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      LSTM的發(fā)明人、著名深度學(xué)習(xí)專(zhuān)家Jürgen Schmidhuber詳細(xì)論述了近30年前,即1990~1991年之間他和團(tuán)隊(duì)進(jìn)行的許多研究。他們的早期思想為當(dāng)今的許多深度學(xué)習(xí)前沿研究奠定了基礎(chǔ),包括 LSTM、元學(xué)習(xí)、注意力機(jī)制和強(qiáng)化學(xué)習(xí)等。

      近日,LSTM 的發(fā)明人、著名深度學(xué)習(xí)專(zhuān)家 Jürgen Schmidhuber 發(fā)表了一篇長(zhǎng)文,詳細(xì)論述了近 30 年前,即 1990~1991 年之間他和團(tuán)隊(duì)進(jìn)行的許多研究。

      Jürgen 表示,深度學(xué)習(xí)革命背后的許多基本思想,是在 1990~1991 年不到 12 個(gè)月的時(shí)間里,在慕尼黑理工大學(xué) (TU Munich) 產(chǎn)生的,而這些思想為當(dāng)今的許多深度學(xué)習(xí)前沿研究奠定了基礎(chǔ),包括 LSTM、元學(xué)習(xí)、注意力機(jī)制和強(qiáng)化學(xué)習(xí)等。

      Jürgen 稱這一年為 “奇跡之年”。盡管當(dāng)時(shí)他們發(fā)表的工作幾乎無(wú)人問(wèn)津,但四分之一個(gè)世紀(jì)后,基于這些想法的神經(jīng)網(wǎng)絡(luò)不斷得到改進(jìn),其應(yīng)用出現(xiàn)在智能手機(jī)等 30 多億設(shè)備、每天被使用數(shù)十億次,在全世界消耗大量的計(jì)算資源。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      在 AI 領(lǐng)域,深度學(xué)習(xí)三巨頭 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 人盡皆知,Jürgen Schmidhuber 的知名度卻遠(yuǎn)不及三人,盡管他發(fā)明的 LSTM 被認(rèn)為是教科書(shū)級(jí)別的貢獻(xiàn)。他是被圖靈獎(jiǎng)遺忘的大神。在Hinton等三巨頭獲圖靈獎(jiǎng)之時(shí),Jürgen卻得到了很大的呼聲:“為什么Jürgen沒(méi)有得圖靈獎(jiǎng)?”

      Jürgen Schmidhuber 是瑞士 Dalle Molle 人工智能研究所的聯(lián)合主任,他 1997 年提出的 LSTM 現(xiàn)在被廣泛應(yīng)用在谷歌翻譯、蘋(píng)果 Siri、亞馬遜 Alex 等應(yīng)用中,可謂是深度學(xué)習(xí)領(lǐng)域最商業(yè)化的技術(shù)之一。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      Jürgen Schmidhuber

      除了 LSTM 之外,Jürgen Schmidhuber “引以為傲” 的還有他在 1992 年提出的 PM(Predictability Minimization)模型。他堅(jiān)持認(rèn)為現(xiàn)在大火的 GAN 就是 PM 的變種,兩者的區(qū)別就在于方向是反的,為此,Jürgen 還和 GAN 的提出者 Ian Goodfellow 有過(guò)線上線下激烈的交鋒,引起業(yè)界廣泛討論。

      至于對(duì)深度學(xué)習(xí)三巨頭 Hinton、Bengio 和 LeCun,Jürgen Schmidhuber 也打過(guò)幾輪口水仗,認(rèn)為三人在自己的圈子里玩,對(duì)深度學(xué)習(xí)領(lǐng)域其他更早期先驅(qū)人物的貢獻(xiàn)則只字不提。

      是否人們對(duì) Jürgen Schmidhuber 的貢獻(xiàn)認(rèn)知過(guò)少?這篇文章詳述了 Jürgen 和他的團(tuán)隊(duì)在 “奇跡之年” 做出的許多研究,提出的許多思想,非常值得一看。

      本文的目錄如下:

      • 第 0 節(jié):深度學(xué)習(xí)的背景:神經(jīng)網(wǎng)絡(luò)
      • 第 1 節(jié):第一個(gè)非常深的神經(jīng)網(wǎng)絡(luò),基于無(wú)監(jiān)督預(yù)訓(xùn)練 (1991)
      • 第 2 節(jié):將神經(jīng)網(wǎng)絡(luò)壓縮 / 蒸餾成另一個(gè) (1991)
      • 第 3 節(jié):基本的深度學(xué)習(xí)問(wèn)題:梯度消失 / 爆炸 (1991)
      • 第 4 節(jié):長(zhǎng)短時(shí)記憶網(wǎng)絡(luò):有監(jiān)督深度學(xué)習(xí) (1991 年以來(lái)的基本想法)
      • 第 5 節(jié):通過(guò)對(duì)抗生成神經(jīng)網(wǎng)絡(luò)的人工好奇心 (1990)
      • 第 6 節(jié):通過(guò)最大化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)度的人工好奇心 (1991)
      • 第 7 節(jié):用于無(wú)監(jiān)督數(shù)據(jù)建模的對(duì)抗網(wǎng)絡(luò) (1991)
      • 第 8 節(jié):端到端可微快速權(quán)重:讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)編程神經(jīng)網(wǎng)絡(luò) (1991)
      • 第 9 節(jié):通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)序列注意力 (1990)
      • 第 10 節(jié):分層強(qiáng)化學(xué)習(xí) (1990)
      • 第 11 節(jié):用循環(huán)神經(jīng)世界模型做規(guī)劃和強(qiáng)化學(xué)習(xí) (1990)
      • 第 12 節(jié):將目標(biāo)定義作為額外的 NN 輸入 (1990)
      • 第 13 節(jié):作為 NN 輸入 / 通用值函數(shù)的高維獎(jiǎng)勵(lì)信號(hào) (1990)
      • 第 14 節(jié):確定性策略梯度 (1990)
      • 第 15 節(jié):用網(wǎng)絡(luò)來(lái)調(diào)整網(wǎng)絡(luò) / 合成梯度 (1990)
      • 第 16 節(jié):在線遞歸神經(jīng)網(wǎng)絡(luò)的 O (n^3) 梯度 (1991)
      • 第 17 節(jié):深層神經(jīng)熱交換器 (1990)
      • 第 18 節(jié):博士論文 (1991 年)
      • 第 19 節(jié):從無(wú)監(jiān)督預(yù)訓(xùn)練到純粹監(jiān)督學(xué)習(xí) (1991-95 和 2006-11)
      • 第 20 節(jié):20 世紀(jì) 90 年代 FKI 人工智能技術(shù)報(bào)告系列
      • 第 21 節(jié):結(jié)束語(yǔ)
      • 0、深度學(xué)習(xí)的背景:神經(jīng)網(wǎng)絡(luò)

      人腦大約有 1000 億個(gè)神經(jīng)元,每個(gè)神經(jīng)元平均與其他 1 萬(wàn)個(gè)神經(jīng)元連接。有些是輸入神經(jīng)元,將數(shù)據(jù) (聲音、視覺(jué)、觸覺(jué)、疼痛、饑餓) 喂給其他神經(jīng)元。其他的是控制肌肉的輸出神經(jīng)元。大多數(shù)神經(jīng)元隱藏在思考發(fā)生的位置。你的大腦顯然是通過(guò)改變連接的強(qiáng)度或權(quán)重來(lái)學(xué)習(xí)的,這些強(qiáng)度或權(quán)重決定了神經(jīng)元之間的相互影響的強(qiáng)度,而這些神經(jīng)元似乎編碼了你一生的經(jīng)歷。人工神經(jīng)網(wǎng)絡(luò) (NNs) 與之類(lèi)似,它能比以前的方法更好地學(xué)習(xí)識(shí)別語(yǔ)音、手寫(xiě)文字或視頻、最小化痛苦、最大化樂(lè)趣、駕駛汽車(chē),等等。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      當(dāng)前的商業(yè)應(yīng)用大多集中在監(jiān)督學(xué)習(xí),使神經(jīng)網(wǎng)絡(luò)模仿人類(lèi)教師。在許多試驗(yàn)中,Seppo Linnainmaa 于 1970 年提出的梯度計(jì)算算法,今天通常稱為反向傳播或自動(dòng)微分的反向模式,以逐步削弱某些神經(jīng)網(wǎng)絡(luò)連接和加強(qiáng)其他連接的方式,使神經(jīng)網(wǎng)絡(luò)行為越來(lái)越像老師。

      今天最強(qiáng)大的神經(jīng)網(wǎng)絡(luò)往往都非常深,也就是說(shuō),它們有許多層神經(jīng)元或許多后續(xù)的計(jì)算階段。然而,在 20 世紀(jì) 80 年代,基于梯度的訓(xùn)練并不適用于深度神經(jīng)網(wǎng)絡(luò),只適用于淺層神經(jīng)網(wǎng)絡(luò)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      這個(gè)問(wèn)題在循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 中表現(xiàn)得最為明顯。與更有限的前饋神經(jīng)網(wǎng)絡(luò) (FNN) 不同,RNN 具有反饋連接。這使得 RNN 功能強(qiáng)大,通用的并行序列計(jì)算機(jī)可以處理任意長(zhǎng)度的輸入序列 (例如語(yǔ)音或視頻)。原則上,RNN 可以實(shí)現(xiàn)在筆記本電腦上運(yùn)行的任何程序。如果我們想要構(gòu)建一個(gè)通用人工智能 (AGI),那么它的底層計(jì)算基礎(chǔ)必須是類(lèi)似于 RNN 的東西 ——FNN 從根本上是不夠的。RNN 與 FNN 的關(guān)系就像普通計(jì)算機(jī)與計(jì)算器的關(guān)系一樣。

      特別是,與 FNN 不同,RNN 原則上可以處理任意深度的問(wèn)題。然而,20 世紀(jì) 80 年代早期的 RNN 在實(shí)踐中未能學(xué)習(xí)到深層次的問(wèn)題。我想克服這個(gè)缺點(diǎn),實(shí)現(xiàn)基于 RNN 的 “通用深度學(xué)習(xí)”。

      1、第一個(gè)非常深的神經(jīng)網(wǎng)絡(luò),基于無(wú)監(jiān)督預(yù)訓(xùn)練 (1991)

      我克服上面提到的深度學(xué)習(xí)問(wèn)題的第一個(gè)想法是,通過(guò)對(duì)一組分層的 RNN 進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練來(lái)促進(jìn)深度 RNN 中的監(jiān)督學(xué)習(xí) (1991),從而得到了第一個(gè) “非常深的神經(jīng)網(wǎng)絡(luò)”,我稱之為Neural Sequence Chunker。換句話說(shuō),chunker 學(xué)習(xí)壓縮數(shù)據(jù)流,使得深度學(xué)習(xí)問(wèn)題不那么嚴(yán)重,可以通過(guò)標(biāo)準(zhǔn)的反向傳播來(lái)解決。盡管那時(shí)的計(jì)算機(jī)比現(xiàn)在慢一百萬(wàn)倍,但到 1993 年,我的方法已經(jīng)能夠解決以前無(wú)法解決的 “深度學(xué)習(xí)” 任務(wù),神經(jīng)網(wǎng)絡(luò)的層數(shù)超過(guò)了 1000 層。1993 年,我們還發(fā)布了一個(gè)后續(xù)版本的 Neural History Compressor。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      據(jù)我所知, Sequence Chunker 也是第一個(gè)由在不同時(shí)間尺度上運(yùn)行的 RNN 組成的系統(tǒng)。幾年后,其他人也開(kāi)始發(fā)表關(guān)于多時(shí)間尺度的 RNN 的研究。

      這項(xiàng)工作發(fā)表十多年后,一種用于更有限的前饋神經(jīng)網(wǎng)絡(luò)的類(lèi)似方法出現(xiàn)了,稱為深度置信網(wǎng)絡(luò) (DBN)。該論文的證明基本上就是我在 1990 年代早期為我的 RNN 堆棧使用的證明:每一個(gè)更高的層都試圖減少下面層中數(shù)據(jù)表示的描述長(zhǎng)度 (或負(fù)對(duì)數(shù)概率)。

      在上述基于無(wú)監(jiān)督預(yù)訓(xùn)練的深度學(xué)習(xí)網(wǎng)絡(luò)之后不久,深度學(xué)習(xí)問(wèn)題也通過(guò)我們的純監(jiān)督 LSTM 得以克服。

      當(dāng)然,前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)開(kāi)始得更早,早在 1965 年,Ivakhnenko 和 Lapa 就發(fā)表了第一個(gè)通用的、用于任意層數(shù)的深度多層感知器的學(xué)習(xí)算法。但是,與 Ivakhnenko 在 70 年代和 80 年代提出的深度 FNN 網(wǎng)絡(luò)不同,我們的深度 RNN 具有通用的并行訓(xùn)練計(jì)算架構(gòu)。到上世紀(jì) 90 年代初,大多數(shù)神經(jīng)網(wǎng)絡(luò)研究仍局限于相當(dāng)淺的網(wǎng)絡(luò),后續(xù)計(jì)算階段少于 10 個(gè),而我們的方法已經(jīng)支持了 1000 多個(gè)這樣的階段。我想說(shuō)的是,是我們讓神經(jīng)網(wǎng)絡(luò)變得如此之深,尤其是 RNN,它是所有網(wǎng)絡(luò)中最深、最強(qiáng)大的。

      2、將神經(jīng)網(wǎng)絡(luò)壓縮 / 蒸餾成另一個(gè) (1991)

      我在上述有關(guān) Neural History Compressor 的論文中還介紹了一種將網(wǎng)絡(luò)層次結(jié)構(gòu)壓縮到單個(gè)深度 RNN 的方法,從而學(xué)會(huì)了解決非常深入的問(wèn)題。將一個(gè)神經(jīng)網(wǎng)絡(luò)的知識(shí)轉(zhuǎn)移到另一個(gè)神經(jīng)網(wǎng)絡(luò)的一般原理是,假設(shè)教師 NN 已學(xué)會(huì)預(yù)測(cè)數(shù)據(jù),通過(guò)訓(xùn)練學(xué)生 NN 模仿教師 NN 的行為,它的知識(shí)可以壓縮到學(xué)生 NN 中。

      我稱之為將一個(gè)網(wǎng)絡(luò)的行為 “collapsing” 或 “compressing” 到另一個(gè)。今天,這個(gè)概念已經(jīng)被廣泛使用,也被稱為將教師網(wǎng)絡(luò)的行為 “蒸餾”(distilling) 或 “克隆” 到學(xué)生網(wǎng)絡(luò)。

      3、基本的深度學(xué)習(xí)問(wèn)題:梯度消失 / 爆炸 (1991)

      前文我們指出深度學(xué)習(xí)很難。但為什么很難呢?一個(gè)主要原因是,我喜歡稱之為 “基本深度學(xué)習(xí)問(wèn)題”,由我的學(xué)生 Sepp Hochreiter 1991 年在他的畢業(yè)論文 [VAN1] 中提出和分析。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      作為論文的一部分,Sepp 實(shí)現(xiàn)了上述 (第 1 節(jié)) 的 Neural History Compressor 和其他基于 RNN 的系統(tǒng) (第 11 節(jié))。但是,他做了更多的工作:他的工作正式表明,深度神經(jīng)網(wǎng)絡(luò)遭受梯度消失或梯度爆炸問(wèn)題:在典型的深度網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò)中,反向傳播的錯(cuò)誤信號(hào)要么迅速縮小,要么超出界限。在這兩種情況下,學(xué)習(xí)都會(huì)失敗。這種分析引出了 LSTM 的基本原理 (第 4 節(jié))。

      4、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò):有監(jiān)督深度學(xué)習(xí)

      長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò) (LSTM) 克服了 Sepp 在其 1991 年的畢業(yè)論文中提出的基本深度學(xué)習(xí)問(wèn)題。我認(rèn)為這是機(jī)器學(xué)習(xí)歷史上最重要的論文之一。它還通過(guò)我們?cè)?1995 年的技術(shù)報(bào)告 [LSTM0] 中所稱的 LSTM 的基本原理為解決這個(gè)問(wèn)題提供了重要的見(jiàn)解。這導(dǎo)致了下面描述的大量后續(xù)工作。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      明年,我們將慶祝 LSTM 首次投稿時(shí)未能通過(guò)同行評(píng)審 25 周年。在 1997 年主要的同行評(píng)審出版物 [LSTM1](現(xiàn)在是神經(jīng)計(jì)算歷史上引用最多的文章) 之后,LSTM 得到了進(jìn)一步的改進(jìn)。一個(gè)里程碑是帶有 forget gate [LSTM2] 的 “vanilla LSTM 架構(gòu)”——1999-2000 年的 LSTM 變體,現(xiàn)在每個(gè)人都在使用,例如,在谷歌的 Tensorflow 中。LSTM 的遺忘門(mén)實(shí)際上是一種端到端可微的快速權(quán)值控制器,我們?cè)?1991 年也介紹了這種控制器。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      Alex 是我們第一次成功地將 LSTM 應(yīng)用于語(yǔ)音的主要作者 (2004)[LSTM14]。2005 年,第一個(gè)具有時(shí)間反向完全傳播功能的 LSTM 和雙向 LSTM 發(fā)布 [LSTM3](現(xiàn)在廣泛使用)。2006 年的另一個(gè)里程碑是用于同時(shí)對(duì)齊和識(shí)別序列的訓(xùn)練方法 “連接時(shí)間分類(lèi)” 或 CTC。自 2007 年以來(lái),CTC 成為基于 LSTM 的語(yǔ)音識(shí)別的關(guān)鍵。例如,在 2015 年,CTC-LSTM 組合顯著改善了谷歌的語(yǔ)音識(shí)別 [GSR15]。

      在 21 世紀(jì)初,我們展示了 LSTM 如何學(xué)習(xí)傳統(tǒng)模型 (如隱馬爾可夫模型) 無(wú)法學(xué)習(xí)的語(yǔ)言 [LSTM13]。這花了一段時(shí)間;但到了 2016~2017 年,谷歌翻譯 [GT16] 和 Facebook 翻譯 [FB17] 均基于兩個(gè)連接 LSTM,一個(gè)用于輸入文本,一個(gè)用于輸出翻譯,性能比以前的翻譯模型要好得多。

      2009 年,我的博士生 Justin Bayer 是一個(gè)自動(dòng)設(shè)計(jì)類(lèi)似 LSTM 架構(gòu)的系統(tǒng)的主要作者,該系統(tǒng)在某些應(yīng)用程序中表現(xiàn)優(yōu)于普通 LSTM。2017 年,谷歌開(kāi)始使用類(lèi)似的 “神經(jīng)架構(gòu)搜索”[NAS]。

      這一切的基礎(chǔ)都是在 1991 年奠定的。

      5、通過(guò)對(duì)抗生成神經(jīng)網(wǎng)絡(luò)的人工好奇心 (1990)

      當(dāng)人類(lèi)與世界互動(dòng)時(shí),他們學(xué)會(huì)預(yù)測(cè)自己行為的后果。他們也很好奇,設(shè)計(jì)實(shí)驗(yàn)得出新的數(shù)據(jù),從中他們可以學(xué)到更多。為了構(gòu)建好奇的人工智能體,我在 1990 年介紹了一種新型的主動(dòng)無(wú)監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)。它基于一個(gè)極小極大博弈,其中一個(gè)神經(jīng)網(wǎng)絡(luò)最小化另一個(gè)神經(jīng)網(wǎng)絡(luò)最大化的目標(biāo)函數(shù)。我把這兩種無(wú)監(jiān)督的對(duì)抗性神經(jīng)網(wǎng)絡(luò)之間的決斗稱為對(duì)抗性好奇心 (Adversarial Curiosity)[AC19],以區(qū)別于人工好奇心 (Artificial Curiosity)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      6、通過(guò)最大化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)度的人工好奇心 (1991)

      在這里,我重點(diǎn)介紹 1991 年 [AC91] [AC91b] 對(duì)對(duì)抗性好奇心 (Adversarial Curiosity) 的第一個(gè)重要改進(jìn)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      AC1990 世界模型 M 的誤差 (待最小化) 是控制器 C 的獎(jiǎng)勵(lì) (待最大化)。這在許多確定性環(huán)境中是一個(gè)很好的探索策略。然而,在隨機(jī)環(huán)境中,這可能會(huì)失敗。C 可能會(huì)學(xué)習(xí)把重點(diǎn)放在 M 總是由于隨機(jī)性或由于其計(jì)算限制而得到高預(yù)測(cè)誤差的情況上。

      因此,正如 1991 年的論文指出的,在隨機(jī)環(huán)境中,C 的獎(jiǎng)勵(lì)不應(yīng)該是 M 的誤差,而應(yīng)該是 M 的誤差在后續(xù)訓(xùn)練迭代中的一階導(dǎo)數(shù)的近似,即 M 的改進(jìn)。這一認(rèn)識(shí)指導(dǎo)了許多相關(guān)的后續(xù)工作。

      7、用于無(wú)監(jiān)督數(shù)據(jù)建模的對(duì)抗網(wǎng)絡(luò) (1991)

      1990 年我第一次研究對(duì)抗性生成網(wǎng)絡(luò)后不久,我介紹了一個(gè)非監(jiān)督對(duì)抗性極小極大值原理的變體。神經(jīng)網(wǎng)絡(luò)最重要的任務(wù)之一就是學(xué)習(xí)圖像等給定數(shù)據(jù)的統(tǒng)計(jì)量。為了實(shí)現(xiàn)這一點(diǎn),我再次在一個(gè)極小極大博弈中使用了梯度下降 / 上升的原理,在這個(gè)博弈中,一個(gè)神經(jīng)網(wǎng)絡(luò)最小化了另一個(gè)神經(jīng)網(wǎng)絡(luò)最大化的目標(biāo)函數(shù)。這兩個(gè)無(wú)監(jiān)督的對(duì)抗性神經(jīng)網(wǎng)絡(luò)之間的決斗被稱為可預(yù)測(cè)性最小化 (Predictability Minimization, PM)。(與后來(lái)的 GAN 相反,PM 是一個(gè)純粹的極大極小博弈)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      第一個(gè)使用 PM 的實(shí)驗(yàn)是在大約 30 年前進(jìn)行的,當(dāng)時(shí)其計(jì)算成本大約是現(xiàn)在的 100 萬(wàn)倍。當(dāng)計(jì)算成本在 5 年后便宜了 10 倍時(shí),我們可以證明,應(yīng)用于圖像的半線性 PM 變體會(huì)自動(dòng)生成特征檢測(cè)器。

      8、端到端可微快速權(quán)重:讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)編程神經(jīng)網(wǎng)絡(luò) (1991)

      一個(gè)典型的神經(jīng)網(wǎng)絡(luò)比神經(jīng)元有更多的連接。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元激活變化快,而連接權(quán)值變化慢。也就是說(shuō),大量的權(quán)重?zé)o法實(shí)現(xiàn)短期記憶或時(shí)間變量,只有少數(shù)神經(jīng)元的激活可以。具有快速變化的 “快速權(quán)重”(fast weights) 的非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)克服了這一限制。

      神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)連接或快速權(quán)值是由 Christoph v. d. Malsburg 于 1981 年提出的,其他學(xué)者對(duì)此進(jìn)行了進(jìn)一步的研究。然而,這些作者并沒(méi)有提出端到端可微分的系統(tǒng),通過(guò)梯度下降學(xué)習(xí)來(lái)快速操作快速權(quán)重存儲(chǔ)。我在 1991 年發(fā)表了這樣一個(gè)系統(tǒng),其中慢速神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制獨(dú)立的快速神經(jīng)網(wǎng)絡(luò)的權(quán)值。也就是說(shuō),我將存儲(chǔ)和控制分開(kāi),就像在傳統(tǒng)計(jì)算機(jī)中那樣,但是以完全的神經(jīng)方式 (而不是以混合方式)。后續(xù)的許多工作基于這一方法。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      我還展示了如何快速使用權(quán)重進(jìn)行元學(xué)習(xí)或 “學(xué)習(xí)如何學(xué)習(xí)”(learning to learn),這是我自 1987 年以來(lái)的主要研究課題之一。

      順便一提,同年我們?cè)?Deep RL (但沒(méi)有快速權(quán)重) 方面也做了相關(guān)工作,據(jù)我所知,這是第一篇標(biāo)題包含 'learn deep” 這個(gè)詞組的論文 (2005 年)。

      如今,最著名的基于快速權(quán)重的端到端可微分神經(jīng)網(wǎng)絡(luò)實(shí)際上就是我們的原始 LSTM 網(wǎng)絡(luò),其遺忘門(mén)學(xué)會(huì)控制內(nèi)部 LSTM 單元自循環(huán)連接的快速權(quán)重。所有主要的 IT 公司現(xiàn)在都大量使用 LSTM,而這可以追溯到 1991 年。

      9、通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)序列注意力 (1990)

      與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,人類(lèi)使用連續(xù)的目光移動(dòng)和選擇性注意力來(lái)檢測(cè)和識(shí)別模式。這可能比傳統(tǒng)的高度并行的 FNN 方法更有效。這就是為什么我們?cè)?30 年前提出了序列注意力學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。不久之后,我還明確地提到了 “內(nèi)部注意力焦點(diǎn)” 的學(xué)習(xí)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      因此,在那個(gè)時(shí)候,我們已經(jīng)有了兩種現(xiàn)在常見(jiàn)的神經(jīng)序列注意力類(lèi)型:通過(guò)神經(jīng)網(wǎng)絡(luò)中的乘法單元來(lái)實(shí)現(xiàn)端到端可微分的 “軟” 注意力,以及在強(qiáng)化學(xué)習(xí)環(huán)境下的 “硬” 注意力。后來(lái)的大量后續(xù)工作都基于此。如今,許多人都在使用序列注意力學(xué)習(xí)網(wǎng)絡(luò)。

      10、分層強(qiáng)化學(xué)習(xí) (1990)

      傳統(tǒng)強(qiáng)化學(xué)習(xí)不能分層地將問(wèn)題分解為更容易解決的子問(wèn)題。這就是為什么我在 1990 年提出了分層 RL (HRL),使用端到端可微分的基于神經(jīng)網(wǎng)絡(luò)的子目標(biāo)生成器,以及學(xué)習(xí)生成子目標(biāo)序列的循環(huán)神經(jīng)網(wǎng)絡(luò)。RL 系統(tǒng)獲得形式 (start、goal) 的額外輸入。評(píng)估器 NN 學(xué)會(huì)預(yù)測(cè)從 start 到 goal 的獎(jiǎng)勵(lì) / 成本?;?RNN 的子目標(biāo)生成器也可以看到 (start, goal),并使用評(píng)估器 NN (的副本) 通過(guò)梯度下降來(lái)學(xué)習(xí)一系列成本最低的中間子目標(biāo)。RL 系統(tǒng)試圖使用這樣的子目標(biāo)序列來(lái)實(shí)現(xiàn)最終目標(biāo)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      11、使用循環(huán)神經(jīng)世界模型做規(guī)劃 (1990)

      1990 年,我介紹了基于兩個(gè) RNN 的組合 (分別稱為控制器 C 和世界模型 M) 的強(qiáng)化學(xué)習(xí)和規(guī)劃。M 學(xué)習(xí)預(yù)測(cè) C 行為的后果。C 學(xué)習(xí)使用 M 提前規(guī)劃幾個(gè)時(shí)間步驟,并選擇最大化預(yù)測(cè)累積獎(jiǎng)勵(lì)的動(dòng)作序列。基于此也有許多后續(xù)研究。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      12、將目標(biāo)定義作為額外的 NN 輸入 (1990)

      今天的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中廣泛使用的一個(gè)概念是使用額外的目標(biāo)定義輸入模式來(lái)編碼許多任務(wù),以便神經(jīng)網(wǎng)絡(luò)知道下一步該執(zhí)行哪個(gè)任務(wù)。我們?cè)?1990 年的許多工作中提出了這一概念。

      具有端到端可微子目標(biāo)生成器的分層強(qiáng)化學(xué)習(xí) (Hierarchical RL) 也使用一個(gè)帶有任務(wù)定義輸入 (start, goal) 的神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)預(yù)測(cè)從 start 到 goal 的成本。(四分之一個(gè)世紀(jì)后,我以前的學(xué)生 Tom Schaul 在 DeepMind 提出了 “通用值函數(shù)逼近器”。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      后來(lái)的大量工作都是基于此的。例如,我們的 POWERPLAY RL 系統(tǒng) (2011) 也使用任務(wù)定義輸入來(lái)區(qū)分任務(wù),不斷地創(chuàng)造自己的新目標(biāo)和任務(wù),以一種主動(dòng)的、部分不受監(jiān)督的或自我監(jiān)督的方式,逐步學(xué)習(xí)成為一個(gè)越來(lái)越通用的問(wèn)題解決者。具有高維視頻輸入和內(nèi)在動(dòng)機(jī)的 RL 機(jī)器人 (如 PowerPlay) 在 2015 年學(xué)會(huì)了探索。

      13、作為神經(jīng)網(wǎng)絡(luò)輸入的高維獎(jiǎng)勵(lì)信號(hào) / 通用價(jià)值函數(shù) (1990 年)

      傳統(tǒng)的 RL 是基于一維獎(jiǎng)勵(lì)信號(hào)的。然而,人類(lèi)擁有數(shù)百萬(wàn)種信息傳感器,可以感知不同類(lèi)型的信息,如疼痛和快樂(lè)等。據(jù)我所知,參考文獻(xiàn) [AC90] 是第一篇關(guān)于 RL 的論文,涉及多維度、向量值的獎(jiǎng)勵(lì)信號(hào),這些信號(hào)通過(guò)許多不同的傳感器傳入,這些傳感器的累積值是可以預(yù)測(cè)的,而不僅僅是單個(gè)標(biāo)量的總體獎(jiǎng)勵(lì)。比較一下后來(lái)的通用值函數(shù) (general value function,GVF)。與以往的 adaptive critics 不同,它是多維和周期性的。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      與傳統(tǒng)的 RL 不同,這些獎(jiǎng)勵(lì)信號(hào)也被用作控制器 NN 學(xué)習(xí)執(zhí)行動(dòng)作的信息輸入,以實(shí)現(xiàn)累積獎(jiǎng)勵(lì)的最大化。

      14、確定性策略梯度 (1990)

      我在 1990 年發(fā)表的論文 “Augmenting the Algorithm by Temporal Difference Methods” 中,也結(jié)合了基于動(dòng)態(tài)規(guī)劃的時(shí)域差分法來(lái)預(yù)測(cè)一個(gè)基于梯度的世界預(yù)測(cè)模型的累積獎(jiǎng)勵(lì),以計(jì)算單獨(dú)控制網(wǎng)絡(luò)的權(quán)重變化。四分之一個(gè)世紀(jì)后,DeepMind 將其變體稱為確定性策略梯度算法 (Policy Gradient algorithm, DPG)。

      15、調(diào)整網(wǎng)絡(luò) / 合成梯度 (1990)

      1990 年,我提出了各種學(xué)習(xí)調(diào)整其他 NNs 的 NNs。在這里,我將重點(diǎn)討論 “遞歸網(wǎng)絡(luò)中的局部監(jiān)督學(xué)習(xí)方法”。待最小化的全局誤差度量是 RNN 輸出單元在一段時(shí)間內(nèi)接收到的所有誤差的總和。在常規(guī)反向傳播中,每個(gè)單元都需要一個(gè)堆棧來(lái)記住過(guò)去的激活,這些激活用于計(jì)算誤差傳播階段對(duì)權(quán)重變化的貢獻(xiàn)。我沒(méi)有使用堆棧形式的無(wú)限存儲(chǔ)容量,而是引入了第二種自適應(yīng) NN,該算法可以學(xué)習(xí)將 RNN 的狀態(tài)與相應(yīng)的誤差向量相關(guān)聯(lián)。這些局部估計(jì)的誤差梯度(而非真實(shí)梯度)被用于調(diào)整 RNN。

      與標(biāo)準(zhǔn)的反向傳播不同,該方法在空間和時(shí)間上都是局部的。四分之一個(gè)世紀(jì)后,DeepMind 將其稱為 “合成梯度”(Synthetic Gradients)。

      16、在線遞歸神經(jīng)網(wǎng)絡(luò)的 O (n^3) 梯度 (1991)

      1987 年發(fā)表的固定大小的存儲(chǔ)學(xué)習(xí)算法用于完全循環(huán)連續(xù)運(yùn)行的網(wǎng)絡(luò),它要求每個(gè)時(shí)間步長(zhǎng)進(jìn)行 O (n^4) 計(jì)算,其中 n 是非輸入單元的數(shù)量。我提出了一種方法,該方法計(jì)算完全相同的梯度,需要固定大小的存儲(chǔ),其順序與之前的算法相同。但是,每個(gè)時(shí)間步長(zhǎng)的平均時(shí)間復(fù)雜度只有 O (n^3) 。然而,這項(xiàng)工作并沒(méi)有實(shí)際意義,因?yàn)閭ゴ蟮?RNN 先驅(qū) Ron Williams 首先采用了這種方法。

      順便說(shuō)一句,我在 1987 年也犯了類(lèi)似的錯(cuò)誤,當(dāng)時(shí)我發(fā)表了我認(rèn)為是第一篇關(guān)于遺傳編程 (GP) 的論文,也就是關(guān)于自動(dòng)進(jìn)化的計(jì)算機(jī)程序。直到后來(lái)我才發(fā)現(xiàn),Nichael Cramer 早在 1985 年就已經(jīng)提出了 GP。從那以后,我一直在努力做正確的事情。至少我們 1987 年的論文 [GP1] 似乎是第一篇在 GP 上使用循環(huán)和可變大小代碼的論文,也是第一篇在 GP 上使用邏輯編程語(yǔ)言實(shí)現(xiàn)的論文。

      17、深度神經(jīng)熱交換器 (1990)

      神經(jīng)熱交換器 (Neural Heat Exchanger) 是一種用于深度多層神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)方法。它的靈感來(lái)自物理熱交換器。輸入 “加熱”,同時(shí)通過(guò)許多連續(xù)的層進(jìn)行轉(zhuǎn)換,目標(biāo)從深層管道的另一端進(jìn)入并 “冷卻”。與反向傳播不同,該方法完全是局部的。這使得它的并行實(shí)現(xiàn)變得微不足道。自 1990 年以來(lái),它是在各大學(xué)的不定期演講中首次提出的,與亥姆霍茲?rùn)C(jī)器 (Helmholtz Machine) 關(guān)系密切。同樣,實(shí)驗(yàn)是由我的學(xué)生 Sepp Hochreiter 進(jìn)行的。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      18、博士論文 (1990)

      我在 TUM 的博士論文發(fā)表于 1991 年,總結(jié)我自 1989 年以來(lái)的一些早期工作,包括第一個(gè)強(qiáng)化學(xué)習(xí) (RL) 神經(jīng)經(jīng)濟(jì)(Neural Bucket Brigade),學(xué)習(xí)算法,具有端到端微分子目標(biāo)生成器的分層 RL(HRL),通過(guò)兩個(gè)稱為控制器 C 和世界模型 M 的 RNN 的組合進(jìn)行 RL 和規(guī)劃,序列注意力學(xué)習(xí) NN,學(xué)會(huì)調(diào)整其他 NN 的 NN (包括 “合成梯度”),以及用于實(shí)施好奇心的無(wú)監(jiān)督或自我監(jiān)督的生成對(duì)抗網(wǎng)絡(luò)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      當(dāng)時(shí),其他人的神經(jīng)網(wǎng)絡(luò)研究受到統(tǒng)計(jì)力學(xué)的啟發(fā)。我在 1990-91 年的工作體現(xiàn)了另一種面向程序的機(jī)器學(xué)習(xí)觀點(diǎn)。

      庫(kù)爾特?哥德?tīng)?(Kurt Godel) 在 1931 年創(chuàng)立了理論計(jì)算機(jī)科學(xué),他用基于整數(shù)的通用編碼語(yǔ)言表示數(shù)據(jù) (如公理和定理) 和程序 (如對(duì)數(shù)據(jù)進(jìn)行操作的證明生成序列)。他展示了數(shù)學(xué),計(jì)算和人工智能的基本極限。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      正如我在 1990 年以來(lái)經(jīng)常指出的,NN 的權(quán)值應(yīng)該被看作是它的程序。一些人認(rèn)為深層神經(jīng)網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)觀測(cè)數(shù)據(jù)的有用的內(nèi)部表示,但我一直傾向于認(rèn)為,神經(jīng)網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)程序 (參數(shù)),并計(jì)算此類(lèi)表示。受 G?del 的啟發(fā),我構(gòu)建了神經(jīng)網(wǎng)絡(luò),其輸出是其他 NN 的程序或權(quán)重矩陣,甚至是可以運(yùn)行和檢查自己的權(quán)重變化算法或?qū)W習(xí)算法的自引用 RNN。與 G?del 的工作不同的是,通用編程語(yǔ)言不是基于整數(shù),而是基于實(shí)數(shù)值,因此典型 NN 的輸出就其程序而言是可微分的。也就是說(shuō),一個(gè)簡(jiǎn)單的程序生成器(有效的梯度下降過(guò)程)可以在程序空間中計(jì)算一個(gè)方向,在該方向上可以找到更好的程序,尤其是更好的程序生成程序。自 1989 年以來(lái),我的許多工作都充分利用了這一事實(shí)。

      19、從無(wú)監(jiān)督預(yù)訓(xùn)練到純粹監(jiān)督學(xué)習(xí) (1991-1995 年和 2006-2011)

      如第一節(jié)所述,我的第一個(gè)非常深的深度學(xué)習(xí)網(wǎng)絡(luò)是 1991 年的 RNN 堆棧,它使用無(wú)監(jiān)督的預(yù)訓(xùn)練來(lái)學(xué)習(xí)深度大于 1000 的問(wèn)題。但是,此后不久,我們發(fā)表了更多克服深度學(xué)習(xí)問(wèn)題的通用方法,無(wú)需進(jìn)行任何無(wú)監(jiān)督的預(yù)訓(xùn)練,將無(wú)監(jiān)督的 RNN 棧替換為純監(jiān)督的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (LSTM)。也就是說(shuō),由于 LSTM 不需要無(wú)監(jiān)督的訓(xùn)練,無(wú)監(jiān)督訓(xùn)練已經(jīng)失去了重要性。事實(shí)上,從無(wú)監(jiān)督的訓(xùn)練到純粹的監(jiān)督學(xué)習(xí)的轉(zhuǎn)變?cè)缭?1991 年就開(kāi)始了。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      在 2006 年到 2010 年之間也發(fā)生了類(lèi)似的轉(zhuǎn)變,這次是針對(duì)不太常用的前饋神經(jīng)網(wǎng)絡(luò) (FNNs),而不是遞歸神經(jīng)網(wǎng)絡(luò) (RNNs)。同樣,我的小實(shí)驗(yàn)室在這個(gè)轉(zhuǎn)變中起到了中心作用。2006 年,F(xiàn)NNs 中的監(jiān)督學(xué)習(xí)是通過(guò)對(duì) FNN 堆棧的無(wú)監(jiān)督預(yù)訓(xùn)練來(lái)實(shí)現(xiàn)的。但在 2010 年,我們的團(tuán)隊(duì)和我的博士后 Dan Ciresan 證明,深度 FNNs 可以通過(guò)簡(jiǎn)單的反向傳播進(jìn)行訓(xùn)練,在重要的應(yīng)用中完全不需要無(wú)監(jiān)督的預(yù)訓(xùn)練。我們的系統(tǒng)在當(dāng)時(shí)廣泛使用的圖像識(shí)別基準(zhǔn) MNIST 上創(chuàng)下了新的性能記錄。一位評(píng)論者稱這是 “喚醒了機(jī)器學(xué)習(xí)社區(qū)”。今天,很少有商業(yè) DL 應(yīng)用仍然基于無(wú)監(jiān)督的預(yù)訓(xùn)練。

      我在瑞士人工智能實(shí)驗(yàn)室 IDSIA 的團(tuán)隊(duì)進(jìn)一步完善了上述關(guān)于 FNNs 中純粹監(jiān)督式深度學(xué)習(xí)的工作 (2010),將傳統(tǒng)的 FNNs 替換為另一種 NN 類(lèi)型,即 convolutional NNs 或 CNNs。這是一個(gè)實(shí)際的突破,并在 2011 年 5 月 15 日至 2012 年 9 月 10 日期間連續(xù) 4 次在重要計(jì)算機(jī)視覺(jué)比賽中獲勝。

      20、20 世紀(jì) 90 年代 FKI 人工智能技術(shù)報(bào)告系列

      事后看來(lái),許多后來(lái)被廣泛使用的 “現(xiàn)代” 深度學(xué)習(xí)的基本思想,都是在柏林墻倒塌后不久的、不可思議的 1990-1991 年,在慕尼黑大學(xué) (TU Munich) 發(fā)表的:無(wú)監(jiān)督或自我監(jiān)督、數(shù)據(jù)生成、對(duì)抗網(wǎng)絡(luò) (認(rèn)為好奇心和相關(guān)概念,見(jiàn)第 5 節(jié));深度學(xué)習(xí)的基本問(wèn)題 (梯度消失 / 爆炸) 及其解決方案 (a) 針對(duì)深度 (周期性) 網(wǎng)絡(luò)的無(wú)監(jiān)督預(yù)訓(xùn)練 (第 1 節(jié)) 和 (b) 通向 LSTM 的基本簡(jiǎn)介 (第 4 節(jié))。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      我們當(dāng)時(shí)還引入了序列注意力學(xué)習(xí) NN,這是另一個(gè)流行的概念。再加上前面提到的所有其他東西,從分層強(qiáng)化學(xué)習(xí) (第 10 節(jié)) 到使用循環(huán)神經(jīng)網(wǎng)絡(luò)的世界模型進(jìn)行規(guī)劃 (第 11 節(jié)) 等等。

      當(dāng)然,人們不得不等待速度更快的計(jì)算機(jī)來(lái)將這些算法商業(yè)化。然而,到 2010 年中期,我們的算法被蘋(píng)果,谷歌,F(xiàn)acebook,亞馬遜,三星,百度,微軟等公司大量使用,每天在數(shù)十億臺(tái)計(jì)算機(jī)上運(yùn)行。

      大多數(shù)上述結(jié)果實(shí)際上是首次發(fā)表是在慕尼黑工業(yè)大學(xué)的 FKI 技術(shù)報(bào)告系列,為此,我手工畫(huà)了很多插圖,本文的插圖就是其中一些。FKI 系列現(xiàn)在在人工智能的歷史中起著重要作用,因?yàn)樗肓藥讉€(gè)重要概念:用于非常深的神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督預(yù)訓(xùn)練、將一個(gè) NN 壓縮 / 蒸餾成另一個(gè)、長(zhǎng)短期記憶、通過(guò)神經(jīng)網(wǎng)絡(luò)使學(xué)習(xí)進(jìn)度最大化的好奇心 (Artificial Curiosity)、端到端快速權(quán)重和學(xué)會(huì)編程其他神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)、通過(guò) NN 學(xué)習(xí)序列注意力、將目標(biāo)定義命令作為額外的 NN 輸入、分層強(qiáng)化學(xué)習(xí)等等。

      特別是,其中一些概念現(xiàn)在已經(jīng)在整個(gè) AI 研究領(lǐng)域被廣泛使用:使用循環(huán)神經(jīng)世界模型進(jìn)行規(guī)劃、作為額外的 NN 輸入的高維獎(jiǎng)勵(lì)信號(hào) / 通用值函數(shù)、確定性策略梯度、NN 既具有生成性又具有對(duì)抗性、人工好奇心和相關(guān)概念。1990 年代以后的引人注目的 FKI 技術(shù)報(bào)告描述了大幅壓縮 NN 以提高其泛化能力的方法。

      21、結(jié)束語(yǔ)

      深度學(xué)習(xí)是在官方語(yǔ)言不是英語(yǔ)的地方被發(fā)明的。第一個(gè)具有任意深度的神經(jīng)網(wǎng)絡(luò)始于 1965 年的烏克蘭 (當(dāng)時(shí)是蘇聯(lián))。五年后,現(xiàn)代反向傳播方法在芬蘭出現(xiàn) (1970)。基本的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)是在 20 世紀(jì) 70 年代的日本發(fā)明的,到 1987 年,卷積網(wǎng)絡(luò)與權(quán)重共享和反向傳播相結(jié)合。無(wú)監(jiān)督或自我監(jiān)督的對(duì)抗網(wǎng)絡(luò)起源于慕尼黑 (1990 年),慕尼黑也是 20 世紀(jì) 80 年代第一批真正的自動(dòng)駕駛汽車(chē)的誕生地?;诜聪騻鞑サ纳疃葘W(xué)習(xí)的基本問(wèn)題也誕生于慕尼黑 (1991)。第一個(gè)克服這個(gè)問(wèn)題的 “現(xiàn)代” 深度學(xué)習(xí)網(wǎng)絡(luò)也是如此,它們通過(guò) (1) 無(wú)監(jiān)督的預(yù)訓(xùn)練;和 (2) 長(zhǎng)短時(shí)記憶 [LSTM] 克服這個(gè)問(wèn)題,LSTM “可以說(shuō)是最具商業(yè)價(jià)值的人工智能成果”。LSTM 是在瑞士進(jìn)一步發(fā)展起來(lái)的,這也是第一個(gè)在圖像識(shí)別競(jìng)賽獲勝的基于 GPU 的 CNN (2011 年),也是第一個(gè)在視覺(jué)模式識(shí)別中超越人類(lèi)的神經(jīng)網(wǎng)絡(luò) (2011 年),以及第一個(gè)有超過(guò) 100 層、非常深的前饋神經(jīng)網(wǎng)絡(luò)。

      世界欠他一個(gè)圖靈獎(jiǎng)!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

      當(dāng)然,深度學(xué)習(xí)只是 AI 的一小部分,主要局限于被動(dòng)模式識(shí)別。我們將其視為通過(guò)元學(xué)習(xí)或 “l(fā)earning to learn 算法”(1987 年發(fā)表) 研究更一般的人工智能的副產(chǎn)品,具有人工好奇心和創(chuàng)造力的系統(tǒng)發(fā)明了自己的問(wèn)題并設(shè)定自己的目標(biāo) (1990 年),演化計(jì)算 (1987 年) 和 RNN 進(jìn)化 & 壓縮網(wǎng)絡(luò)搜索,在現(xiàn)實(shí)的部分可觀測(cè)的環(huán)境中的強(qiáng)化學(xué)習(xí) (RL) 智能體,通用人工智能,最優(yōu)通用學(xué)習(xí)機(jī)器,如 G?del machine (2003-),對(duì)運(yùn)行在通用計(jì)算機(jī)上的程序的最優(yōu)搜索,如 RNN,等等。

      當(dāng)然,AI 本身只是一個(gè)更宏偉計(jì)劃的一部分,它將宇宙從簡(jiǎn)單的初始條件推向越來(lái)越深不可測(cè)的復(fù)雜性。最后,即使這個(gè)令人敬畏的過(guò)程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計(jì)算的一小部分。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多