“問問機器學習從業(yè)者,究竟是什么還在維持著奄奄一息的神經(jīng)網(wǎng)絡?你可能會聽到以下三個人名中的一個:Geoffrey Hinton,加拿大的Yoshua Bengio,或是Facebook的Yann LeCun?!盵1]
一、深度學習計劃
當你想要發(fā)動一場革命,你就要從陰謀開始。隨著支持向量機(SVM)的成功以及反向傳播的失敗,神經(jīng)網(wǎng)絡的研究在21世紀迎來了黑暗時期。LeCun和Hinton不約而同的提到了他們或他們學生的論文,在那樣一個時期是如何被拒絕出版的,而原因僅僅是他們的主題是有關神經(jīng)網(wǎng)絡的。最上方的引言可能有一些夸張的成分,還是有一些人在從事機器學習和人工智能的研究,他們也還在使用神經(jīng)網(wǎng)絡,但是他們自己也清楚神經(jīng)網(wǎng)絡的研究已經(jīng)陷入了一個低谷。堅持這一研究的他們找到了一個強大的盟友:加拿大政府。加拿大的高級研究所(CIFAR)出資資助他們從事這種沒有實際應用的基礎科學的研究,而這也在1987年促使Hinton搬到加拿大繼續(xù)他的研究。然而,隨著90年代中期社會對神經(jīng)網(wǎng)絡的態(tài)度再一次反轉,資助資金取消了,但Hinton并沒有放棄它的研究,它設法繼續(xù)從CIFAR獲得資金,以供自己繼續(xù)從事神經(jīng)網(wǎng)絡的研究。
“2004年,Hinton要求推動一個新的神經(jīng)計算,主流機器學習社區(qū)不可能對神經(jīng)網(wǎng)絡一點興趣也沒有?!?/em> “這可能是最糟糕的時間。”CIFAR的聯(lián)合發(fā)起者,來自蒙特利爾大學的Bengio如此說道。“從去年開始,大家都在忙著不同的事情,但是不知怎的,Geoff說服了他們”, “我們應該給CIFAR一點信心,好讓他們愿意加入這個計劃。” CIFAR“對機器學習社區(qū)的建立起到了巨大的作用?!?/em> CIFAR的另一位聯(lián)合發(fā)起者LeCun補充到,“我們有點被廣義的機器學習社區(qū)拋棄了的意味:我們的論文無法發(fā)表。但這給了我們一個可以交流想法的平臺”
盡管資金不多,但也足夠一小群研究人員繼續(xù)工作了。正如Hinton自己所說,他們通過把神經(jīng)網(wǎng)絡改名為深度學習這樣一種陰謀方式,來繼續(xù)對神經(jīng)網(wǎng)絡進行研究。然后,每一個神經(jīng)網(wǎng)絡研究者希望看到的事情發(fā)生了:Hinton, Simon Osindero, 和Yee-Whye在2006年發(fā)表了一篇被認為可以重新燃起社會對神經(jīng)網(wǎng)絡的興趣點文章:一種可以實現(xiàn)快速學習的深度信念網(wǎng)絡[2]。盡管這些算法已經(jīng)被新的算法所取代,但是我們已經(jīng)初步看到了“深度學習”的端倪。比這個名字更重要的是,如果權重可以以更好的方式來代替隨機初始化,多層神經(jīng)網(wǎng)絡可以被訓練得很好。Hinton曾經(jīng)這樣表示:
“這是一個歷史性的時刻,這個時刻我們克服了對神經(jīng)網(wǎng)絡的成見。這些成見認為神經(jīng)網(wǎng)絡不好,永遠都不會訓練。前不久我的一個朋友向國際機器學習會議(ICML)投稿,但是評審拒絕了他,僅僅是因為文章的內(nèi)容是關于神經(jīng)網(wǎng)絡??梢圆镮CML近幾年的收錄記錄,沒有任何一篇文章是有關神經(jīng)網(wǎng)絡的。所以IEEE期刊應該是又一個‘不接受神經(jīng)網(wǎng)絡’的官方政策。所以這是一個重要的時刻”
圖4.1 限制玻爾茲曼機
那么我們究竟應該怎么聰明的初始化權重?基本思想是逐層的對每一層神經(jīng)網(wǎng)絡進行無監(jiān)督訓練,起始權重是一些隨機值,然后想常規(guī)神經(jīng)網(wǎng)絡的完成一次監(jiān)督學習。每層都會以一個受限玻爾茲曼機作為開始,并把它作為隱含層之間的可見單元的連接點,以無監(jiān)督的方式來訓練生成模型。事實證明,這種訓練方式可以按照Hinton在2002年的論文“Training Products of Experts by Minimizing Contrastive Divergence”[3]中提及的方式進行,并取得不錯的成果。該算法不僅使單元產(chǎn)生訓練數(shù)據(jù)的可能性最大化,還被證實訓練結果十分理想。算法如下: 1、在RBM上使用對比-散度的方式訓練數(shù)據(jù)。這是信念網(wǎng)絡的第一層。 2、對通過RBM的數(shù)據(jù)生成隱含值,并使用這些隱含值來訓練另外一個RBM。把這些隱含值“堆”在第一層,并保持權重在想用的方向,形成一個信念網(wǎng)。這是第二層。 3、重復第二部,直到達到需求的信念網(wǎng)的層數(shù)。 4、如果需要分類,則需要添加對應分類標簽的一組隱藏單元,并對喚醒睡眠的的算法作出微調來調整權重。這種無監(jiān)督學習和監(jiān)督學習組合的方式通常被稱為半監(jiān)督學習。
圖4.2 Hinton介紹的分層預訓練
該文結尾處表示,深度信念網(wǎng)絡(DBNs)對于標準的MNIST識別字符數(shù)據(jù)集具有最優(yōu)性能,明顯優(yōu)于只有幾層的神經(jīng)網(wǎng)絡。Yoshua Bengio等人在2007年的論文“Greedy Layer-Wise Training of Deep Networks”[4]中,提出了一個強有力的證明,證明了深層機器學習方法(有許多步的算法,或等價于有很多維的特征的數(shù)據(jù)),在處理復雜的問題比簡單的算法(有兩層的ANN或是支持想理機之類的算法)更加有效。
圖4.3 另外一個無監(jiān)督與訓練的觀點,使用自動編碼器來代替RBM
他們還提出了添加無監(jiān)督訓練的原因和結果,因為這樣不僅可以以更優(yōu)化待方式初始化權重,更重要的是還可以對數(shù)據(jù)進行更有代表性的學習。事實上,使用RBM并不是那么重要,使用反向傳播或普通自動編碼器的正常神經(jīng)網(wǎng)絡層的無監(jiān)督的預訓練效果也很好。同樣,稀疏編碼也表明無監(jiān)督特征學習是一種提高監(jiān)督學習性能的方式。 所以,深度網(wǎng)絡的真正關鍵之處在于,多層的計算單元可以更好的訓練高維原始數(shù)據(jù)。這與傳統(tǒng)的手動設計特征提取方法,再進行特征學習的方式大相徑庭。Hinton和Bengio的工作也證明了這個事實,更重要的是打破了深度神經(jīng)網(wǎng)絡不能被良好的訓練這樣一個誤解。盡管LeCun已經(jīng)證明了CNNs,但神經(jīng)網(wǎng)絡仍然是去了青睞。Bengio與Yann LeCun一同在論文 “Scaling Algorithms Towards AI”[5]重申了這一點:
“直到最近,有很多人都認為深度神經(jīng)網(wǎng)絡的訓練算法太難優(yōu)化。然而至少有兩種不同的方法已經(jīng)被證明了在此種架構下是很有效的:一是基于卷積神經(jīng)網(wǎng)絡的簡單梯度下降法[LeCun等人在1989年、1998年論證],該算法在(圖像和信號領域)逐層進行無監(jiān)督學習。二是梯度下降法[2006年Hinton等人,2007年Bengio等人,2006年Ranzato等人]。深度學習架構仍處于起步階段,更好的深度學習算法仍有待發(fā)現(xiàn)。從更廣闊的角度來看,我們?nèi)孕枰粋€指引AI未來發(fā)展方向的原則。我們希望通過鼓勵他人,大家一起尋找解決通過機器學習方式來解決AI的方法?!?/em>
盡管深度學習還沒有獲得今日一般的科研熱潮,但他們確實在開始并進行一些鼓勵性工作,深度學習的浪潮也因此開始涌動了。但是,論文中這些被證實有效的算法大多數(shù)是針對MNIST數(shù)據(jù)集,這時候MNIST數(shù)據(jù)集作為一個經(jīng)典的機器學習任務已經(jīng)成為了算法的標準基準近十年了。Hinton在2006的論文在測試機上取得了驚人的1.25%的錯誤率,但是SVM也取得了1.4%的錯誤率,簡單的算法也可以得到很低的錯誤率。Yann LeCun在1998年使用CNN證明了錯誤率僅為0.95%。 所以在MNIST上成績好并不見得是什么大本事。這個時候,是深度學習登上歷史舞臺了。Hinton和他的兩個研究生Abdel-rahman Mohamed和George Dahl,完成了一個更具有挑戰(zhàn)性的AI任務:語音識別[6]。使用DBN,Hinton和這兩個學生在一個標準語音識別數(shù)據(jù)集改進了一個塵封了10年的記錄。這是一個令人深刻的成就,但今天看起來似乎暗示著什么:越來越堵的記錄逐漸被打破了。
二、硬件的重要性
上述算法的出現(xiàn)無疑促進了深度學習的發(fā)展,但是深度學習的進不來不開另外一個重要組成部分:從上世紀90年代以來就在不斷進步計算能力。根據(jù)摩爾定律,90年代以來的計算機的運算速度已經(jīng)提高了十幾倍,這使得大數(shù)據(jù)的采集和多層學習變得更加容易。但是這還遠遠不夠,CPU的運算能力開始達到頂點,而計算機也開始通過幾個CPU并行的方式來增加計算機的功率,為了學習深度學習中上百萬的節(jié)點的權重,我們必須大幅度克服CPU并行處理的局限性,并采取大規(guī)模GPU并行的方式來增強計算能力。為了更好了理解這一點,我們來看看Abdel-rahman Mohamed,George Dahl和Geoff Hinton是如何提升他們的語音識別算法的性能的[7]。
“受到Hinton一篇關于深度神經(jīng)網(wǎng)絡的演講的啟發(fā),Mohamed開始將這一算法應用到語音識別,但是深度神經(jīng)網(wǎng)絡需要太多的計算機來提升計算能力,所以Hinton和Mohamed拉上了Dahl。Dahl是Hinton實驗室的學生,他已經(jīng)開始使用相同規(guī)格的高端顯卡來訓練和模擬神經(jīng)網(wǎng)絡了,而這些高端顯卡是用來提升電腦游戲畫面的。” 他們采用相同的方法來識別短的語音窗口中的音素片段的問題,Hinton表示,該方法可以是結果獲得顯著的提升。 這種情況很難明確的表示使用GPU比CPU效果具體好多少,同年的“Large-scale Deep Unsupervised Learning using Graphics Processors” [8]大賽給出了明確的數(shù)字:75倍!70倍的速度將會把幾周的工作量簡化為幾天,甚至一天就可以完成。包括著名的機器學習研究者Andrew Ng在內(nèi)的眾多稀疏編碼研究者,開始逐漸意識到大家過多的重視算法的變化,卻忽略了對數(shù)據(jù)量以及算法速度的利用。這樣的想法在2010年出版的“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”[9]里面得到了強烈的支持,該文的作者是LTSM的聯(lián)合創(chuàng)始人之一的J. Schmidhuber,該文表示大規(guī)模的神經(jīng)網(wǎng)絡、輸入上的多種變化以及高效的GPU實現(xiàn),可以在MNIST數(shù)據(jù)集上實現(xiàn)驚人的0.35%的錯誤率。這樣的算法已經(jīng)存在了幾十年,雖然不能否認算法也在進步,但是這個結果無疑表明大的數(shù)據(jù)量和快速并行計算能力同樣重要。 Dahl和Mohamed使用GPU來打破的紀錄盡管很小,但也足以使他們成為微軟研究院的實習生。在這里,他們接觸到了另外一種計算趨勢:大數(shù)據(jù)。大數(shù)據(jù)作為一個很寬泛的概念,卻很容易在機器學習中被理解,大數(shù)據(jù)代表著大量的訓練數(shù)據(jù)。大量的訓練數(shù)據(jù)才似得神經(jīng)網(wǎng)絡達到了現(xiàn)在的高度,神經(jīng)網(wǎng)絡過去太過于工作在訓練數(shù)據(jù)上,卻不推廣到新的測試數(shù)據(jù)。這背后的數(shù)學道理是:大型神經(jīng)網(wǎng)絡需要大量的數(shù)據(jù)進行訓練,以避免它們學習到訓練集中某個不重要的方面,這在以前是研究人員面臨的一個重要的考驗。現(xiàn)今,大公司的的數(shù)據(jù)收集和計算能力證明被是無價的。這兩個學生在三個月的實習期間輕松地證明了深度學習的力量,而微軟研究院自那時起就一直處于深度學習語音識別的前沿。 微軟不是第一家認識到深度學習能力的大公司,但很有可能是第一個。Hinton的另一名學生Navdeep Jaitly于2011年在Google做了暑期實習。在那里,他致力于Google的語音識別,并表示他們現(xiàn)有的設置可以通過結合深度學習得到很大改進。 改進的方法很快就支持Android的語音識別,取代了Google絕大多數(shù)現(xiàn)有的精心制作的解決方案。 除了這些謙遜的博士生對這些公司產(chǎn)品做出的巨大改變,還有兩家公司我們不得不提,就是持有開源態(tài)度的微軟和谷歌。就像IBM和Hinton的實驗室一樣,這里在2012年誕生了題為“Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups”[10]的論文。這一文章的研究人員分別來自四個研究小組,三個公司。建立一個支持深度學習的包以供大學的科研小組使用,來普及這項技術并推廣到更多的團體,這樣一個想法從那以后似乎在科研界中被逐漸采納。 但我們也不能因此說各大公司是出于慈善的角度才這樣做的。這只是關于商業(yè)化技術的探索,當然大多數(shù)都是屬于谷歌的。但是發(fā)起人可能不是Hinton,而是Ng博士,正是他提議谷歌成為世界最大的商業(yè)化探索者和技術的倡導者。2011年,Ng在訪問該公司時偶然會見了傳奇的Google員工Jeff Dean,并聊了他利用Google的計算資源訓練神經(jīng)網(wǎng)絡的努力。這成功的引起了Dean的注意,也促成了谷歌大腦的形成——建立一個真正巨大的神經(jīng)網(wǎng)絡,并探索他們可以做什么。這項工作使得了無人監(jiān)管的神經(jīng)網(wǎng)絡學習達到了前所未有的規(guī)模 - 16,000個CPU核心可以學習高達10億的權重(為了比較,Hinton2006年點DBN大概突破了100萬權重)。這個神經(jīng)網(wǎng)絡經(jīng)過對完全沒有標簽的Youtube視頻進行訓練,最終學會了識別這些視頻中最常見的對象——互聯(lián)網(wǎng)中最容易帶來快樂的東西,貓:
圖4.4 谷歌著名的神經(jīng)網(wǎng)絡,就是該網(wǎng)絡學會了小貓。這是對一個神經(jīng)元的最好輸入
小貓不但可愛,還用重要意義。正如在定期發(fā)表的論文中描述的,該模型所學到的特征可用于在標準計算機視覺上記錄基本的設置性能[11]。 因此,Google內(nèi)部用于訓練數(shù)據(jù)大規(guī)模的神經(jīng)網(wǎng)絡工具誕生了,他們?nèi)匀焕^續(xù)發(fā)展。 因此2006年開始的深度學習研究浪潮毫無疑問的把谷歌推入了行業(yè)之中。
三、機器學習的繁榮期
在工業(yè)界依然開始研究深度學習的時候,學術界也很難保持靜止了。在發(fā)現(xiàn)對GPU的利用和計算能力大大增強,我們不禁想到那個很早以前的問題:為什么反向傳播效果不好?對于為何舊算法效果不好而不是為何新算法效果好的思考,促成了Xavier Glort 和Yoshua Bengio2010年發(fā)表的論文“Understanding the difficulty of training deep feedforward neural networks” [12]。文中他們討論了兩個非常有意義的發(fā)現(xiàn): 1、為什么在神經(jīng)網(wǎng)絡中對神經(jīng)元選擇特定的非線性激活函數(shù)會對性能產(chǎn)生巨大的影響,通常情況下默認的非線性激活函數(shù)不是一個很好的選擇。 2、隨機選擇權重并不是那么有問題,就如同不考慮是哪一層來選擇隨機權重。過去的梯度消失問題是因為反向傳播涉及到一系列乘法運算,這會導致前層的導數(shù)較小。這就意味著,我們要根據(jù)所在層的不同來選擇權重,這將會帶來性能上的顯著改變。
圖4.5 不同的激勵函數(shù),ReLU代表非線性修正單元
第二點就是為了結局第一點提出的問題:“什么是最好的激勵函數(shù)?”三個不同的小組研究了這個問題(LeCun的團隊討論“對象識別領域什么事最好的多級架構?”[13],Hinton的團隊討論“線性修正單元改進玻爾茲曼機”[14],Bengio的團隊討論“深度稀疏編碼神經(jīng)網(wǎng)絡”[15])他們的研究都指向了一個讓人震驚的答案:非常不可微和非常簡單的函數(shù)f(x)= max(0,x)往往是最好的。吃驚之處就在于方程是嚴格不可微的,或者是在0處嚴格不可微,所以該方程的數(shù)學表達式往往是十分丑陋的。很明顯零的情況是一種數(shù)學詭辯,問題在于,為什么這樣一個在0的兩側連續(xù)導數(shù)都是0的方程,會有這樣好的效果?答案似乎還不明確,但是我們有一些相關的想法: 1、修正函數(shù)導致稀疏表示,這就意味著只有少部分的神經(jīng)元對于任何給定的輸入需要輸出一個非零值。在倡導修正函數(shù)的幾年中,稀疏性被證明是有益的,因為它不僅可以以更魯棒的方式來表示信息,還可以更顯著大提升計算效率(如果大多數(shù)神經(jīng)元都輸出零,那么我們可以忽略大多數(shù)的問題并且更快的計算數(shù)據(jù))。順便提一下,計算神經(jīng)科學的科研人員首先提出了稀疏計算在大腦視覺環(huán)境中的重要性,這比其應用于機器學習領域早了10年。 2、簡單的函數(shù)以及其簡單的導數(shù)使得該函數(shù)的工作速度比指數(shù)型的sigmoid 或是 三角型的tanh快很多。就如同對GPU的使用,這不僅可以提升一小部分性能,這甚至可以作為可以在神經(jīng)網(wǎng)絡擴展方面可以做出挑戰(zhàn)性突破的點。 3、后來,一篇由Andrew Ng合著的題為“Rectifier Nonlinearities Impro Neural Network Acoustic Models”[16]的論文,也分析了ReLU函數(shù)的常為0或1的微分并不會對學習過程造成不利影響。甚至它還有助于避免梯度消失的問題,而這些問題都是反向傳播算法中不可避免的。此外除了可以產(chǎn)生更多稀疏表示之外,它還可以產(chǎn)生分布式的表示——這就意味著可以組合導出多個不同神經(jīng)元的值,而不是定位到單個神經(jīng)元。 在這一點上,我們可以知道,2006年的發(fā)現(xiàn)——無監(jiān)督的預訓練,在深度學習之中不是必要的。雖然毫無疑問,無監(jiān)督的預訓練是有幫助的,但是在另外一些情況下,監(jiān)督訓練可以比無監(jiān)督訓練有更好的結果,因為監(jiān)督訓練擁有爭取的權值和激勵函數(shù)。所以,為什么過去監(jiān)督模型和反向傳播不能很好的工作? Geoffrey Hinton總結了時至今日的四點發(fā)現(xiàn):
1、我們的標簽數(shù)據(jù)比要求的小了上千倍。 2、我們的電腦比要求的慢了上百萬倍。 3、我們很愚蠢的初始化了權重。 4、我們是用了錯誤的非線性激勵函數(shù)。
所以,經(jīng)過幾十年的刻苦研究,我們知道: 深度學習=大量的訓練數(shù)據(jù) 并行計算 可擴展的智能算法
圖4.6 深度學習中的計算機視覺“配方”
不是所有的事情都要把其中的細節(jié)弄的清楚明白。恰恰相反:人類的直覺往往是錯誤的。特別是毫無疑問的決定和假設往往是值得質疑的。提出并解答簡單的問題,這才是提高最先進的技術的正確方式。正是這種一直發(fā)生的行為,才導致機器學習領域更多的想法和方法被探索喝共享。舉個例子:Hinton等人的“Improving neural networks by preventing co-adaptation of feature detectors”[17]這一想法很簡單——在訓練中假設一些神經(jīng)元離線以防止過度擬合。這種被稱為Dropout的簡單想法,是一種非常有效的進行集成學習的方法,該算法可以對同一個訓練集以不同的方式進行學習。機器學習技術發(fā)展到今天,隨機森林也被認為是一種有效的集成學習的方式。盡管訓練多個不同的神經(jīng)網(wǎng)絡技術上是可行的,但是代價也是十分昂貴的,但是這個簡單的想法卻在本質上實現(xiàn)了相同的目的。 但是2006年之后,讓這些計算機視覺團體或其他研究人員再次重視神經(jīng)網(wǎng)絡的并不是這些研究發(fā)現(xiàn)。而是另外一種不高尚的方式:對其他非深度學習方法進行了一次碾壓。Geoffrey Hinton招募了他的兩個半途而廢的合作者Alex Krizhevsky和Ilya Sutskever,他們共同參加了ILSVRC-2012計算機視覺競賽。今日理解他們的工作十分簡單,其思想已經(jīng)在“ImageNet Classification with deep convolutional neural networks”[18]中闡述,組合起一些古老的概念(一個擁有池層和卷基層的CNN,輸入數(shù)據(jù)有所改變),和幾個創(chuàng)新點(高效的GPU實現(xiàn),ReLU激勵函數(shù),Dropout),而這些組合起來正式現(xiàn)代深度學習。然后他們碾壓了所有其他參賽者,他們作為第一名的錯誤率僅有15.3%,遠遠高于第二名的26.2%。這是在該比賽歷史上第一次也是唯一一次出現(xiàn)CNN的項目,這一跡象表明,CNN和一般的深度學習不同,算機視覺必須要認真對待。現(xiàn)在,競爭的所有算法幾乎都是CNN——那個由Yann LeCun 1989年提出的神經(jīng)網(wǎng)絡模型。還記得90年代由Sepp Hochreiter和JürgenSchmidhuber設計的用以解決反向傳播問題的LSTM嗎?這個限制是解決語音處理的首選方案。 這一事件就是整個學術屆的轉折點。一波遠遠超過其他技術的機器學習的浪潮終于襲來,誰都不能否認深度學習的成就。我們在最開始就把這種浪潮比做海嘯,現(xiàn)在它終于成長到了這一天,在經(jīng)歷了那么多的寒冬以后,深度學習就這樣屹立在這兒,再無寒冬可見。
圖4.7 一些深度學習關鍵人物的論文索引數(shù)量,相信不需要我指出2012年以后的變化趨勢,數(shù)據(jù)來源于谷歌學術。
四、最先進的技術 如果這是一部電影,那么無疑2012年的ImageNet大賽可以作為高潮。下面我們要具體介紹一下他們現(xiàn)在還在哪:Yann LeCun - Facebook;Geoffrey Hinton - Google;Andrew Ng - Coursera,Google,百度(譯者注,吳恩達已于2014年5月16日離職google,任百度人工智能首席科學家);Bengio,Schmidhuber和Hochreiter仍然在學術界(譯者注,在實驗室Maluuba被微軟收購后,Yoshua Bengio已于2017年1月14日稱為微軟的科學家),還有一些其他未被提到研究人員/研究生[19]。事實上,正是這些人在機器學習領域深耕幾十年(甚至被學術界所拋棄),才換來深度學習今日的成就。與以往的研究工作相比,這些人的想法仍然是十分開放的,甚至所有公司都是采購他們的深度學習框架,就像一種工業(yè)界引導學術界的傳奇故事。 不會妄自菲薄的認為自己可以在一部分里面總結近幾年的研究成果,因為這幾年機器學習的科研成果層出不窮,我很清楚我們是無法在一部分里面全部列出的。也許有一天我們會通過五個部分把這些成果完成的故事列出來,下面我們來對做一個簡介:
1、LSTM和RNN通過分布式的方式重現(xiàn)“想法” 圖4.8 去年的研究成果
2、使用深度學習的強化學習(這一次更好了)https:///V1eYniJ0Rnk(來源于youtube的視頻)
3、添加外部可讀寫存儲器的神經(jīng)網(wǎng)絡
https:///U_Wgc1JOsBk(來源于youtube的視頻)
|
|