乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      理解 AI 最偉大的成就之一:卷積神經(jīng)網(wǎng)絡(luò)的局限性

       taotao_2016 2020-04-23

      經(jīng)過一段漫長時期的沉寂之后,人工智能正在進(jìn)入一個蓬勃發(fā)展的新時期,這主要得益于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)近年來取得的長足發(fā)展。更準(zhǔn)確地說,人們對深度學(xué)習(xí)產(chǎn)生的新的興趣在很大程度上要?dú)w功于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的成功,卷積神經(jīng)網(wǎng)絡(luò)是一種特別擅長處理視覺數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
      但是,如果有人告訴你卷積神經(jīng)網(wǎng)絡(luò)存在根本性的缺陷,你會怎么看呢?而這一點(diǎn)是被譽(yù)為“深度學(xué)習(xí)鼻祖”和“神經(jīng)網(wǎng)絡(luò)之父”的Geoffrey Hinton教授在2020年度人工智能頂級會議 – AAAI大會上作的主題演講中提出的,AAAI(譯注:AAAI全稱為美國人工智能協(xié)會)大會是每年主要的人工智能會議之一。
      Hinton,與Yann LeCun和Yoshua Bengio一起出席了這次會議,這三大深度學(xué)習(xí)巨頭,圖靈獎的獲得者,被業(yè)界并稱為“深度學(xué)習(xí)教父”。Hinton談到了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和膠囊網(wǎng)絡(luò)的局限性,并提出這是他在人工智能領(lǐng)域的下一個突破方向。
      和他所有的演講一樣,Hinton深入探討了許多技術(shù)細(xì)節(jié),這些細(xì)節(jié)使得卷積神經(jīng)網(wǎng)絡(luò)與人類視覺系統(tǒng)相比越來顯得效率低下而且不同。本文將會詳細(xì)闡述他在大會上提出的一些要點(diǎn)。但在我們接觸這些要點(diǎn)之前,讓我們像以往一樣,了解關(guān)于人工智能的一些基礎(chǔ)知識,以及為什么卷積神經(jīng)網(wǎng)絡(luò)(CNNs)對人工智能社區(qū)來說如此重要的背景和原因。

      計算機(jī)視覺的解決方案

      在人工智能的早期,科學(xué)家們試圖創(chuàng)造出一種計算機(jī),它能像人類一樣“看”世界。這些努力導(dǎo)致了一個全新的研究領(lǐng)域的產(chǎn)生,這就是計算機(jī)視覺。
      計算機(jī)視覺的早期研究涉及到符號人工智能的使用,其中的每個規(guī)則都必須由人類程序員指定。但是問題在于,并不是人類視覺設(shè)備的每一個功能都可以用明確的計算機(jī)程序規(guī)則來分解。所以,這種方法的使用率和成功率都非常有限。
      另一種不同的方法是機(jī)器學(xué)習(xí)。與符號人工智能相反,機(jī)器學(xué)習(xí)算法被賦予了一個通用的結(jié)構(gòu),并通過對訓(xùn)練實(shí)例的檢驗來開發(fā)自己的行為能力。然而,大多數(shù)早期的機(jī)器學(xué)習(xí)算法仍然需要大量的人工工,來設(shè)計用來檢測圖像相關(guān)特征的部件。
             
      卷積神經(jīng)網(wǎng)絡(luò)(CNNs),與以上兩種方法不同,這是一種端到端的人工智能模型,它開發(fā)了自己的特征檢測機(jī)制。一個訓(xùn)練有素的多層次卷積神經(jīng)網(wǎng)絡(luò)會以一種分層的方式自動識別特征,從簡單的邊角到復(fù)雜的物體,如人臉、椅子、汽車、狗等等。
      卷積神經(jīng)網(wǎng)絡(luò)(CNNs)最早是在20世紀(jì)80年代由LeCun引入,當(dāng)時他在多倫多大學(xué)的Hinton實(shí)驗室做博士后研究助理。但是,由于卷積神經(jīng)網(wǎng)絡(luò)對計算和數(shù)據(jù)的巨大需求,它們被擱置了下來,它在那個時間獲得的采用非常有限。而后,經(jīng)過三十年的發(fā)展,并且借助計算硬件和數(shù)據(jù)存儲技術(shù)取得的巨大進(jìn)步,卷積神經(jīng)網(wǎng)絡(luò)開始充分發(fā)揮其強(qiáng)大的潛力。
      今天,得益于大型的計算集群、專用的硬件和海量的數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和對象識別方面已經(jīng)得到了廣泛而且有益的應(yīng)用。
      卷積神經(jīng)網(wǎng)絡(luò)的每一層都將從輸入圖像中提取特定的特征。
      卷積神經(jīng)網(wǎng)絡(luò)(CNNs)與人類視覺的區(qū)別

      在AAAI大會的演講中,Hinton指出:“卷積神經(jīng)網(wǎng)絡(luò)(CNNs)充分利用了端對端的學(xué)習(xí)方式。事實(shí)證明,如果一項功能在某個地方不錯,那么在其他地方也會很不錯,因此他們贏得了巨大的成功。這使得它們可以結(jié)合證據(jù),并很好地在不同位置進(jìn)行泛化。然而,它們與人類的感知非常不同?!?/span>
      計算機(jī)視覺的關(guān)鍵挑戰(zhàn)之一是處理現(xiàn)實(shí)世界中的數(shù)據(jù)差異。我們的視覺系統(tǒng)可以從不同的角度、不同的背景和不同的光照條件下識別物體。當(dāng)物體被其他物體部分遮住或以古怪的方式著色時,我們的視覺系統(tǒng)利用線索和其他知識來填補(bǔ)缺失的信息以及我們這樣看的理由。
      事實(shí)證明,創(chuàng)建能夠復(fù)制相同對象識別功能的人工智能非常困難。
      Hinton說:“卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是為解決物體的平移問題而設(shè)計的”。這意味著一個訓(xùn)練有素的卷積神經(jīng)網(wǎng)絡(luò)可以識別一個對象,而不管其在圖像中的位置如何。但是他們并不能很好地處理視點(diǎn)變化的其他效果,例如旋轉(zhuǎn)和縮放。
      根據(jù)Hinton的說法,解決這個問題的一種方法是使用4D或6D地圖來訓(xùn)練人工智能,然后執(zhí)行對象檢測。他補(bǔ)充道:“但這實(shí)在是令人望而卻步?!?。
      目前,我們最好的解決方案是收集大量的圖像,在不同的位置顯示每個對象。然后,我們在這個龐大的數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),希望它能看到足夠多的對象示例以進(jìn)行泛化,并且能夠在真實(shí)世界中以可靠的準(zhǔn)確度來檢測對象。諸如ImageNet這樣的數(shù)據(jù)集包含超過1,400萬個帶有注釋的圖像,目的就是旨在實(shí)現(xiàn)這一目標(biāo)。
      Hinton說道:“這不是很有效。我們希望卷積神經(jīng)網(wǎng)絡(luò)能夠毫不費(fèi)力地推廣到新的視點(diǎn)。如果他們學(xué)會了識別某些東西,而你把它放大10倍并旋轉(zhuǎn)60度,那么這根本不會給他們帶來任何問題。我們知道計算機(jī)圖形學(xué)就是這樣,我們希望卷積神經(jīng)網(wǎng)絡(luò)更像這樣?!?/span>
      事實(shí)上,ImageNet已經(jīng)被證明是有缺陷的,它目前是評估計算機(jī)視覺系統(tǒng)的首選基準(zhǔn)。盡管數(shù)據(jù)集龐大,但是它無法捕獲對象的所有可能角度和位置。它主要由在理想照明條件下以已知角度拍攝的圖像組成。
      這對于人類視覺系統(tǒng)來說是可以接受的,因為它可以輕松地進(jìn)行知識泛化。事實(shí)上,當(dāng)我們從多個角度觀察到某個對象后,我們通常可以想象它在新位置和不同視覺條件下的外觀。
      但是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)需要詳細(xì)的示例來說明他們需要處理的案例,而且他們不具備人類思維的創(chuàng)造力。深度學(xué)習(xí)開發(fā)人員通常試圖通過應(yīng)用一個稱為“數(shù)據(jù)增強(qiáng)”的過程來解決這個問題,在這個過程中,他們在訓(xùn)練神經(jīng)網(wǎng)絡(luò)之前翻轉(zhuǎn)圖像或少量旋轉(zhuǎn)圖像。實(shí)際上,卷積神經(jīng)網(wǎng)絡(luò)將在每個圖像的多個副本上進(jìn)行訓(xùn)練,每個副本都會略有不同。這將有助于人工智能針對同一對象的變化進(jìn)行泛化。在某種程度上,數(shù)據(jù)增強(qiáng)使得人工智能模型更加健壯。
      然而,數(shù)據(jù)增強(qiáng)無法涵蓋卷積神經(jīng)網(wǎng)絡(luò)和其他神經(jīng)網(wǎng)絡(luò)無法處理的極端情況,比如說,一張上翹的椅子,或者放在床上的一件皺巴巴的T恤衫。這些都是現(xiàn)實(shí)生活中像素操縱無法實(shí)現(xiàn)的情況。
      ImageNet與現(xiàn)實(shí)對比:在ImageNet(左列)中,對象放置整齊,處于理想的背景和光照條件下。而現(xiàn)實(shí)世界比它混亂得多(資料來源:objectnet.dev)
      已經(jīng)有人通過創(chuàng)建能夠更好地表示現(xiàn)實(shí)世界的混亂現(xiàn)實(shí)的計算機(jī)視覺基準(zhǔn)和訓(xùn)練數(shù)據(jù)集來解決這一泛化問題。但是,盡管它們可以改進(jìn)當(dāng)前人工智能系統(tǒng)的結(jié)果,但它們并不能解決跨視點(diǎn)泛化的根本問題。總會有新的角度、新的照明條件、新的顏色和姿勢,而這些新的數(shù)據(jù)集并不能包含所有這些情況。這些新情況甚至?xí)棺畲蟆⒆钕冗M(jìn)的人工智能系統(tǒng)陷入混亂。

      差異可能是危險的

      從上面提出的觀點(diǎn)來看,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)顯然是以與人類截然不同的方式來識別物體的。但是,這些差異不僅在弱泛化上存在局限,而且還需要更多的示例來學(xué)習(xí)一個對象。卷積神經(jīng)網(wǎng)絡(luò)生成對象的內(nèi)部表示形式也與人腦的生物神經(jīng)網(wǎng)絡(luò)非常不同。
      這是如何表現(xiàn)出來的?“我可以拍攝一張照片,再加上一點(diǎn)點(diǎn)噪點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)就會將其識別為完全不同的東西,而我本人幾乎看不出它們有什么不同。這似乎真的很奇怪,我認(rèn)為這是證據(jù),卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上是在使用與我們完全不同的信息來識別圖像?!?Hinton在AAAI會議上的主題演講中說道。
      這些稍加修改的圖像被稱為“對抗性樣本”,是人工智能領(lǐng)域的研究熱點(diǎn)。
                   
      對抗性樣本可能會導(dǎo)致神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行錯誤分類,而對人眼卻沒有影響。
      Hinton說:“并不是說這是錯的,他們只是使用一種完全不同的方式來工作,而且他們這種完全不同的做法在如何泛化方面也會有一些不同。”。
      但是許多例子表明,對抗性干擾可能是極其危險的。當(dāng)你的圖像分類器錯誤地將熊貓標(biāo)記為長臂猿時,這一切都是可愛和有趣的。但是,當(dāng)自動駕駛汽車的計算機(jī)視覺系統(tǒng)缺少了一個停車標(biāo)志時,而繞過面部識別安全系統(tǒng)的邪惡黑客,或者谷歌照片將人類標(biāo)記為大猩猩時,你就會有大麻煩了。
      關(guān)于檢測對抗性擾動并創(chuàng)建可抵抗對抗性擾動的強(qiáng)大的人工智能系統(tǒng),已經(jīng)有很多研究。但是,對抗性樣本也提醒我們:我們的視覺系統(tǒng)經(jīng)過幾代人的進(jìn)化,已經(jīng)能夠處理我們周圍的世界,我們也創(chuàng)造了我們的世界來適應(yīng)我們的視覺系統(tǒng)。因此,如果我們的計算機(jī)視覺系統(tǒng)以與人類視覺根本不同的方式工作,它們將是不可預(yù)測且不可靠的,除非它們得到諸如激光雷達(dá)和雷達(dá)測繪等補(bǔ)充技術(shù)的支持。



      坐標(biāo)系和部分-整體關(guān)系很重要

      Geoffrey Hinton在AAAI大會的主題演講中指出的另一個問題是,卷積神經(jīng)網(wǎng)絡(luò)無法從對象及其部分的角度來理解圖像。它們將圖像識別為以不同圖案排列的像素斑點(diǎn)。它們也沒有實(shí)體及其關(guān)系的顯式內(nèi)部表示。
      “當(dāng)你將卷積神經(jīng)網(wǎng)絡(luò)想象成各個像素位置的中心時,你會越來越豐富地描述該像素位置上發(fā)生的事情,這取決于越來越多的上下文。最后,你獲得了如此豐富的描述,以至于你知道圖像中存在哪些對象。但是它們并沒有明確地解析圖像?!盚inton說。
      我們對物體構(gòu)成的理解有助于我們了解這個世界,并理解我們以前從未見過的東西,比如這個奇特的茶壺。
                   
      將對象分解為多個部分有助于我們了解其性質(zhì)。這是馬桶還是茶壺?(資源來源:Smashing lists)
      卷積神經(jīng)網(wǎng)絡(luò)中還缺少坐標(biāo)系,這是人類視覺的基本組成部分。基本上,當(dāng)我們看到一個物體時,我們開發(fā)了一個關(guān)于它的方向的心理模型,這有助于我們解析它的不同特征。例如,在下圖中,考慮右邊的臉。如果你將其倒置,你會看到左邊的臉。但實(shí)際上,你不需要物理翻轉(zhuǎn)圖像就可以看到左邊的臉。只需在精神上調(diào)整坐標(biāo)系,就可以看到兩個面,無論圖像的方向如何。
      Hinton指出:“根據(jù)所施加的坐標(biāo)系,你會有完全不同的內(nèi)部感知。卷積神經(jīng)網(wǎng)絡(luò)確實(shí)不能解釋這一點(diǎn)。你給他們一個輸入,他們就有一個感知,而感知并不依賴于強(qiáng)加的坐標(biāo)系。我想,這與對抗性樣本有關(guān),也與卷積神經(jīng)網(wǎng)絡(luò)以與人完全不同的方式進(jìn)行感知這一事實(shí)有關(guān)?!?/span>

      從計算機(jī)圖形學(xué)中吸取教訓(xùn)

      Hinton在AAAI會議上的演講中指出,解決計算機(jī)視覺的一種非常簡便的方法是制作逆向圖。三維計算機(jī)圖形模型是由對象的層次結(jié)構(gòu)組成的。每個對象都有一個轉(zhuǎn)換矩陣,該矩陣定義了其相對于其父對象的平移,旋轉(zhuǎn)和縮放比例。每個層次結(jié)構(gòu)中頂級對象的變換矩陣定義了其相對于世界原點(diǎn)的坐標(biāo)和方向。
      例如,考慮汽車的3D模型?;A(chǔ)對象具有4×4變換矩陣,該矩陣表示汽車的中心位于具有旋轉(zhuǎn)(X = 0,Y = 0,Z = 90)的坐標(biāo)(X = 10,Y = 10,Z = 0)處 。汽車本身由許多對象組成,如車輪、底盤、方向盤、擋風(fēng)玻璃、變速箱、發(fā)動機(jī)等。每個對象都有自己的變換矩陣,以父矩陣(汽車的中心)為參照,它們定義了自己的位置和方向。例如,左前輪的中心位于(X=-1.5,Y=2,Z=-0.3)。左前輪的世界坐標(biāo)可以通過將其變換矩陣與其父矩陣相乘得到。
      其中一些對象可能具有自己的子集。例如,車輪由輪胎,輪輞,輪轂,螺母等部件組成。這些子項中的每一個都有自己的變換矩陣。
      使用這種坐標(biāo)系層次結(jié)構(gòu),可以非常輕松地定位和可視化對象,而不管它們的姿勢、方向或視點(diǎn)如何。當(dāng)你要渲染對象時,將3D對象中的每個三角形乘以其變換矩陣及其父對象的變換矩陣。然后將其與視點(diǎn)對齊(另一個矩陣乘法),然后在柵格化為像素之前轉(zhuǎn)換為屏幕坐標(biāo)。
      “如果你(對從事計算機(jī)圖形學(xué)工作的人)說:‘你能從另一個角度向我展示嗎?’他們不會說,‘哦,好吧,我很樂意。但是我們沒有從那個角度進(jìn)行訓(xùn)練,所以我們無法從那個角度向你展示?!麄冎皇菑牧硪粋€角度向你展示,因為他們有一個3D模型,他們依據(jù)部分和整體之間的關(guān)系對一個空間結(jié)構(gòu)進(jìn)行建模,而這些關(guān)系根本不依賴于視點(diǎn)?!盚inton說?!拔矣X得在處理3D對象的圖像時,不利用這種漂亮的結(jié)構(gòu)是很瘋狂的?!?/span>
      膠囊網(wǎng)絡(luò)(Capsule Network),是Hinton的另一個雄心勃勃的新項目,它嘗試制作逆向計算機(jī)圖形。盡管膠囊網(wǎng)絡(luò)應(yīng)該有自己獨(dú)立的一套東西,但其背后的基本思想也是拍攝圖像,提取其對象及其部分,定義其坐標(biāo)系,并創(chuàng)建圖像的模塊化結(jié)構(gòu)。
      膠囊網(wǎng)絡(luò)仍在研發(fā)中,自2017年推出以來,它們已經(jīng)經(jīng)歷了多次迭代。但是,如果Hinton和他的同事們能夠成功地使他們發(fā)揮作用,我們將更接近復(fù)制人類的視覺。
      本文為 CSDN 翻譯,轉(zhuǎn)載請注明來源出處。

      【END】

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多