作者:Robert Geirhos 導讀和人類不同,AI物體識別靠的是小的細節(jié),而不是圖像的邊界,但是總是有辦法來彌補這個差別的! 看看下面的圖片,你看到了什么動物? 在上面的圖片中,你可能很容易就能認出一只貓。下面是一個頂尖的深度學習算法所看到的:一頭“大象”! 這個故事是關于為什么人工神經(jīng)網(wǎng)絡在人類看到貓的地方看到大象。此外,這是關于我們如何看待深度神經(jīng)網(wǎng)絡中的物體識別的范式轉變——以及我們如何利用這一視角來推進神經(jīng)網(wǎng)絡。這是基于我們最近在ICLR 2019(一個重要的深度學習會議)上發(fā)表的論文。 神經(jīng)網(wǎng)絡如何識別貓?一個被廣泛接受的答案是:通過檢測它的形狀。這個假說的證據(jù)來自可視化技術DeconvNet(下面的例子),這表明在不同的處理階段(稱為層),網(wǎng)絡在一個圖像尋求識別越來越大的模式,從第一層簡單的邊緣和輪廓到更復雜的形狀,如汽車輪子,直到整個物體,比如說一輛車,很容易被檢測到。 神經(jīng)網(wǎng)絡識別出的不同形狀:從前幾層的小模式到復雜的形狀(汽車輪子,第三層)最后到物體(汽車、第5層) 這種直觀的解釋已經(jīng)進入了常識的狀態(tài)?,F(xiàn)代深度學習經(jīng)典的教科書如Ian Goodfellow的“Deep Learning”(顯式引用shape-based可視化技術)當解釋深度學習是如何工作的:
但是有一個問題:一些最重要的和廣泛使用的可視化技術,包括DeconvNet都被誤導了:他們不是揭示網(wǎng)絡在圖像中找什么,他們僅僅是對圖像的部分進行重建,也就是說,那些很酷的人類可解釋性可視化和網(wǎng)絡是如何做決定的其實沒什么關系。 這幾乎沒有為形狀假說留下任何證據(jù)。我們是否需要修正我們對神經(jīng)網(wǎng)絡如何識別物體的看法呢? 如果形狀假說不是唯一的解釋呢?除了“形狀”之外,物體通常還有或多或少與眾不同的“顏色”、“大小”和“紋理”。所有這些因素都可以利用神經(jīng)網(wǎng)絡來識別。雖然顏色和尺寸通常不是特定物體類別所獨有的,但如果我們觀察小區(qū)域,幾乎所有物體都具有類似的紋理元素——甚至汽車,例如,輪胎輪廓或金屬涂層。 事實上,我們知道神經(jīng)網(wǎng)絡碰巧有非常好的紋理表示,不需要經(jīng)過訓練就有了。例如,在做 style transfer時,這一點就很明顯了。在這一個非常牛逼的圖像建模技術中,使用深度神經(jīng)網(wǎng)絡從一張圖像中提取紋理信息,例如繪畫風格。然后將這種樣式應用于第二幅圖像,使人們能夠以著名畫家的風格“繪制”照片。 左:任意照片,中:style=紋理圖像(梵高的《星夜》),右:用當前風格繪制出來的照片 神經(jīng)網(wǎng)絡在只接受物體識別訓練的情況下,仍能獲得如此強大的圖像紋理表示,這一事實表明,兩者之間有著更深層次的聯(lián)系。這是我們所說的“紋理假說”的第一個證據(jù):紋理,而不是物體的形狀,是人工智能物體識別中最重要的方面。 神經(jīng)網(wǎng)絡如何分類圖像:基于形狀(通常假設)或紋理?為了解決這個爭論,我想出了一個簡單的實驗來找出哪個解釋更可信。實驗是基于如下圖所示的圖像,其中的形狀和紋理為截然不同的物體類別提供了證據(jù): 大象紋理的貓|時鐘紋理的汽車|瓶子紋理的熊 在這三個示例圖像中,紋理和形狀不再屬于同一類別。我們用風格轉換來創(chuàng)造它們:如果輸入的是一張大象皮膚的照片,而不是一幅畫,那么用梵高風格的照片來“畫”一只貓也可以用大象的紋理來創(chuàng)造一只貓。 使用這樣的圖像,我們現(xiàn)在可以通過觀察來自深度神經(jīng)網(wǎng)絡的分類決策來研究形狀或紋理偏差(以及人類的比較)??紤]一下這個類比:我們想知道某人是說阿拉伯語還是漢語,但我們不被允許和他們交談。我們能做什么?一種可能是拿一張紙,用阿拉伯語寫“向左走”,在它旁邊用漢語寫“向右走”,然后簡單地觀察這個人會向右走還是向左走。類似地,如果我們給深度神經(jīng)網(wǎng)絡輸入一張形狀和紋理沖突的圖像,我們可以通過觀察是神經(jīng)網(wǎng)絡是利用形狀還是紋理識別的物體(即,是否它認為大象紋理的貓是一只貓還是一只大象),來找出神經(jīng)網(wǎng)絡說的是哪種“語言”。 這正是我們所做的。我們進行了一系列包括近100名人類觀察者和許多廣泛使用的深度神經(jīng)網(wǎng)絡(AlexNet, VGG-16, GoogLeNet, ResNet-50, ResNet-152, DenseNet-121, SqueezeNet1_1)在內的9個實驗,向他們展示了數(shù)百幅形狀和紋理沖突的圖像。結果不容置疑:我們發(fā)現(xiàn)了支持紋理解釋的驚人證據(jù)!帶象皮紋理的貓對DNN來說是大象,對人類來說仍然是貓。一輛帶有時鐘紋理的汽車對DNN來說就是時鐘,熊具有瓶子的表面特征就被識別為一個瓶子。目前用于物體識別的深度學習技術主要依賴于紋理,而不是物體的形狀。 下面是ResNet-50的一個結果,這是一個常用的深度神經(jīng)網(wǎng)絡,顯示了它的前三個“猜測”(分類決策)的百分比,如下圖所示: 正如你所看到的,有象皮的貓是根據(jù)紋理來分類的,而不是根據(jù)它的形狀來分類的。目前的人工智能物體識別似乎與我們之前設想的有很大不同,與人類識別物體的方式也有根本不同。 我們能做些什么嗎?我們能讓人工智能物體識別更像人類嗎?我們能教它使用形狀而不是紋理嗎? 答案是肯定的。深度神經(jīng)網(wǎng)絡,當學習分類物體時,利用任何有用的信息。在標準的圖像中,紋理揭示了很多關于物體身份的信息,因此可能根本不需要學習很多關于對物體形狀的知識。如果輪胎的輪廓和光滑的表面已經(jīng)暴露了物體的身份,為什么還要檢查形狀是否匹配呢?這就是為什么我們設計了一種新的方法來教神經(jīng)網(wǎng)絡專注于形狀而不是紋理,希望消除它們的紋理偏見。再次使用風格遷移,可以將圖像的原始紋理替換為任意不同的紋理(參見下圖中的示例)。在生成的圖像中,紋理不再提供信息,因此物體的形狀是惟一有用的信息。如果一個深度神經(jīng)網(wǎng)絡想要從這個新的訓練數(shù)據(jù)集中對物體進行分類,它現(xiàn)在需要學習形狀。 左:同時具有紋理和形狀信息的普通圖像|右:十個不同的任意紋理示例,但物體形狀相同。 在對成千上萬張具有任意紋理的圖像進行深度神經(jīng)網(wǎng)絡訓練后,我們發(fā)現(xiàn)它實際上獲得了形狀偏好,而不是對紋理的偏好!一只有著大象皮的貓現(xiàn)在被這個基于形狀的新網(wǎng)絡視為一只貓。此外,還有一些意外的好處。在識別標準圖像和定位圖像中的目標方面,該網(wǎng)絡突然變得比正常訓練的同類網(wǎng)絡更好。強調類人的、基于形狀的表示是多么有用。然而,我們最令人驚訝的發(fā)現(xiàn)是,它學會了如何處理帶噪聲的圖像(在現(xiàn)實世界中,這可能是雨雪后面的物體)—而且是前從未見過任何這些噪音模式!通過簡單地關注物體的形狀而不是容易扭曲的紋理,這個基于形狀的網(wǎng)絡是第一個接近一般的,人類水平的噪聲魯棒性的深度神經(jīng)網(wǎng)絡。 在人類視覺感知和人工智能的十字路口,靈感可以來自這兩個領域。我們利用人類視覺系統(tǒng)的知識及其對形狀的偏好來更好地理解深度神經(jīng)網(wǎng)絡,我們發(fā)現(xiàn)它們主要使用紋理來分類物體。這使得網(wǎng)絡的創(chuàng)建在許多不同的任務上更接近健壯的、類人的性能。展望未來,如果這個網(wǎng)絡更準確地預測當我們觀察物體的時候,大腦中的神經(jīng)元是如何“fire”的,這對更好地理解人類視覺感知是非常有用的,在這個真正激動人心的時代,來自人類的視覺的靈感有潛力改善當今人工智能技術,人工智能一樣有能力推動今天的視覺科學! 英文原文:https://blog./why-deep-learning-works-differently-than-we-thought-ec28823bdbc |
|
來自: taotao_2016 > 《AI》