內(nèi)容一覽:2019 年已經(jīng)接近尾聲,在這一年里,計(jì)算機(jī)視覺(CV)領(lǐng)域又誕生了大量出色的論文,提出了許多新穎的架構(gòu)和方法,進(jìn)一步提高了視覺系統(tǒng)的感知和生成能力。我們精選了 2019 年十大 CV 研究論文,幫你了解該領(lǐng)域的最新趨勢(shì),繼之前推出的上系列和中系列之后,這是該系列的最后一個(gè)部分。Enjoy~關(guān)鍵詞:計(jì)算機(jī)視覺 精選論文 解讀近年來,計(jì)算機(jī)視覺(CV)系統(tǒng)已經(jīng)逐漸成功地應(yīng)用在醫(yī)療保健,安防,運(yùn)輸,零售,銀行,農(nóng)業(yè)等領(lǐng)域,也正在逐漸改變整個(gè)行業(yè)的面貌。今年,CV 領(lǐng)域依然碩果累累,在各個(gè)頂尖會(huì)議中誕生了多篇優(yōu)秀論文。我們從中精選了 10 篇論文以供大家參考、學(xué)習(xí)。限于篇幅,我們將解讀分為了上、中、下三個(gè)篇章分期進(jìn)行推送。 1. EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksEfficientNet:卷積神經(jīng)網(wǎng)絡(luò)模型縮放的反思2. Learning the Depths of Moving People by Watching Frozen People通過觀看靜止的人來學(xué)習(xí)移動(dòng)的人的深度3. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation增強(qiáng)的跨模態(tài)匹配和自我監(jiān)督的模仿學(xué)習(xí),用于視覺語言導(dǎo)航4. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction5. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object DetectionReasoning-RCNN:將自適應(yīng)全局推理統(tǒng)一到大規(guī)模目標(biāo)檢測(cè)中6. Fixing the Train-Test Resolution Discrepancy7. SinGAN: Learning a Generative Model from a Single Natural ImageSinGAN:從單個(gè)自然圖像中學(xué)習(xí)生成模型8. Local Aggregation for Unsupervised Learning of Visual Embeddings視覺聚合的無監(jiān)督學(xué)習(xí)的局部聚合9. Robust Change Captioning10. HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative ModelsHYPE:人類對(duì)生成模型的 eYe 感知評(píng)估的基準(zhǔn)本文是序號(hào) 8-10 的詳細(xì)解讀,前面的內(nèi)容請(qǐng)查看往期內(nèi)容: 神經(jīng)網(wǎng)絡(luò)中的無監(jiān)督學(xué)習(xí)方法對(duì)于促進(jìn) AI 的發(fā)展具有重大的意義,一方面是因?yàn)檫@種方法,不需要進(jìn)行大量的標(biāo)記,就可進(jìn)行網(wǎng)絡(luò)訓(xùn)練,另一方面,它們將是人為部署中,更好的通用模型。但是,無監(jiān)督的網(wǎng)絡(luò)的性能長(zhǎng)期落后于有監(jiān)督網(wǎng)絡(luò),尤其是在大規(guī)模視覺識(shí)別領(lǐng)域。但最近有一種新的方法,可以彌補(bǔ)這一差距,它是通過訓(xùn)練深度卷積嵌入,以最大化非參數(shù)去進(jìn)行實(shí)例分割和聚類。這篇論文中,描述了一種訓(xùn)練嵌入函數(shù)以最大化局部聚合度量的方法,該方法可讓相似的數(shù)據(jù)實(shí)例在嵌入空間中相互靠近,同時(shí)允許不同實(shí)例分開。該聚合指標(biāo)是動(dòng)態(tài)的,允許不同規(guī)模的軟聚類產(chǎn)生。該模型在幾個(gè)大型視覺識(shí)別數(shù)據(jù)集上進(jìn)行了評(píng)估,在 ImageNet 中的對(duì)象識(shí)別,Places 205 中的場(chǎng)景識(shí)別,以及 PASCAL VOC 中的對(duì)象檢測(cè)方面,均實(shí)現(xiàn)了最先進(jìn)的無監(jiān)督轉(zhuǎn)移學(xué)習(xí)性能。本文介紹了一種新穎的無監(jiān)督學(xué)習(xí)算法,該算法可在潛在特征空間中對(duì)相似圖像進(jìn)行局部非參數(shù)聚合。所提出的本地聚合( Local Aggregation,LA)過程的總體目標(biāo),是學(xué)習(xí)一種嵌入功能,該功能將圖像映射到表示空間中的特征,在該表達(dá)空間中,相似的圖像分組在一起,而不同的圖像則會(huì)分開:對(duì)于每個(gè)輸入圖像,使用深度神經(jīng)網(wǎng)絡(luò)將圖像嵌入到低維空間中。 然后,該模型識(shí)別嵌入相似的近鄰和背景近鄰,這些特征用于設(shè)置判斷鄰近度的距離尺度。 通過優(yōu)化,當(dāng)前嵌入向量被推到更靠近其近鄰,并進(jìn)一步遠(yuǎn)離其背景近鄰。 引入的過程產(chǎn)生的表示形式支持下游計(jì)算機(jī)視覺任務(wù)。在以下方面,本地聚合明顯優(yōu)于其他架構(gòu):目標(biāo)識(shí)別:經(jīng)過 LA 培訓(xùn)的 ResNet-50 在 ImageNet 上,達(dá)到了 60.2% 的 top-1準(zhǔn)確性,高于直接在監(jiān)督任務(wù)上進(jìn)行訓(xùn)練的 AlexNet ;場(chǎng)景分類: LA 訓(xùn)練的 ResNet-50 在 Places 數(shù)據(jù)集,達(dá)到了 50.1% 的精度,展現(xiàn)了其強(qiáng)大的遷移學(xué)習(xí)性能。目標(biāo)檢測(cè):在 PASCAL 檢測(cè)任務(wù)的無監(jiān)督轉(zhuǎn)移學(xué)習(xí)中,取得了最先進(jìn)的性能(在ResNet-50 上的平均精度為 69.1%)。該論文在計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議 ICCV 2019 中,收獲了最佳論文獎(jiǎng)。探索使用基于非局部流形學(xué)習(xí)的先驗(yàn)檢測(cè)相似性的可能性。 通過分析學(xué)習(xí)的多個(gè)步驟中的代表變化來改善差異檢測(cè)。 將 LA 目標(biāo)應(yīng)用于其他領(lǐng)域,比如視頻和音頻。 將 LA 程序與生物視覺系統(tǒng)進(jìn)行對(duì)比。 這項(xiàng)研究對(duì)于計(jì)算機(jī)視覺研究而言,是將無監(jiān)督學(xué)習(xí)用于現(xiàn)實(shí)世界中的重要一步,且使物體檢測(cè)和對(duì)象識(shí)別系統(tǒng),能夠在不花費(fèi)昂貴的注釋費(fèi)用的情況下正常運(yùn)行。在 GitHub 上提供了 Local Aggregation 算法的 TensorFlow 實(shí)現(xiàn)。地址:https://github.com/neuroailab/LocalAggregation描述場(chǎng)景中發(fā)生的變化是一項(xiàng)重要的工作,但前提是生成的文本只關(guān)注語義相關(guān)的內(nèi)容。因此,需要將干擾因素(例如視點(diǎn)變化)與相關(guān)變化(例如物體移動(dòng))區(qū)進(jìn)行區(qū)分。此文提出一種新穎的雙重動(dòng)態(tài)注意力模型(DUDA),以執(zhí)行強(qiáng)大的變化文本描述。該模型學(xué)會(huì)了將干擾因素與語義變化區(qū)分開,通過對(duì)前后圖像進(jìn)行雙重關(guān)注來定位變化,并通過自適應(yīng)地關(guān)注必要的視覺輸入(例如「之前」),通過動(dòng)態(tài)揚(yáng)聲器準(zhǔn)確地用自然語言描述它們。(或之后的圖片)。為了進(jìn)一步探究此問題,我們收集了基于 CLEVR 引擎的 CLEVR-Change 數(shù)據(jù)集,其中包含 5 種類型的場(chǎng)景變更。我們以數(shù)據(jù)集為基準(zhǔn),并系統(tǒng)地研究了不同的變化類型和干擾因素的魯棒性。在描述變化和本地化方面都展示了 DUDA 模型的優(yōu)越性。結(jié)果表明此方法是通用的,它在沒有干擾因素的 Spot-the-Diff 數(shù)據(jù)集上,獲得了最先進(jìn)的性能。研究團(tuán)隊(duì)提出了用于變化檢測(cè)和字幕說明的雙重動(dòng)態(tài)注意力模型(DUDA):該模型包括用于更改本地化的 Dual Attention 組件,和用于生成更改描述的 Dynamic Speaker 組件。 這兩個(gè)神經(jīng)網(wǎng)絡(luò)都是使用字幕級(jí)監(jiān)督進(jìn)行聯(lián)合訓(xùn)練的,并且沒有有關(guān)更改位置的信息。 給出「之前」和「之后」圖像后,模型將檢測(cè)場(chǎng)景是否已更改;如果已改變,它將在兩個(gè)圖像上定位變化,然后生成一個(gè)描述變化的句子,該句子是基于圖像對(duì)在空間和時(shí)間上的信息。 本文還介紹了一個(gè)新的 CLEVR-Change 數(shù)據(jù)集,該數(shù)據(jù)集:包含 8 萬個(gè)「之前 /之后」圖像對(duì); 涵蓋 5 種場(chǎng)景變化類型,例如顏色或材質(zhì)變化,添加,放置或移動(dòng)對(duì)象; 包括僅具有干擾因素的圖像對(duì)(即照明/視點(diǎn)變化)和具有干擾因素和語義相關(guān)場(chǎng)景變化的圖像。 引入新的 CLEVR-Change 基準(zhǔn)測(cè)試,可以幫助研究團(tuán)體訓(xùn)練新模型,以用于:提出一個(gè)更改文字描述的 DUDA 模型,當(dāng)在 CLEVR-Change 數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),該模型在以下方面優(yōu)于所有場(chǎng)景更改類型的基準(zhǔn):該論文被計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議 ICCV 2019 ,提名為最佳論文獎(jiǎng)。收集來自真實(shí)圖像的「之前 /之后」圖像對(duì)數(shù)據(jù)集,并包含語義上的顯著變化和干擾因素變化。DUDA 模型可以協(xié)助各種實(shí)際應(yīng)用,包括:更改醫(yī)學(xué)圖像中的跟蹤;設(shè)施監(jiān)控;航空攝影。生成模型通常使用人工評(píng)估來評(píng)價(jià)其輸出的感知質(zhì)量。自動(dòng)化指標(biāo)是嘈雜的間接代理,因?yàn)樗鼈円蕾囉趩l(fā)式方法或預(yù)訓(xùn)練的嵌入。然而直到現(xiàn)在,直接的人類評(píng)估策略都是臨時(shí)的,既沒有標(biāo)準(zhǔn)化也沒有經(jīng)過驗(yàn)證。論文里進(jìn)行的工作,是為生成現(xiàn)實(shí)的判斷建立了一套黃金標(biāo)準(zhǔn)的人類方法。我們構(gòu)建了人類 eYe 感知評(píng)估(HYPE)基準(zhǔn)。該基準(zhǔn)是(1)基于感知的心理物理學(xué)研究;(2)在模型的隨機(jī)采樣輸出的不同集合之間是可靠的;(3)能夠產(chǎn)生可分離的模型性能;以及(4)在成本和時(shí)間上具有很高的效益。我們介紹了兩種變量:一種在自適應(yīng)時(shí)間約束下測(cè)量視覺感知,以確定模型輸出呈現(xiàn)真實(shí)閾值(例如 250ms),另一個(gè)代價(jià)更小的變量,它在沒有時(shí)間限制的情況下,可以在假的和真實(shí)圖像上,測(cè)量人為錯(cuò)誤率。我們使用 CelebA,F(xiàn)FHQ,CIFAR-10 和 ImageNet 這四個(gè)數(shù)據(jù)集,通過六個(gè)最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)和兩種采樣技術(shù),對(duì)有條件和無條件圖像生成進(jìn)行 HYPE 測(cè)試。我們發(fā)現(xiàn) HYPE 可以跟蹤訓(xùn)練期間的模型改進(jìn),并且通過引導(dǎo)抽樣驗(yàn)證了 HYPE 排名是一致且可重復(fù)的。由于自動(dòng)度量標(biāo)準(zhǔn)在高維問題上不準(zhǔn)確,并且人工評(píng)估不可靠且過度依賴任務(wù)設(shè)計(jì),因此需要用于評(píng)估生成模型的系統(tǒng)性黃金標(biāo)準(zhǔn)基準(zhǔn)。為了解決這個(gè)問題,研究人員介紹了基準(zhǔn) Human eYe Perceptual Evaluation(HYPE),以及評(píng)估的方法有兩種:引入用于評(píng)估生成模型的黃金基準(zhǔn):該論文被選做人工智能頂級(jí)會(huì)議 NeurIPS 2019 的口頭報(bào)告。將 HYPE 擴(kuò)展到其他生成任務(wù),包括文本,音樂和視頻生成。作者已經(jīng)在線部署了 HYPE,任何研究人員都可以使用 Mechanical Turk 上載模型并檢索 HYPE 分?jǐn)?shù)。地址:https://hype.stanford.edu/參考資料:https://www./top-ai-vision-research-papers-2019/獲得更多優(yōu)質(zhì)數(shù)據(jù)集 了解人工智能落地應(yīng)用 關(guān)注頂會(huì)&論文 回復(fù)「讀者」了解更多
|