解讀 | 2019 年 10 篇計(jì)算機(jī)視覺精選論文（下）

西北望msm66g9f 2020-02-16

展開全文

By 超神經(jīng)

內(nèi)容一覽：2019 年已經(jīng)接近尾聲，在這一年里，計(jì)算機(jī)視覺（CV）領(lǐng)域又誕生了大量出色的論文，提出了許多新穎的架構(gòu)和方法，進(jìn)一步提高了視覺系統(tǒng)的感知和生成能力。我們精選了 2019 年十大 CV 研究論文，幫你了解該領(lǐng)域的最新趨勢(shì)，繼之前推出的上系列和中系列之后，這是該系列的最后一個(gè)部分。Enjoy~

關(guān)鍵詞：計(jì)算機(jī)視覺精選論文解讀

近年來，計(jì)算機(jī)視覺（CV）系統(tǒng)已經(jīng)逐漸成功地應(yīng)用在醫(yī)療保健，安防，運(yùn)輸，零售，銀行，農(nóng)業(yè)等領(lǐng)域，也正在逐漸改變整個(gè)行業(yè)的面貌。

今年，CV 領(lǐng)域依然碩果累累，在各個(gè)頂尖會(huì)議中誕生了多篇優(yōu)秀論文。我們從中精選了 10 篇論文以供大家參考、學(xué)習(xí)。限于篇幅，我們將解讀分為了上、中、下三個(gè)篇章分期進(jìn)行推送。

以下是這 10 篇論文完整的目錄：

1. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

EfficientNet：卷積神經(jīng)網(wǎng)絡(luò)模型縮放的反思

2. Learning the Depths of Moving People by Watching Frozen People

通過觀看靜止的人來學(xué)習(xí)移動(dòng)的人的深度

3. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

增強(qiáng)的跨模態(tài)匹配和自我監(jiān)督的模仿學(xué)習(xí)，用于視覺語言導(dǎo)航

4. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

非視線形狀重構(gòu)的費(fèi)馬路徑理論

5. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection

Reasoning-RCNN：將自適應(yīng)全局推理統(tǒng)一到大規(guī)模目標(biāo)檢測(cè)中

6. Fixing the Train-Test Resolution Discrepancy

修復(fù)訓(xùn)練測(cè)試分辨率差異

7. SinGAN: Learning a Generative Model from a Single Natural Image

SinGAN：從單個(gè)自然圖像中學(xué)習(xí)生成模型

8. Local Aggregation for Unsupervised Learning of Visual Embeddings

視覺聚合的無監(jiān)督學(xué)習(xí)的局部聚合

9. Robust Change Captioning

強(qiáng)大的更改字幕

10. HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

HYPE：人類對(duì)生成模型的 eYe 感知評(píng)估的基準(zhǔn)

本文是序號(hào) 8-10 的詳細(xì)解讀，前面的內(nèi)容請(qǐng)查看往期內(nèi)容：

解讀 | 2019 年 10 篇計(jì)算機(jī)視覺精選論文（上）

解讀 | 2019 年 10 篇計(jì)算機(jī)視覺精選論文（中）

論文摘要

神經(jīng)網(wǎng)絡(luò)中的無監(jiān)督學(xué)習(xí)方法對(duì)于促進(jìn) AI 的發(fā)展具有重大的意義，一方面是因?yàn)檫@種方法，不需要進(jìn)行大量的標(biāo)記，就可進(jìn)行網(wǎng)絡(luò)訓(xùn)練，另一方面，它們將是人為部署中，更好的通用模型。

但是，無監(jiān)督的網(wǎng)絡(luò)的性能長(zhǎng)期落后于有監(jiān)督網(wǎng)絡(luò)，尤其是在大規(guī)模視覺識(shí)別領(lǐng)域。但最近有一種新的方法，可以彌補(bǔ)這一差距，它是通過訓(xùn)練深度卷積嵌入，以最大化非參數(shù)去進(jìn)行實(shí)例分割和聚類。

這篇論文中，描述了一種訓(xùn)練嵌入函數(shù)以最大化局部聚合度量的方法，該方法可讓相似的數(shù)據(jù)實(shí)例在嵌入空間中相互靠近，同時(shí)允許不同實(shí)例分開。該聚合指標(biāo)是動(dòng)態(tài)的，允許不同規(guī)模的軟聚類產(chǎn)生。

該模型在幾個(gè)大型視覺識(shí)別數(shù)據(jù)集上進(jìn)行了評(píng)估，在 ImageNet 中的對(duì)象識(shí)別，Places 205 中的場(chǎng)景識(shí)別，以及 PASCAL VOC 中的對(duì)象檢測(cè)方面，均實(shí)現(xiàn)了最先進(jìn)的無監(jiān)督轉(zhuǎn)移學(xué)習(xí)性能。

核心思想

本文介紹了一種新穎的無監(jiān)督學(xué)習(xí)算法，該算法可在潛在特征空間中對(duì)相似圖像進(jìn)行局部非參數(shù)聚合。

所提出的本地聚合（ Local Aggregation，LA）過程的總體目標(biāo)，是學(xué)習(xí)一種嵌入功能，該功能將圖像映射到表示空間中的特征，在該表達(dá)空間中，相似的圖像分組在一起，而不同的圖像則會(huì)分開：

對(duì)于每個(gè)輸入圖像，使用深度神經(jīng)網(wǎng)絡(luò)將圖像嵌入到低維空間中。
然后，該模型識(shí)別嵌入相似的近鄰和背景近鄰，這些特征用于設(shè)置判斷鄰近度的距離尺度。
通過優(yōu)化，當(dāng)前嵌入向量被推到更靠近其近鄰，并進(jìn)一步遠(yuǎn)離其背景近鄰。

引入的過程產(chǎn)生的表示形式支持下游計(jì)算機(jī)視覺任務(wù)。

關(guān)鍵成就

在以下方面，本地聚合明顯優(yōu)于其他架構(gòu)：

目標(biāo)識(shí)別：經(jīng)過 LA 培訓(xùn)的 ResNet-50 在 ImageNet 上，達(dá)到了 60.2％的 top-1準(zhǔn)確性，高于直接在監(jiān)督任務(wù)上進(jìn)行訓(xùn)練的 AlexNet ；

場(chǎng)景分類： LA 訓(xùn)練的 ResNet-50 在 Places 數(shù)據(jù)集，達(dá)到了 50.1％的精度，展現(xiàn)了其強(qiáng)大的遷移學(xué)習(xí)性能。

目標(biāo)檢測(cè)：在 PASCAL 檢測(cè)任務(wù)的無監(jiān)督轉(zhuǎn)移學(xué)習(xí)中，取得了最先進(jìn)的性能（在ResNet-50 上的平均精度為 69.1％）。

所獲榮譽(yù)

該論文在計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議 ICCV 2019 中，收獲了最佳論文獎(jiǎng)。

后續(xù)研究

探索使用基于非局部流形學(xué)習(xí)的先驗(yàn)檢測(cè)相似性的可能性。

通過分析學(xué)習(xí)的多個(gè)步驟中的代表變化來改善差異檢測(cè)。

將 LA 目標(biāo)應(yīng)用于其他領(lǐng)域，比如視頻和音頻。

將 LA 程序與生物視覺系統(tǒng)進(jìn)行對(duì)比。

應(yīng)用場(chǎng)景

這項(xiàng)研究對(duì)于計(jì)算機(jī)視覺研究而言，是將無監(jiān)督學(xué)習(xí)用于現(xiàn)實(shí)世界中的重要一步，且使物體檢測(cè)和對(duì)象識(shí)別系統(tǒng)，能夠在不花費(fèi)昂貴的注釋費(fèi)用的情況下正常運(yùn)行。

代碼獲得

在 GitHub 上提供了 Local Aggregation 算法的 TensorFlow 實(shí)現(xiàn)。

地址：https://github.com/neuroailab/LocalAggregation

論文摘要

描述場(chǎng)景中發(fā)生的變化是一項(xiàng)重要的工作，但前提是生成的文本只關(guān)注語義相關(guān)的內(nèi)容。因此，需要將干擾因素（例如視點(diǎn)變化）與相關(guān)變化（例如物體移動(dòng)）區(qū)進(jìn)行區(qū)分。

此文提出一種新穎的雙重動(dòng)態(tài)注意力模型（DUDA），以執(zhí)行強(qiáng)大的變化文本描述。該模型學(xué)會(huì)了將干擾因素與語義變化區(qū)分開，通過對(duì)前后圖像進(jìn)行雙重關(guān)注來定位變化，并通過自適應(yīng)地關(guān)注必要的視覺輸入（例如「之前」），通過動(dòng)態(tài)揚(yáng)聲器準(zhǔn)確地用自然語言描述它們。（或之后的圖片）。

為了進(jìn)一步探究此問題，我們收集了基于 CLEVR 引擎的 CLEVR-Change 數(shù)據(jù)集，其中包含 5 種類型的場(chǎng)景變更。我們以數(shù)據(jù)集為基準(zhǔn)，并系統(tǒng)地研究了不同的變化類型和干擾因素的魯棒性。在描述變化和本地化方面都展示了 DUDA 模型的優(yōu)越性。

結(jié)果表明此方法是通用的，它在沒有干擾因素的 Spot-the-Diff 數(shù)據(jù)集上，獲得了最先進(jìn)的性能。

核心思想

研究團(tuán)隊(duì)提出了用于變化檢測(cè)和字幕說明的雙重動(dòng)態(tài)注意力模型（DUDA）：

該模型包括用于更改本地化的 Dual Attention 組件，和用于生成更改描述的 Dynamic Speaker 組件。
這兩個(gè)神經(jīng)網(wǎng)絡(luò)都是使用字幕級(jí)監(jiān)督進(jìn)行聯(lián)合訓(xùn)練的，并且沒有有關(guān)更改位置的信息。
給出「之前」和「之后」圖像后，模型將檢測(cè)場(chǎng)景是否已更改；如果已改變，它將在兩個(gè)圖像上定位變化，然后生成一個(gè)描述變化的句子，該句子是基于圖像對(duì)在空間和時(shí)間上的信息。

本文還介紹了一個(gè)新的 CLEVR-Change 數(shù)據(jù)集，該數(shù)據(jù)集：

包含 8 萬個(gè)「之前 /之后」圖像對(duì)；
涵蓋 5 種場(chǎng)景變化類型，例如顏色或材質(zhì)變化，添加，放置或移動(dòng)對(duì)象；
包括僅具有干擾因素的圖像對(duì)（即照明/視點(diǎn)變化）和具有干擾因素和語義相關(guān)場(chǎng)景變化的圖像。

關(guān)鍵成就

引入新的 CLEVR-Change 基準(zhǔn)測(cè)試，可以幫助研究團(tuán)體訓(xùn)練新模型，以用于：

當(dāng)視點(diǎn)移動(dòng)時(shí)，局部場(chǎng)景發(fā)生的變化；
正確引用復(fù)雜場(chǎng)景中的物體；
定義視點(diǎn)移動(dòng)時(shí)物體之間的對(duì)應(yīng)關(guān)系。

提出一個(gè)更改文字描述的 DUDA 模型，當(dāng)在 CLEVR-Change 數(shù)據(jù)集上進(jìn)行評(píng)估時(shí)，該模型在以下方面優(yōu)于所有場(chǎng)景更改類型的基準(zhǔn)：

總體句子流利度和與真實(shí)性的相似度（BLEU-4，METEOR，CIDEr 和 SPICE 度量）；
更改本地化（指向游戲評(píng)估）。

所獲榮譽(yù)

該論文被計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議 ICCV 2019 ，提名為最佳論文獎(jiǎng)。

后續(xù)研究

收集來自真實(shí)圖像的「之前 /之后」圖像對(duì)數(shù)據(jù)集，并包含語義上的顯著變化和干擾因素變化。

應(yīng)用場(chǎng)景

DUDA 模型可以協(xié)助各種實(shí)際應(yīng)用，包括：更改醫(yī)學(xué)圖像中的跟蹤；設(shè)施監(jiān)控；航空攝影。

論文摘要

生成模型通常使用人工評(píng)估來評(píng)價(jià)其輸出的感知質(zhì)量。自動(dòng)化指標(biāo)是嘈雜的間接代理，因?yàn)樗鼈円蕾囉趩l(fā)式方法或預(yù)訓(xùn)練的嵌入。然而直到現(xiàn)在，直接的人類評(píng)估策略都是臨時(shí)的，既沒有標(biāo)準(zhǔn)化也沒有經(jīng)過驗(yàn)證。

論文里進(jìn)行的工作，是為生成現(xiàn)實(shí)的判斷建立了一套黃金標(biāo)準(zhǔn)的人類方法。我們構(gòu)建了人類 eYe 感知評(píng)估（HYPE）基準(zhǔn)。

該基準(zhǔn)是（1）基于感知的心理物理學(xué)研究；（2）在模型的隨機(jī)采樣輸出的不同集合之間是可靠的；（3）能夠產(chǎn)生可分離的模型性能；以及（4）在成本和時(shí)間上具有很高的效益。

我們介紹了兩種變量：一種在自適應(yīng)時(shí)間約束下測(cè)量視覺感知，以確定模型輸出呈現(xiàn)真實(shí)閾值（例如 250ms），另一個(gè)代價(jià)更小的變量，它在沒有時(shí)間限制的情況下，可以在假的和真實(shí)圖像上，測(cè)量人為錯(cuò)誤率。

我們使用 CelebA，F(xiàn)FHQ，CIFAR-10 和 ImageNet 這四個(gè)數(shù)據(jù)集，通過六個(gè)最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)和兩種采樣技術(shù)，對(duì)有條件和無條件圖像生成進(jìn)行 HYPE 測(cè)試。我們發(fā)現(xiàn) HYPE 可以跟蹤訓(xùn)練期間的模型改進(jìn)，并且通過引導(dǎo)抽樣驗(yàn)證了 HYPE 排名是一致且可重復(fù)的。

核心思想

由于自動(dòng)度量標(biāo)準(zhǔn)在高維問題上不準(zhǔn)確，并且人工評(píng)估不可靠且過度依賴任務(wù)設(shè)計(jì)，因此需要用于評(píng)估生成模型的系統(tǒng)性黃金標(biāo)準(zhǔn)基準(zhǔn)。

為了解決這個(gè)問題，研究人員介紹了基準(zhǔn) Human eYe Perceptual Evaluation（HYPE），以及評(píng)估的方法有兩種：

計(jì)算一個(gè)人需要多少時(shí)間來區(qū)分特定模型生成的真實(shí)圖像和偽圖像：花費(fèi)的時(shí)間越長(zhǎng)，模型越好。
測(cè)量不受時(shí)間限制的人為錯(cuò)誤率：得分高于 50％表示生成的偽圖像看起來比真實(shí)圖像更真實(shí)。

關(guān)鍵成就

引入用于評(píng)估生成模型的黃金基準(zhǔn)：

依據(jù)于心理物理學(xué)研究；
可靠而且一致性好；
能夠針對(duì)不同模型產(chǎn)生統(tǒng)計(jì)上可分離的結(jié)果；
在成本和時(shí)間上具有高效率。

所獲榮譽(yù)

該論文被選做人工智能頂級(jí)會(huì)議 NeurIPS 2019 的口頭報(bào)告。

后續(xù)研究

將 HYPE 擴(kuò)展到其他生成任務(wù)，包括文本，音樂和視頻生成。

代碼獲得

作者已經(jīng)在線部署了 HYPE，任何研究人員都可以使用 Mechanical Turk 上載模型并檢索 HYPE 分?jǐn)?shù)。地址：https://hype.stanford.edu/

參考資料：https://www./top-ai-vision-research-papers-2019/

—— 完 ——

掃描二維碼，加入討論群

獲得更多優(yōu)質(zhì)數(shù)據(jù)集

了解人工智能落地應(yīng)用

關(guān)注頂會(huì)&論文

回復(fù)「讀者」了解更多

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：西北望msm66g9f > 《編程》

舉報(bào)/認(rèn)領(lǐng)