乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      解讀 | 2019 年 10 篇計(jì)算機(jī)視覺精選論文(下)

       西北望msm66g9f 2020-02-16
      By 超神經(jīng)
      內(nèi)容一覽:2019 年已經(jīng)接近尾聲,在這一年里,計(jì)算機(jī)視覺(CV)領(lǐng)域又誕生了大量出色的論文,提出了許多新穎的架構(gòu)和方法,進(jìn)一步提高了視覺系統(tǒng)的感知和生成能力。我們精選了 2019 年十大 CV 研究論文,幫你了解該領(lǐng)域的最新趨勢(shì),繼之前推出的上系列和中系列之后,這是該系列的最后一個(gè)部分。Enjoy~
      關(guān)鍵詞:計(jì)算機(jī)視覺 精選論文 解讀
      近年來,計(jì)算機(jī)視覺(CV)系統(tǒng)已經(jīng)逐漸成功地應(yīng)用在醫(yī)療保健,安防,運(yùn)輸,零售,銀行,農(nóng)業(yè)等領(lǐng)域,也正在逐漸改變整個(gè)行業(yè)的面貌。

      今年,CV 領(lǐng)域依然碩果累累,在各個(gè)頂尖會(huì)議中誕生了多篇優(yōu)秀論文。我們從中精選了 10 篇論文以供大家參考、學(xué)習(xí)。限于篇幅,我們將解讀分為了上、中、下三個(gè)篇章分期進(jìn)行推送。

      以下是這 10 篇論文完整的目錄:
      1. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
      EfficientNet:卷積神經(jīng)網(wǎng)絡(luò)模型縮放的反思
      2. Learning the Depths of Moving People by Watching Frozen People
      通過觀看靜止的人來學(xué)習(xí)移動(dòng)的人的深度
      3. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
      增強(qiáng)的跨模態(tài)匹配和自我監(jiān)督的模仿學(xué)習(xí),用于視覺語言導(dǎo)航
      4. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
      非視線形狀重構(gòu)的費(fèi)馬路徑理論
      5. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection
      Reasoning-RCNN:將自適應(yīng)全局推理統(tǒng)一到大規(guī)模目標(biāo)檢測(cè)中
      6. Fixing the Train-Test Resolution Discrepancy
      修復(fù)訓(xùn)練測(cè)試分辨率差異
      7. SinGAN: Learning a Generative Model from a Single Natural Image
      SinGAN:從單個(gè)自然圖像中學(xué)習(xí)生成模型
      8. Local Aggregation for Unsupervised Learning of Visual Embeddings
      視覺聚合的無監(jiān)督學(xué)習(xí)的局部聚合
      9. Robust Change Captioning
      強(qiáng)大的更改字幕
      10. HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
      HYPE:人類對(duì)生成模型的 eYe 感知評(píng)估的基準(zhǔn)

      本文是序號(hào) 8-10 的詳細(xì)解讀,前面的內(nèi)容請(qǐng)查看往期內(nèi)容:

      解讀 | 2019 年 10 篇計(jì)算機(jī)視覺精選論文(上)
      解讀 | 2019 年 10 篇計(jì)算機(jī)視覺精選論文(中)

      8



         論文摘要   

      神經(jīng)網(wǎng)絡(luò)中的無監(jiān)督學(xué)習(xí)方法對(duì)于促進(jìn) AI 的發(fā)展具有重大的意義,一方面是因?yàn)檫@種方法,不需要進(jìn)行大量的標(biāo)記,就可進(jìn)行網(wǎng)絡(luò)訓(xùn)練,另一方面,它們將是人為部署中,更好的通用模型。

      但是,無監(jiān)督的網(wǎng)絡(luò)的性能長(zhǎng)期落后于有監(jiān)督網(wǎng)絡(luò),尤其是在大規(guī)模視覺識(shí)別領(lǐng)域。但最近有一種新的方法,可以彌補(bǔ)這一差距,它是通過訓(xùn)練深度卷積嵌入,以最大化非參數(shù)去進(jìn)行實(shí)例分割和聚類。

      這篇論文中,描述了一種訓(xùn)練嵌入函數(shù)以最大化局部聚合度量的方法,該方法可讓相似的數(shù)據(jù)實(shí)例在嵌入空間中相互靠近,同時(shí)允許不同實(shí)例分開。該聚合指標(biāo)是動(dòng)態(tài)的,允許不同規(guī)模的軟聚類產(chǎn)生。

      該模型在幾個(gè)大型視覺識(shí)別數(shù)據(jù)集上進(jìn)行了評(píng)估,在 ImageNet 中的對(duì)象識(shí)別,Places 205 中的場(chǎng)景識(shí)別,以及 PASCAL VOC 中的對(duì)象檢測(cè)方面,均實(shí)現(xiàn)了最先進(jìn)的無監(jiān)督轉(zhuǎn)移學(xué)習(xí)性能。
         核心思想   

      本文介紹了一種新穎的無監(jiān)督學(xué)習(xí)算法,該算法可在潛在特征空間中對(duì)相似圖像進(jìn)行局部非參數(shù)聚合。

      所提出的本地聚合( Local Aggregation,LA)過程的總體目標(biāo),是學(xué)習(xí)一種嵌入功能,該功能將圖像映射到表示空間中的特征,在該表達(dá)空間中,相似的圖像分組在一起,而不同的圖像則會(huì)分開:

      • 對(duì)于每個(gè)輸入圖像,使用深度神經(jīng)網(wǎng)絡(luò)將圖像嵌入到低維空間中。

      • 然后,該模型識(shí)別嵌入相似的近鄰和背景近鄰,這些特征用于設(shè)置判斷鄰近度的距離尺度。

      • 通過優(yōu)化,當(dāng)前嵌入向量被推到更靠近其近鄰,并進(jìn)一步遠(yuǎn)離其背景近鄰。

      引入的過程產(chǎn)生的表示形式支持下游計(jì)算機(jī)視覺任務(wù)。
         關(guān)鍵成就   

      在以下方面,本地聚合明顯優(yōu)于其他架構(gòu):

      目標(biāo)識(shí)別:經(jīng)過 LA 培訓(xùn)的 ResNet-50 在 ImageNet 上,達(dá)到了 60.2% 的 top-1準(zhǔn)確性,高于直接在監(jiān)督任務(wù)上進(jìn)行訓(xùn)練的 AlexNet ;

      場(chǎng)景分類: LA 訓(xùn)練的 ResNet-50 在 Places 數(shù)據(jù)集,達(dá)到了 50.1% 的精度,展現(xiàn)了其強(qiáng)大的遷移學(xué)習(xí)性能。

      目標(biāo)檢測(cè):在 PASCAL 檢測(cè)任務(wù)的無監(jiān)督轉(zhuǎn)移學(xué)習(xí)中,取得了最先進(jìn)的性能(在ResNet-50 上的平均精度為 69.1%)。


         所獲榮譽(yù)   

      該論文在計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議 ICCV 2019 中,收獲了最佳論文獎(jiǎng)。
         后續(xù)研究   

      探索使用基于非局部流形學(xué)習(xí)的先驗(yàn)檢測(cè)相似性的可能性。

      通過分析學(xué)習(xí)的多個(gè)步驟中的代表變化來改善差異檢測(cè)。

      將 LA 目標(biāo)應(yīng)用于其他領(lǐng)域,比如視頻和音頻。

      將 LA 程序與生物視覺系統(tǒng)進(jìn)行對(duì)比。

         應(yīng)用場(chǎng)景   

      這項(xiàng)研究對(duì)于計(jì)算機(jī)視覺研究而言,是將無監(jiān)督學(xué)習(xí)用于現(xiàn)實(shí)世界中的重要一步,且使物體檢測(cè)和對(duì)象識(shí)別系統(tǒng),能夠在不花費(fèi)昂貴的注釋費(fèi)用的情況下正常運(yùn)行。
         代碼獲得   

      在 GitHub 上提供了 Local Aggregation 算法的 TensorFlow 實(shí)現(xiàn)。
      地址:https://github.com/neuroailab/LocalAggregation

      9


         論文摘要   
      描述場(chǎng)景中發(fā)生的變化是一項(xiàng)重要的工作,但前提是生成的文本只關(guān)注語義相關(guān)的內(nèi)容。因此,需要將干擾因素(例如視點(diǎn)變化)與相關(guān)變化(例如物體移動(dòng))區(qū)進(jìn)行區(qū)分。

      此文提出一種新穎的雙重動(dòng)態(tài)注意力模型(DUDA),以執(zhí)行強(qiáng)大的變化文本描述。該模型學(xué)會(huì)了將干擾因素與語義變化區(qū)分開,通過對(duì)前后圖像進(jìn)行雙重關(guān)注來定位變化,并通過自適應(yīng)地關(guān)注必要的視覺輸入(例如「之前」),通過動(dòng)態(tài)揚(yáng)聲器準(zhǔn)確地用自然語言描述它們。(或之后的圖片)。

      為了進(jìn)一步探究此問題,我們收集了基于 CLEVR 引擎的 CLEVR-Change 數(shù)據(jù)集,其中包含 5 種類型的場(chǎng)景變更。我們以數(shù)據(jù)集為基準(zhǔn),并系統(tǒng)地研究了不同的變化類型和干擾因素的魯棒性。在描述變化和本地化方面都展示了 DUDA 模型的優(yōu)越性。

      結(jié)果表明此方法是通用的,它在沒有干擾因素的 Spot-the-Diff 數(shù)據(jù)集上,獲得了最先進(jìn)的性能。


         核心思想   

      研究團(tuán)隊(duì)提出了用于變化檢測(cè)和字幕說明的雙重動(dòng)態(tài)注意力模型(DUDA):

      • 該模型包括用于更改本地化的 Dual Attention 組件,和用于生成更改描述的 Dynamic Speaker 組件。

      • 這兩個(gè)神經(jīng)網(wǎng)絡(luò)都是使用字幕級(jí)監(jiān)督進(jìn)行聯(lián)合訓(xùn)練的,并且沒有有關(guān)更改位置的信息。

      • 給出「之前」和「之后」圖像后,模型將檢測(cè)場(chǎng)景是否已更改;如果已改變,它將在兩個(gè)圖像上定位變化,然后生成一個(gè)描述變化的句子,該句子是基于圖像對(duì)在空間和時(shí)間上的信息。


      本文還介紹了一個(gè)新的 CLEVR-Change 數(shù)據(jù)集,該數(shù)據(jù)集:

      • 包含 8 萬個(gè)「之前 /之后」圖像對(duì);

      • 涵蓋 5 種場(chǎng)景變化類型,例如顏色或材質(zhì)變化,添加,放置或移動(dòng)對(duì)象;

      • 包括僅具有干擾因素的圖像對(duì)(即照明/視點(diǎn)變化)和具有干擾因素和語義相關(guān)場(chǎng)景變化的圖像。

         關(guān)鍵成就   

      引入新的 CLEVR-Change 基準(zhǔn)測(cè)試,可以幫助研究團(tuán)體訓(xùn)練新模型,以用于:

      • 當(dāng)視點(diǎn)移動(dòng)時(shí),局部場(chǎng)景發(fā)生的變化;

      • 正確引用復(fù)雜場(chǎng)景中的物體;

      • 定義視點(diǎn)移動(dòng)時(shí)物體之間的對(duì)應(yīng)關(guān)系。


      提出一個(gè)更改文字描述的 DUDA 模型,當(dāng)在 CLEVR-Change 數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),該模型在以下方面優(yōu)于所有場(chǎng)景更改類型的基準(zhǔn):

      • 總體句子流利度和與真實(shí)性的相似度(BLEU-4,METEOR,CIDEr 和 SPICE 度量);

      • 更改本地化(指向游戲評(píng)估)。


         所獲榮譽(yù)   

      該論文被計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議 ICCV 2019 ,提名為最佳論文獎(jiǎng)。
         后續(xù)研究   

      收集來自真實(shí)圖像的「之前 /之后」圖像對(duì)數(shù)據(jù)集,并包含語義上的顯著變化和干擾因素變化。
         應(yīng)用場(chǎng)景   

      DUDA 模型可以協(xié)助各種實(shí)際應(yīng)用,包括:更改醫(yī)學(xué)圖像中的跟蹤;設(shè)施監(jiān)控;航空攝影。

      10


         論文摘要   
      生成模型通常使用人工評(píng)估來評(píng)價(jià)其輸出的感知質(zhì)量。自動(dòng)化指標(biāo)是嘈雜的間接代理,因?yàn)樗鼈円蕾囉趩l(fā)式方法或預(yù)訓(xùn)練的嵌入。然而直到現(xiàn)在,直接的人類評(píng)估策略都是臨時(shí)的,既沒有標(biāo)準(zhǔn)化也沒有經(jīng)過驗(yàn)證。

      論文里進(jìn)行的工作,是為生成現(xiàn)實(shí)的判斷建立了一套黃金標(biāo)準(zhǔn)的人類方法。我們構(gòu)建了人類 eYe 感知評(píng)估(HYPE)基準(zhǔn)。

      該基準(zhǔn)是(1)基于感知的心理物理學(xué)研究;(2)在模型的隨機(jī)采樣輸出的不同集合之間是可靠的;(3)能夠產(chǎn)生可分離的模型性能;以及(4)在成本和時(shí)間上具有很高的效益。

      我們介紹了兩種變量:一種在自適應(yīng)時(shí)間約束下測(cè)量視覺感知,以確定模型輸出呈現(xiàn)真實(shí)閾值(例如 250ms),另一個(gè)代價(jià)更小的變量,它在沒有時(shí)間限制的情況下,可以在假的和真實(shí)圖像上,測(cè)量人為錯(cuò)誤率。

      我們使用 CelebA,F(xiàn)FHQ,CIFAR-10 和 ImageNet 這四個(gè)數(shù)據(jù)集,通過六個(gè)最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)和兩種采樣技術(shù),對(duì)有條件和無條件圖像生成進(jìn)行 HYPE 測(cè)試。我們發(fā)現(xiàn) HYPE 可以跟蹤訓(xùn)練期間的模型改進(jìn),并且通過引導(dǎo)抽樣驗(yàn)證了 HYPE 排名是一致且可重復(fù)的。
         核心思想   

      由于自動(dòng)度量標(biāo)準(zhǔn)在高維問題上不準(zhǔn)確,并且人工評(píng)估不可靠且過度依賴任務(wù)設(shè)計(jì),因此需要用于評(píng)估生成模型的系統(tǒng)性黃金標(biāo)準(zhǔn)基準(zhǔn)。

      為了解決這個(gè)問題,研究人員介紹了基準(zhǔn) Human eYPerceptual Evaluation(HYPE),以及評(píng)估的方法有兩種:

      • 計(jì)算一個(gè)人需要多少時(shí)間來區(qū)分特定模型生成的真實(shí)圖像和偽圖像:花費(fèi)的時(shí)間越長(zhǎng),模型越好。

      • 測(cè)量不受時(shí)間限制的人為錯(cuò)誤率:得分高于 50% 表示生成的偽圖像看起來比真實(shí)圖像更真實(shí)。

         關(guān)鍵成就   
      引入用于評(píng)估生成模型的黃金基準(zhǔn):
      • 依據(jù)于心理物理學(xué)研究;

      • 可靠而且一致性好;

      • 能夠針對(duì)不同模型產(chǎn)生統(tǒng)計(jì)上可分離的結(jié)果;

      • 在成本和時(shí)間上具有高效率。

         所獲榮譽(yù)   

      該論文被選做人工智能頂級(jí)會(huì)議 NeurIPS 2019 的口頭報(bào)告。
         后續(xù)研究   

      將 HYPE 擴(kuò)展到其他生成任務(wù),包括文本,音樂和視頻生成。
         代碼獲得   
      作者已經(jīng)在線部署了 HYPE,任何研究人員都可以使用 Mechanical Turk 上載模型并檢索 HYPE 分?jǐn)?shù)。地址:https://hype.stanford.edu/
      參考資料:https://www./top-ai-vision-research-papers-2019/
      —— 完 ——

      掃描二維碼,加入討論群

      獲得更多優(yōu)質(zhì)數(shù)據(jù)集

      了解人工智能落地應(yīng)用

      關(guān)注頂會(huì)&論文

      回復(fù)「讀者」了解更多

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多