乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      20大熱門項(xiàng)目告訴你,計(jì)算機(jī)視覺未來(lái)的五大趨勢(shì)

       英俊好男人書館 2019-04-12

      隨著深度學(xué)習(xí)的進(jìn)步、計(jì)算存儲(chǔ)的擴(kuò)大、可視化數(shù)據(jù)集的激增,計(jì)算機(jī)視覺方面的研究在過(guò)去幾年蓬勃發(fā)展。在自動(dòng)駕駛汽車、醫(yī)療保健、零售、能源、語(yǔ)言學(xué)等諸多領(lǐng)域,計(jì)算機(jī)視覺的應(yīng)用都越來(lái)越廣。

      我將在本文中介紹 2018 年主導(dǎo)了計(jì)算機(jī)視覺研究的 5 個(gè)主要趨勢(shì)。詳盡回顧太難,此處只會(huì)分享這個(gè)領(lǐng)域中令我印象深刻的成就。

      1?—?合成數(shù)據(jù)

      合成數(shù)據(jù),即人工合成、用來(lái)訓(xùn)練深度學(xué)習(xí)模型的數(shù)據(jù),在 2018 年的計(jì)算機(jī)視覺研究領(lǐng)域絕對(duì)是重頭戲。例如這個(gè) SUNCG 數(shù)據(jù)集 被用于模擬室內(nèi)環(huán)境,這個(gè) Cityscapes 數(shù)據(jù)集被用于駕駛和導(dǎo)航,這個(gè)合成人類的 SURREAL 數(shù)據(jù)集 被用于學(xué)習(xí)姿勢(shì)估計(jì)和追蹤。讓我們一起來(lái)過(guò)一遍 2018 年利用合成數(shù)據(jù)的最佳成果們:

      • 在 How Well Should You Label (你該標(biāo)記得多好) 中, 作者著眼于為了從現(xiàn)代 CNN 架構(gòu)中得到良好的分割質(zhì)量,對(duì)訓(xùn)練標(biāo)簽的質(zhì)量要求有多低。 這很重要,因?yàn)楹铣蓴?shù)據(jù)通常以其像素完美的質(zhì)量而聞名。 作者在 Auto City 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明最終的分割質(zhì)量確實(shí)與標(biāo)記所花費(fèi)的時(shí)間量密切相關(guān),但與每個(gè)標(biāo)簽的質(zhì)量無(wú)關(guān)。

      • Soccer on Your Tabletop (桌面上的足球) 提出了一個(gè)可以拍攝足球比賽的視頻流并將其轉(zhuǎn)換為移動(dòng) 3D 重建的系統(tǒng),該重建可被投影到桌面上并使用增強(qiáng)現(xiàn)實(shí)設(shè)備進(jìn)行觀看。系統(tǒng)提取運(yùn)動(dòng)員的邊界框,使用姿勢(shì)和深度估計(jì)模型分析人物圖形,最終得到非常精確的3D場(chǎng)景重建。

      • 現(xiàn)有的大多特征學(xué)習(xí)方法都缺乏人類那樣同時(shí)從不同信息源學(xué)習(xí)的能力。 Cross-Domain Self-supervised Multi-task Feature Learning(跨領(lǐng)域自監(jiān)督多任務(wù)特征學(xué)習(xí)) 使用合成圖像通過(guò)提出一個(gè)原始的多任務(wù)深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)解決這個(gè)差距,該網(wǎng)絡(luò)使用合成圖像來(lái)更好地學(xué)習(xí)跨模態(tài)設(shè)置中的視覺表示。通過(guò)合成圖像訓(xùn)練網(wǎng)絡(luò)大大減少了多任務(wù)學(xué)習(xí)所需的往往昂貴且耗時(shí)的數(shù)據(jù)注釋。為了彌合真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之間的跨域差距,在無(wú)監(jiān)督的特征級(jí)域適應(yīng)方法中采用對(duì)抗性學(xué)習(xí),增強(qiáng)了在視覺特征知識(shí)到現(xiàn)實(shí)世界任務(wù)的遷移方面的表現(xiàn)。

      • Training Deep Networks with Synthetic Data (用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò)) 提出了一種依賴合成數(shù)據(jù)的域隨機(jī)化訓(xùn)練用于真實(shí)物體檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的精確方法。域隨機(jī)化通過(guò)刻意和隨機(jī)地干擾環(huán)境的紋理來(lái)迫使網(wǎng)絡(luò)聚焦并識(shí)別對(duì)象的主要特征,從而減少對(duì)高質(zhì)量模擬數(shù)據(jù)集的需求。為了增強(qiáng)這一過(guò)程的性能,會(huì)進(jìn)行結(jié)合合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的額外訓(xùn)練,從而彌合現(xiàn)實(shí)差距、得到更好的性能。論文還提出了不同的方法來(lái)發(fā)揮合成數(shù)據(jù)的潛力,認(rèn)為這一領(lǐng)域?qū)⒃谖磥?lái)幾年進(jìn)一步發(fā)展。

      • 2?—?視覺問(wèn)答

      視覺問(wèn)答(Visual question answering,VQA)是一種結(jié)合計(jì)算機(jī)視覺和自然語(yǔ)言處理的新問(wèn)題。通常涉及到給計(jì)算機(jī)展示一張圖片,讓計(jì)算機(jī)回答關(guān)于圖片的問(wèn)題。答案可以是以下任何一種形式:一個(gè)單詞,一個(gè)詞組,是/否,選擇題答案,或者是填空題答案。

      諸如 DAQUAR, Visual7W, COCO-QA, VQA 之類的多種數(shù)據(jù)集都致力于解決這項(xiàng)任務(wù). 讓我們同樣來(lái)看看視覺問(wèn)答領(lǐng)域的今年最佳:

      • Embodied QA 以創(chuàng)建完全智能代理為目標(biāo),這些代理可以主動(dòng)感知,在基于環(huán)境的對(duì)話中自然交流、表現(xiàn)和執(zhí)行命令。通過(guò)目標(biāo)驅(qū)動(dòng)的 3D 設(shè)置智能導(dǎo)航,代理被要求基于對(duì)象識(shí)別和視覺定位和理解來(lái)回答問(wèn)題。 有趣的是,該代理僅使用自我中心視覺來(lái)導(dǎo)航其周圍環(huán)境。這意味著代理沒有提供地圖,只能通過(guò)原始感官輸入(像素和單詞)進(jìn)行訓(xùn)練,并且必須依靠常識(shí)來(lái)導(dǎo)航不熟悉的環(huán)境。

      • 標(biāo)準(zhǔn)的 VAQ 模型不如人類自然互動(dòng)那樣采樣高效、簡(jiǎn)要,而是被動(dòng)地依賴于大型靜態(tài)數(shù)據(jù)集。Learning by asking questions 通過(guò)引入模仿自然學(xué)習(xí)的更具互動(dòng)性的 VQA 模型填補(bǔ)了這一研究空白。 在這篇文章中,通過(guò)評(píng)估其先前獲得的知識(shí)并詢問(wèn)相關(guān)的好問(wèn)題來(lái)最大化來(lái)自發(fā)送到 oracle 的每個(gè)圖像-問(wèn)題對(duì)學(xué)習(xí)信號(hào),訓(xùn)練代理像人一樣學(xué)習(xí)。 該論文還展示了交互式提問(wèn)如何顯著減少冗余和訓(xùn)練所需樣本,以實(shí)現(xiàn)準(zhǔn)確率提高40%。

      • Inverse Visual QA (iVQA) 連接了其他旨在通過(guò)專注于開發(fā)視覺定位來(lái)提高標(biāo)準(zhǔn) VQA 模型性能的模型。本文顛倒了流行的 VQA 任務(wù),目標(biāo)是在給定圖像/答案對(duì)的情況下生成問(wèn)題。標(biāo)準(zhǔn) VQA 的學(xué)習(xí)偏差破壞了評(píng)估過(guò)程。iVQA 使用部分生成的問(wèn)題,對(duì)應(yīng)于圖像-答案對(duì)的偏差較小的學(xué)習(xí)先驗(yàn),以實(shí)現(xiàn)更多的視覺定位。

      • Interactive QA 致力于解決標(biāo)準(zhǔn) VAQ 模型的一個(gè)短板:通常是被動(dòng)的,不能訓(xùn)練能夠在其環(huán)境中導(dǎo)航、交互和執(zhí)行任務(wù)的完全智能的代理。該模型使用具有語(yǔ)義空間記憶的多級(jí)控制器方法,收集模擬真實(shí)場(chǎng)景的豐富數(shù)據(jù)集和廣泛的問(wèn)題以評(píng)估模型。它推動(dòng)標(biāo)準(zhǔn) VQA 朝著創(chuàng)建完全視覺智能代理的最終目標(biāo)邁進(jìn)。

      • 有效地評(píng)估當(dāng)前最先進(jìn)的 VQA 模型的性能并防止它們依賴有偏差的訓(xùn)練先驗(yàn)是一個(gè)仍在開發(fā)中的領(lǐng)域。為了這一目標(biāo),Grounded Visual QA 模型提供了一種新方法,可以直接分離從合理的先前答案中識(shí)別出的對(duì)象,從而迫使模型更多地去視覺定位。從該報(bào)告的優(yōu)異成果以及當(dāng)前社區(qū)對(duì)這一研究領(lǐng)域的關(guān)注來(lái)看,未來(lái)用創(chuàng)新方法進(jìn)一步推進(jìn) VQA 模型很有希望。

      • 3?—?域適應(yīng)

      2018年有一些特定的研究方向,一個(gè)是域適應(yīng)。該領(lǐng)域?qū)嶋H上與合成數(shù)據(jù)密切相關(guān)。它解決了為監(jiān)督學(xué)習(xí)收集標(biāo)記數(shù)據(jù)集并確保數(shù)據(jù)足夠可靠和多樣化這一巨大挑戰(zhàn)。 這個(gè)問(wèn)題的本質(zhì)是,我們?nèi)绾问褂靡环N數(shù)據(jù)來(lái)讓網(wǎng)絡(luò)能處理不同的數(shù)據(jù)。

      • Unsupervised Domain Adaptation with Similarity Learning(用相似度學(xué)習(xí)實(shí)現(xiàn)無(wú)監(jiān)督域適應(yīng) 使用對(duì)抗性網(wǎng)絡(luò)處理域適應(yīng)。作者讓一個(gè)網(wǎng)絡(luò)從標(biāo)記的源域和另一個(gè)網(wǎng)絡(luò)中提取特征,以實(shí)現(xiàn)從一個(gè)未標(biāo)記的目標(biāo)域中提取具有相似但不同數(shù)據(jù)分布的特征。訓(xùn)練模型以將目標(biāo)原型與所有其他原型區(qū)分開來(lái)的分類是不同的。為了標(biāo)記來(lái)自目標(biāo)域的圖像,作者將圖像的嵌入與來(lái)自源域的原型圖像的嵌入進(jìn)行比較,然后分配其最鄰近標(biāo)簽。

      • Image to Image Translation for Domain Adaptation (域適應(yīng)的圖像到圖像轉(zhuǎn)換 研究用于圖像分割的域適應(yīng),其廣泛用于自動(dòng)駕駛汽車,醫(yī)學(xué)成像和許多其他領(lǐng)域。從根本上來(lái)說(shuō),這一域自適應(yīng)技術(shù)必須找到從源數(shù)據(jù)分布到目標(biāo)數(shù)據(jù)分布的映射結(jié)構(gòu)。該方法使用3種主要技術(shù):(i)domain-agnostic feature extraction(從源域和目標(biāo)域提取的特征的分布無(wú)法區(qū)分),(ii)domain-specific reconstruction(嵌入可以被解碼回源域和目標(biāo)域 ),和(iii)cycle consistency(正確學(xué)習(xí)映射)。

      • Conditional GAN for Structured Domain Adaptation (用于結(jié)構(gòu)化域適應(yīng)的條件 GAN 提供了一種新方法,通過(guò)結(jié)構(gòu)化域自適應(yīng)方法克服語(yǔ)義分割模型中跨域差異的挑戰(zhàn)。 與無(wú)監(jiān)督域自適應(yīng)不同,該方法不假設(shè)存在跨域公共特征空間,而是采用條件生成器和鑒別器。因此,條件 GAN 被集成到 CNN 框架中,遷移標(biāo)記的合成圖像域到未標(biāo)記的真實(shí)圖像域。該方法的結(jié)果優(yōu)于以前的模型,凸顯了合成數(shù)據(jù)集在推進(jìn)視覺任務(wù)方面不斷增長(zhǎng)的潛力。

      • 訓(xùn)練基于深度學(xué)習(xí)的模型依賴大量帶注釋的數(shù)據(jù)集需要大量資源。盡管在許多視覺識(shí)別任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能,但跨域差異仍然是一個(gè)巨大的挑戰(zhàn)。為了跨域遷移知識(shí), Maximum Classifier Discrepancy for Unsupervised Domain Adaptation 使用新穎的對(duì)抗性學(xué)習(xí)方法進(jìn)行域適應(yīng),而不需要來(lái)自目標(biāo)域的任何標(biāo)記信息。 據(jù)觀察,這種方法最小化來(lái)自目標(biāo)域的樣本的兩個(gè)分類器的概率估計(jì)之間的差異,可以產(chǎn)生用于從分類到語(yǔ)義分割的各種任務(wù)的類判別特征。

      • 4?—?生成對(duì)抗網(wǎng)絡(luò)

      2018 年對(duì)于計(jì)算機(jī)視覺最成功的生成模型 - 生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)說(shuō)無(wú)疑是重要的一年。 讓我們來(lái)欣賞一些改進(jìn) GAN 模型的本年度最佳作品:

      • 條件 GANs 已經(jīng)廣泛用于圖像建模,但它們對(duì)于風(fēng)格遷移也非常有用。尤其是它們可以學(xué)習(xí)與特定圖像元素相對(duì)應(yīng)的顯著特征,然后改變它們。在PairedCycleGAN for Makeup中,作者們提出了一個(gè)圖片妝容修整的框架。他們?yōu)椴煌拿娌拷M件訓(xùn)練各自的生成器并單獨(dú)應(yīng)用它們,用不同的網(wǎng)絡(luò)提取面部要素。

      • Eye Image Synthesis with Generative Models(生成模型的眼睛圖像合成) 著眼于生成人眼圖像的問(wèn)題。 這是一個(gè)有趣的用例,因?yàn)槲覀兛梢允褂蒙傻难劬?lái)解決視線估計(jì)問(wèn)題——一個(gè)人在看什么? 作者使用眼形合成的概率模型和 GAN 架構(gòu)來(lái)生成遵循該模型的眼睛。

      • Generative Image In-painting with Contextual Attention(基于內(nèi)容感知生成模型的圖像修復(fù)) 探討了填補(bǔ)圖像空白這一挑戰(zhàn)性問(wèn)題。通常,要修復(fù)圖像,我們需要了解基礎(chǔ)場(chǎng)景。而這種方法使用 GAN 模型,使用周圍圖像中的特征來(lái)顯著改善生成。

      • 當(dāng)前最先進(jìn)的基于 GAN 的文本到圖像生成模型僅在句子級(jí)別編碼文本描述,并忽略能夠改善生成圖像質(zhì)量的單詞級(jí)別的細(xì)粒度信息。AttnGAN 提出了一種新穎的詞級(jí)注意力機(jī)制,在制作復(fù)雜場(chǎng)景時(shí)效果更贊。

      • 和普遍的看法不同的是,神經(jīng)網(wǎng)絡(luò)的成功主要來(lái)自于他們從數(shù)據(jù)中學(xué)習(xí)的強(qiáng)大能力,Deep Image Prior(深度圖像先驗(yàn)) 展示了網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于建立良好的圖像先驗(yàn)的重要性。本文提出了一種作為成像任務(wù)先驗(yàn)的解碼網(wǎng)絡(luò)。有趣的是,作者展示了在任何學(xué)習(xí)之前,生成器網(wǎng)絡(luò)就足以捕獲大量的低級(jí)圖像統(tǒng)計(jì)數(shù)據(jù)。作者還使用該方法通過(guò)產(chǎn)生所謂的自然預(yù)圖像(natural pre-images)來(lái)研究保留在網(wǎng)絡(luò)的不同級(jí)別的信息內(nèi)容。同樣有意思的是,使用深度圖像先驗(yàn)作為正則項(xiàng),從非常深的層級(jí)獲得的預(yù)圖像中仍然能獲取大量信息。

      • 盡管 GANs 很成功,但其鑒別器網(wǎng)絡(luò)作為普通監(jiān)督任務(wù)(如語(yǔ)義分割)的通用損失函數(shù)并不算很成功。Matching Adversarial Networks(匹配對(duì)抗網(wǎng)絡(luò)) 強(qiáng)調(diào)了背后的原因,即損失函數(shù)不直接依賴生成器訓(xùn)練期間的真實(shí)值(ground truth)標(biāo)記,這導(dǎo)致從數(shù)據(jù)分布中隨機(jī)產(chǎn)生樣本而不以監(jiān)督方式關(guān)聯(lián)輸入-輸出關(guān)系。為了克服這個(gè)問(wèn)題,本文提出用匹配網(wǎng)絡(luò)替換鑒別器,同時(shí)考慮真實(shí)值輸出以及生成的示例——由孿生網(wǎng)絡(luò)架構(gòu)促成。

      • 5?—?3D 對(duì)象理解

      3D 對(duì)象理解對(duì)于深度學(xué)習(xí)系統(tǒng)成功解釋和指引現(xiàn)實(shí)世界至關(guān)重要。 例如,網(wǎng)絡(luò)或許能夠在街道圖像中定位汽車,為其所有像素著色,并將其歸類為汽車。 但問(wèn)題在于它是否真的能夠理解圖像中的汽車相對(duì)于街道中的其他物體的位置。

      3D 對(duì)象理解涉及廣泛的研究領(lǐng)域,包括對(duì)象檢測(cè),對(duì)象跟蹤,姿態(tài)估計(jì),深度估計(jì),場(chǎng)景重建等。 讓我們來(lái)看看 2018 年該領(lǐng)域的主要論文:

      • Detect-and-Track 是 2017 年出現(xiàn)的最有前途的圖像分割方法之一 Mask R-CNN 的延伸。作者提出了一種 3D Mask R-CNN 架構(gòu),它使用時(shí)空卷積來(lái)提取特征并直接識(shí)別短片中的姿勢(shì)。 完整的架構(gòu)如下所示。 它在姿勢(shì)估計(jì)和人體追蹤方面實(shí)現(xiàn)了當(dāng)前最優(yōu)結(jié)果。

      • Pose-Sensitive Embeddings for Person Re-Identification 應(yīng)對(duì)了行人重識(shí)別(person re-identification)的挑戰(zhàn)。通常,這個(gè)問(wèn)題通過(guò)基于檢索的方法來(lái)解決,即求導(dǎo)查詢圖像與來(lái)自某個(gè)嵌入空間的存儲(chǔ)圖像之間的相似度度量。 這篇論文提出將姿勢(shì)信息直接嵌入到 CNN 中,并設(shè)計(jì)了一個(gè)無(wú)監(jiān)督的重排序新方法。架構(gòu)如下圖所示。

      • 3D Poses from a Single Image(基于單色圖像的 3D 姿勢(shì) ) 提出了一種姿勢(shì)估計(jì)的特別方法。它直接通過(guò)一種結(jié)合了姿勢(shì)估計(jì)、人體輪廓分割和網(wǎng)格生成的端到端卷積結(jié)構(gòu)生成人體的 3D 網(wǎng)格,關(guān)鍵點(diǎn)在于它使用了 SMPL,一種統(tǒng)計(jì)學(xué)身體形狀模型,為人體的形狀提供了良好的先驗(yàn)。 因此,它得以從一張單色圖像構(gòu)造人體的 3D 網(wǎng)格。

      • Flow Track (光流相關(guān)濾波) 則致力于對(duì)象追蹤問(wèn)題。它是相關(guān)濾波類方法(DCF,discriminative correlation filter)的擴(kuò)展,學(xué)習(xí)與對(duì)象相對(duì)應(yīng)的濾波并將其應(yīng)用于所有視頻幀。其模型體系結(jié)構(gòu)具有空間-時(shí)間注意力(spatial-temporal attention)機(jī)制,關(guān)注視頻中的不同時(shí)間幀。(譯者注:在 spatial attention 中,用余弦距離衡量,對(duì)空間位置上每一個(gè)待融合的點(diǎn)分配權(quán)重:和當(dāng)前幀越相似,權(quán)重越大,反之越小;這么做的問(wèn)題是當(dāng)前幀的權(quán)重永遠(yuǎn)是最大的,于是作者借鑒 SENet 的思想設(shè)計(jì)了時(shí)間權(quán)重 temporal attention,即把每一幀看做一個(gè)channel,設(shè)計(jì)一個(gè)質(zhì)量判斷網(wǎng)絡(luò),網(wǎng)絡(luò)輸出的結(jié)果是每一幀的質(zhì)量打分。temporal attention 和 spatial attention 結(jié)合,實(shí)現(xiàn) feature map 的融合。)

      • 與上述的 Flow Track 相同,Correlation Tracking 也是用相關(guān)濾波處理對(duì)象追蹤。然而這種方法不使用深度神經(jīng)網(wǎng)絡(luò),相反,它包含可靠性信息 - 這意味著作者在目標(biāo)函數(shù)中添加了一項(xiàng),用于模擬學(xué)習(xí)過(guò)濾器的可靠性。

      希望你會(huì)喜歡這篇短評(píng)。 如果你有興趣探索更多,建議閱讀CVPR,ICLR, 以及機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最負(fù)盛名的會(huì)議——NeurIPS。

      原作:James Le  編譯&投稿:佑銘  編輯:重出江湖的小咪

      編譯來(lái)源: https://heartbeat./the-5-trends-that-dominated-computer-vision-in-2018-de38fbb9bd8

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多