隨著深度學(xué)習(xí)的進(jìn)步、計(jì)算存儲(chǔ)的擴(kuò)大、可視化數(shù)據(jù)集的激增,計(jì)算機(jī)視覺方面的研究在過(guò)去幾年蓬勃發(fā)展。在自動(dòng)駕駛汽車、醫(yī)療保健、零售、能源、語(yǔ)言學(xué)等諸多領(lǐng)域,計(jì)算機(jī)視覺的應(yīng)用都越來(lái)越廣。 我將在本文中介紹 2018 年主導(dǎo)了計(jì)算機(jī)視覺研究的 5 個(gè)主要趨勢(shì)。詳盡回顧太難,此處只會(huì)分享這個(gè)領(lǐng)域中令我印象深刻的成就。 1?—?合成數(shù)據(jù)合成數(shù)據(jù),即人工合成、用來(lái)訓(xùn)練深度學(xué)習(xí)模型的數(shù)據(jù),在 2018 年的計(jì)算機(jī)視覺研究領(lǐng)域絕對(duì)是重頭戲。例如這個(gè) SUNCG 數(shù)據(jù)集 被用于模擬室內(nèi)環(huán)境,這個(gè) Cityscapes 數(shù)據(jù)集被用于駕駛和導(dǎo)航,這個(gè)合成人類的 SURREAL 數(shù)據(jù)集 被用于學(xué)習(xí)姿勢(shì)估計(jì)和追蹤。讓我們一起來(lái)過(guò)一遍 2018 年利用合成數(shù)據(jù)的最佳成果們:
視覺問(wèn)答(Visual question answering,VQA)是一種結(jié)合計(jì)算機(jī)視覺和自然語(yǔ)言處理的新問(wèn)題。通常涉及到給計(jì)算機(jī)展示一張圖片,讓計(jì)算機(jī)回答關(guān)于圖片的問(wèn)題。答案可以是以下任何一種形式:一個(gè)單詞,一個(gè)詞組,是/否,選擇題答案,或者是填空題答案。 諸如 DAQUAR, Visual7W, COCO-QA, VQA 之類的多種數(shù)據(jù)集都致力于解決這項(xiàng)任務(wù). 讓我們同樣來(lái)看看視覺問(wèn)答領(lǐng)域的今年最佳:
2018年有一些特定的研究方向,一個(gè)是域適應(yīng)。該領(lǐng)域?qū)嶋H上與合成數(shù)據(jù)密切相關(guān)。它解決了為監(jiān)督學(xué)習(xí)收集標(biāo)記數(shù)據(jù)集并確保數(shù)據(jù)足夠可靠和多樣化這一巨大挑戰(zhàn)。 這個(gè)問(wèn)題的本質(zhì)是,我們?nèi)绾问褂靡环N數(shù)據(jù)來(lái)讓網(wǎng)絡(luò)能處理不同的數(shù)據(jù)。
2018 年對(duì)于計(jì)算機(jī)視覺最成功的生成模型 - 生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)說(shuō)無(wú)疑是重要的一年。 讓我們來(lái)欣賞一些改進(jìn) GAN 模型的本年度最佳作品:
3D 對(duì)象理解對(duì)于深度學(xué)習(xí)系統(tǒng)成功解釋和指引現(xiàn)實(shí)世界至關(guān)重要。 例如,網(wǎng)絡(luò)或許能夠在街道圖像中定位汽車,為其所有像素著色,并將其歸類為汽車。 但問(wèn)題在于它是否真的能夠理解圖像中的汽車相對(duì)于街道中的其他物體的位置。 3D 對(duì)象理解涉及廣泛的研究領(lǐng)域,包括對(duì)象檢測(cè),對(duì)象跟蹤,姿態(tài)估計(jì),深度估計(jì),場(chǎng)景重建等。 讓我們來(lái)看看 2018 年該領(lǐng)域的主要論文:
希望你會(huì)喜歡這篇短評(píng)。 如果你有興趣探索更多,建議閱讀CVPR,ICLR, 以及機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最負(fù)盛名的會(huì)議——NeurIPS。 原作:James Le 編譯&投稿:佑銘 編輯:重出江湖的小咪 編譯來(lái)源: https://heartbeat./the-5-trends-that-dominated-computer-vision-in-2018-de38fbb9bd8 |
|
來(lái)自: 英俊好男人書館 > 《55互聯(lián)網(wǎng)十》