乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      聲音與視覺共舞——淺析ECCV18 DeepMind論文《Look, Listen and Learn》

       AiChinaTech 2019-08-27

      背景

      聲音和圖像是視頻中最重要的兩類基礎(chǔ)信息,能反映視頻中出現(xiàn)的主要內(nèi)容。以往大量的視頻內(nèi)容分析研究都是基于聲音和視覺特征來展開,其中很多研究工作會基于聲音視覺多模態(tài)特征來進行語義建模。人們清楚地意識到聲音和視覺特征直接存在著某種對應(yīng)關(guān)系,因為當某種語義內(nèi)容在視頻中出現(xiàn)時,其相應(yīng)的視覺圖像和聲音必然相伴出現(xiàn),那么該如何利用這個對應(yīng)關(guān)系來幫助我們進行視頻語義內(nèi)容分析與識別呢?

      讓我們先來看看當前機器學習與視頻分析研究的痛點。機器學習按照對樣本的標注要求不同可分為有監(jiān)督和無監(jiān)督兩大類。隨著深度學習的興起,基于大量標注樣本訓(xùn)練的深度網(wǎng)絡(luò)模型在各領(lǐng)域中都取得了遠超其它模型的準確率,確立了主流地位。但是這一方法最大的缺點是需要大量的標注樣本,樣本標注是一項很高成本的工作,需要耗費大量的人力資源,使人工智能成為真正基于人工的智能。在視頻內(nèi)容分析領(lǐng)域,為了達到識別視頻內(nèi)容的目的,也需要對視頻進行大量的樣本標注,這些標注包括目標、語義在時間空間上出現(xiàn)的位置、類別標簽等,非常繁瑣。如何能夠減少對標注數(shù)據(jù)的依賴一直是一個機器學習的重要研究方向。

      回到先前的問題,既然視頻中的視覺和聲音之間存在著對應(yīng)關(guān)系,那么是否可以用這個對應(yīng)關(guān)系來解決數(shù)據(jù)的標注問題,從而減少對人工標注的依賴呢?DeepMind大膽的提出了這一設(shè)想,通過視覺和聲音的對應(yīng)實現(xiàn)它們之間的互標注,不需要人工標注,就可以獲得大量的帶有自標注對應(yīng)關(guān)系的聲音視覺樣本,提供給深度網(wǎng)絡(luò)進行訓(xùn)練,從而實現(xiàn)視頻中相關(guān)事件的檢測識別。

      方法

      IMG_256

      IMG_257

      IMG_258

      數(shù)據(jù)

      以上網(wǎng)絡(luò)通過如下的方式產(chǎn)生正負樣本對:負樣本對來自于兩段不同視頻中隨機選取的圖像幀和聲音片段,正樣本對來自于聲音片段和同一視頻中對應(yīng)該聲音時間中點處的圖像幀。訓(xùn)練數(shù)據(jù)集規(guī)模為40萬段時長為10秒的視頻,來自于Flickr-SoundNetKinetics-Sounds數(shù)據(jù)集。

      實驗結(jié)果

      IMG_259

      IMG_260

      作者還給出了訓(xùn)練聲音視覺對應(yīng)網(wǎng)絡(luò)中得到的視覺子網(wǎng)絡(luò)和聲音子網(wǎng)絡(luò)模型在視覺分類和聲音分類任務(wù)中的性能,并與現(xiàn)有算法進行了比較。在聲音分類benchmark數(shù)據(jù)集ESC-50DCASE上本文的聲音子網(wǎng)絡(luò)取得了最好的結(jié)果,如表2所示。圖像分類在benchmark數(shù)據(jù)集ImageNet上本文的視覺子網(wǎng)絡(luò)取得了與當前最好的自監(jiān)督學習算法相同的結(jié)果,如表3所示。

      IMG_261

      IMG_262

      通過以上網(wǎng)絡(luò)和學習方式,究竟學到了什么內(nèi)容?作者給出了直觀的實例,選取視覺子網(wǎng)絡(luò)pool4層響應(yīng)最高的各類的5個樣本(圖3),并將對應(yīng)的conv_2層響應(yīng)熱力圖顯示出來(圖4),可見網(wǎng)絡(luò)能夠在視覺概念相關(guān)區(qū)域獲得高響應(yīng),表明學習是有效的,并且該網(wǎng)絡(luò)對聲音源具有定位能力。

      IMG_263

      IMG_264

      結(jié)論與討論

      本文利用聲音視覺對應(yīng)關(guān)系提出了一種深度網(wǎng)絡(luò),可免除對樣本的標注,通過自監(jiān)督學習,實現(xiàn)視頻內(nèi)容的檢測分類。實驗表明其在聲音分類上的效果超越其他算法,在圖像分類上的效果與以往最佳自監(jiān)督算法持平。

      本文算法在聲音分類上的優(yōu)異表現(xiàn)表明,視覺特征在聲音特征的相關(guān)性使其在描述聲音特征中起到了幫助作用。同時本文算法在圖像分類上的表現(xiàn)也表明聲音特征對圖像特征描述也存在有效的幫助。目前視覺特征僅采用了聲音片段對應(yīng)的圖像序列中的一個采樣幀作為輸入,尚無法完全反映聲音和圖像之間在時間上的對應(yīng)關(guān)系,如能利用聲音對應(yīng)的整個圖像序列作為視覺輸入,將可能進一步利用聲音和視覺之間的并發(fā)性,提升模型效果。

        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多