乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      ?用雙流網(wǎng)絡(luò)也能學(xué)的又快又好?哈工大&微軟提出用于視覺(jué)語(yǔ)言理解的蒸餾雙編碼器模型,在多個(gè)多模態(tài)任務(wù)上實(shí)現(xiàn)又快又好的效果!

       我愛(ài)計(jì)算機(jī)視覺(jué) 2022-07-17 發(fā)布于江蘇

      詳細(xì)信息如下:

      • 論文地址:https:///abs/2112.08723

      • 代碼地址:https://github.com/kugwzk/Distilled-DualEncoder


            01      

      摘要

      本文提出了一個(gè)跨模態(tài)注意力蒸餾框架來(lái)訓(xùn)練用于視覺(jué)語(yǔ)言理解任務(wù)的雙編碼器模型,例如視覺(jué)推理和視覺(jué)問(wèn)答。雙編碼器模型比融合編碼器模型具有更快的推理速度,并且能夠在推理過(guò)程中對(duì)圖像和文本進(jìn)行預(yù)計(jì)算。然而,雙編碼器模型中使用的淺交互模塊不足以處理復(fù)雜的視覺(jué)語(yǔ)言理解任務(wù)。

      為了學(xué)習(xí)圖像和文本的深度交互,作者提出了跨模態(tài)注意力蒸餾,它使用融合編碼器模型的圖像到文本和文本到圖像的注意力分布來(lái)指導(dǎo)雙編碼器的訓(xùn)練模型。此外,作者表明 ,在預(yù)訓(xùn)練和微調(diào)階段應(yīng)用跨模態(tài)注意力蒸餾可以實(shí)現(xiàn)進(jìn)一步的改進(jìn)。實(shí)驗(yàn)結(jié)果表明,蒸餾后的雙編碼器模型在視覺(jué)推理、視覺(jué)entailment和視覺(jué)問(wèn)答任務(wù)方面取得了有競(jìng)爭(zhēng)力的性能,同時(shí)比融合編碼器模型具有更快的推理速度。

            02      

      Motivation

      視覺(jué)語(yǔ)言(VL)預(yù)訓(xùn)練模型學(xué)習(xí)了大規(guī)模圖像-文本對(duì)的跨模態(tài)表示,并且可以直接微調(diào)以適應(yīng)到各種下游 VL 任務(wù),例如視覺(jué)語(yǔ)言理解/分類(lèi)(視覺(jué)推理、視覺(jué)問(wèn)答等)和圖像文本檢索?;诳缒B(tài)交互的方法,這些模型可以分為兩類(lèi)。

      第一類(lèi)是融合編碼器模型,它采用有效但較少高效的Transformer編碼器,用于捕獲具有跨模態(tài)注意力的圖像和文本交互。該類(lèi)別的大多數(shù)模型依賴(lài)于現(xiàn)成的目標(biāo)檢測(cè)器來(lái)提取圖像區(qū)域特征,這進(jìn)一步阻礙了它們的效率。最近,ViLT放棄了檢測(cè)器,并使用 Vision Transformer 直接對(duì)圖像patch進(jìn)行編碼。


      它在提高效率的同時(shí),在 VL 理解和檢索任務(wù)上取得了有競(jìng)爭(zhēng)力的表現(xiàn)。然而,由于需要同時(shí)編碼圖像和文本,基于 Transformer 的跨模態(tài)交互仍然是效率瓶頸,限制了其在具有大量圖像或文本候選的任務(wù)中的應(yīng)用。

      第二類(lèi)作品,包括 CLIP和 ALIGN,采用雙編碼器架構(gòu)分別編碼圖像和文本??缒B(tài)交互通過(guò)淺層融合模塊建模,通常是多層感知器 (MLP) 網(wǎng)絡(luò)或點(diǎn)積,與融合編碼器模型中的 Transformer 編碼器相比,它非常輕。此外,分開(kāi)的編碼支持離線計(jì)算和緩存圖像和文本候選,這可以很好地?cái)U(kuò)展到大量候選。

      這些變化在理解和檢索任務(wù)中降低了更快的推理速度,使模型在現(xiàn)實(shí)生活中變得實(shí)用。雙編碼器模型在圖像文本檢索任務(wù)上取得了可喜的性能。雙編碼器模型在圖像文本檢索任務(wù)上取得了可喜的性能。然而,它們?cè)谛枰獜?fù)雜的跨模態(tài)推理的視覺(jué)語(yǔ)言理解任務(wù)上遠(yuǎn)遠(yuǎn)落后于融合編碼器模型,例如 NLVR2。

      在這項(xiàng)工作中,作者提出了一個(gè)跨模態(tài)注意力蒸餾框架來(lái)訓(xùn)練雙編碼器視覺(jué)語(yǔ)言模型。蒸餾后的雙編碼器模型在視覺(jué)語(yǔ)言理解任務(wù)中實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,其推理速度比融合編碼器模型快得多。

      除了軟標(biāo)簽蒸餾,作者還引入了跨模態(tài)注意力蒸餾作為雙編碼器模型(學(xué)生)的細(xì)粒度監(jiān)督,以更好地學(xué)習(xí)跨模態(tài)推理。具體來(lái)說(shuō),使用來(lái)自融合編碼器模型(教師)的圖像到文本和文本到圖像的注意力分布進(jìn)行蒸餾。

      本文的蒸餾框架可以應(yīng)用于預(yù)訓(xùn)練和微調(diào)階段。在預(yù)訓(xùn)練期間,將蒸餾目標(biāo)應(yīng)用于圖文對(duì)比學(xué)習(xí)和圖文匹配任務(wù)。在微調(diào)階段,將微調(diào)后的教師模型的特定任務(wù)知識(shí)轉(zhuǎn)移到學(xué)生模型中。

      作者在視覺(jué)語(yǔ)言理解任務(wù)和圖像文本檢索任務(wù)上評(píng)估本文的模型。實(shí)驗(yàn)結(jié)果表明,蒸餾的雙編碼器模型在視覺(jué)entailment、視覺(jué)推理和視覺(jué)問(wèn)答方面具有競(jìng)爭(zhēng)力,同時(shí)推理速度比融合算法快 3 倍以上。編碼器教師模型。


      此外,本文提出的跨模態(tài)注意力蒸餾還提高了檢索任務(wù)的性能,甚至在圖像檢索方面優(yōu)于教師模型。與其他潛在特征相比,跨模態(tài)注意力有助于雙編碼器模型學(xué)習(xí)更好的跨模態(tài)推理能力,在 VL 理解任務(wù)中取得顯著收益。此外,兩級(jí)蒸餾的模型比單級(jí)蒸餾的模型具有更好的性能。

            03      

      方法

      上圖展示了本文的用于訓(xùn)練雙編碼器模型的跨模態(tài)注意力蒸餾框架。作者采用融合編碼器模型作為教師,并引入跨模態(tài)注意力知識(shí)和軟標(biāo)簽來(lái)訓(xùn)練雙編碼器學(xué)生模型。蒸餾目標(biāo)適用于預(yù)訓(xùn)練和微調(diào)階段,并幫助雙編碼器模型學(xué)習(xí)不同模態(tài)的交互。

      3.1 Model Overview

      本文的蒸餾框架可以使用不同的融合編碼器模型作為教師。在這項(xiàng)工作中,本文采用 ViLT作為教師模型進(jìn)行實(shí)驗(yàn),因?yàn)樗?jiǎn)單高效。

      Input Representations

      給定一個(gè)圖像-文本對(duì) (v, t) 作為輸入,將圖像 分割成patch,其中 是patch的數(shù)量, (H, W) 是輸入圖像分辨率,(P, P) 是每個(gè)patch的分辨率,C 是通道數(shù)。

      輸入文本 t 被 WordPiece標(biāo)記為 M 個(gè)子詞token的序列,就像在 BERT 中一樣。然后,將特殊token 分別添加到圖像patch和文本子詞token序列中。

      線性投影圖像patch以獲得patch嵌入,最終的視覺(jué)輸入嵌入通過(guò)以下方式計(jì)算:


      其中 是線性投影,是可學(xué)習(xí)的 1D 位置嵌入,是視覺(jué)類(lèi)型嵌入,是文本輸入嵌入。
      文本輸入嵌入 是通過(guò)將詞嵌入、文本位置嵌入和文本類(lèi)型嵌入相加得到的:


      作為教師和學(xué)生模型的視覺(jué)和文本輸入。

      Teacher: Fusion-Encoder Model

      輸入表示concat為,然后將向量饋送到 L 層跨模態(tài) Transformer 編碼器以獲得上下文表示:


      其中??缒B(tài) Transformer 編碼器通過(guò)多頭注意力機(jī)制融合不同模態(tài)的表示。具體來(lái)說(shuō),對(duì)于第 l 層的每個(gè)頭a, ,注意力分布 通過(guò)以下方式計(jì)算:


      其中查詢(xún) 和鍵是通過(guò)分別使用參數(shù)線性投影上一層的隱藏狀態(tài)來(lái)獲得的。是注意力頭大小。最后一層的 token的輸出向量被饋送到特定于任務(wù)的層以獲得預(yù)測(cè)。

      Student: Dual-Encoder Model

      雙模型通過(guò)基于視覺(jué)和文本 Transformer 的編碼器分別對(duì)視覺(jué)嵌入 () 和文本嵌入 () 進(jìn)行編碼:


      最后一層的 token的輸出向量被用作圖像和文本的最終表示。作者采用淺層模塊 f 來(lái)融合這兩種表示。對(duì)于 VQA 等視覺(jué)語(yǔ)言理解任務(wù),模塊 f 是一個(gè) MLP 網(wǎng)絡(luò)。對(duì)于圖文檢索,使用點(diǎn)積函數(shù)來(lái)獲得圖文對(duì)的相似度分?jǐn)?shù)。

      3.2 Distillation Objectives

      Cross-Modal Attention Distillation

      為了改進(jìn)雙編碼器模型以捕獲圖像和文本的更深層次的交互,作者利用融合編碼器模型的跨模態(tài)注意力知識(shí)來(lái)指導(dǎo)雙編碼器模型的訓(xùn)練。具體來(lái)說(shuō),作者使用圖像到文本和文本到圖像的注意力分布來(lái)訓(xùn)練雙編碼器模型。

      融合編碼器教師模型通過(guò)多頭注意力機(jī)制捕獲跨模態(tài)交。整個(gè)注意力分布可以分為兩部分。作者使用 N 和 M 來(lái)表示圖像和文本輸入的長(zhǎng)度。第一部分是單模態(tài)注意力(),它對(duì)相同模態(tài)的token內(nèi)的交互進(jìn)行建模。

      第二部分是跨模態(tài)注意力,包括圖像到文本的注意力分布()和文本到圖像的注意力分布()??缒B(tài)注意力分布捕獲視覺(jué)和文本特征向量的交互。

      由于雙編碼器的單獨(dú)編碼僅模擬相同模態(tài)token的交互,因此作者引入跨模態(tài)注意力蒸餾以鼓勵(lì)雙編碼器模型模仿融合編碼器模型的圖像和文本對(duì)齊。雙編碼器模型 的交叉模態(tài)(圖像到文本和文本到圖像)注意力分布計(jì)算如下:


      其中是 selfattention 模塊的視覺(jué)查詢(xún)和鍵。是文本輸入的查詢(xún)和鍵。以相同的方式重新計(jì)算教師的跨模態(tài)注意力分布,而不是直接拆分原始的注意力分布。跨模態(tài)注意力蒸餾損失通過(guò)以下方式計(jì)算:


      其中是 Kullback-Leibler 散度。本文只遷移了教師模型最后一層的跨模態(tài)注意力知識(shí)。

      Soft Label Distillation

      除了模仿跨模態(tài)注意力分布之外,作者還使用教師模型的預(yù)測(cè)作為軟標(biāo)簽來(lái)改進(jìn)學(xué)生。軟標(biāo)簽損失計(jì)算如下:


      其中分別是學(xué)生和老師的預(yù)測(cè)logits

      3.3 Two-Stage Distillation Framework

      本文使用提出的知識(shí)蒸餾目標(biāo)在兩階段框架下訓(xùn)練雙編碼器學(xué)生模型,包括預(yù)訓(xùn)練蒸餾和微調(diào)蒸餾。在這兩個(gè)階段,融合編碼器模型幫助雙編碼器模型學(xué)習(xí)跨模態(tài)交互。


      如上表所示,作者根據(jù)任務(wù)的特點(diǎn)對(duì)模型進(jìn)行不同目標(biāo)的訓(xùn)練。

      3.3.1 Pre-Training Distillation

      在預(yù)訓(xùn)練期間,雙編碼器學(xué)生模型在大規(guī)模圖像-文本對(duì)上進(jìn)行訓(xùn)練,以學(xué)習(xí)具有圖像-文本匹配、圖像-文本對(duì)比和掩碼語(yǔ)言建模任務(wù)的通用跨模態(tài)表示。預(yù)訓(xùn)練的融合編碼器模型 ViLT用作教師模型。

      Image-Text Matching (ITM)

      圖文匹配的目標(biāo)是預(yù)測(cè)輸入的圖文是否匹配。在 ViLT之后,作者用 0.5 的概率替換匹配的圖像來(lái)構(gòu)建負(fù)對(duì)。作者在 ITM 輸入對(duì)上使用跨模態(tài)注意力蒸餾損失和軟標(biāo)簽損失來(lái)訓(xùn)練雙編碼器模型。

      Image-Text Contrastive Learning (ITC)

      作者通過(guò)batch內(nèi)負(fù)采樣引入對(duì)比損失,以?xún)?yōu)化視覺(jué)和文本表示的共享空間。給定一個(gè)batch的 N 個(gè)圖像-文本對(duì),可以獲得 N 個(gè)匹配對(duì)和 個(gè)負(fù)對(duì)。圖像-文本對(duì)比學(xué)習(xí)旨在從所有可能的配對(duì)中預(yù)測(cè)匹配的配對(duì)。

      融合編碼器模型需要對(duì)每一對(duì)進(jìn)行聯(lián)合編碼以獲得軟標(biāo)簽,這導(dǎo)致了二次時(shí)間復(fù)雜度。因此,作者只考慮在 N 個(gè)匹配對(duì)上計(jì)算的跨模態(tài)注意力分布。

      Masked Language Modeling (MLM)

      Masked Language Modeling的目標(biāo)是從所有其他未mask的token中恢復(fù)mask token。作者使用 BERT 中 15% 的mask概率。為了提高訓(xùn)練速度,作者使用ground truth標(biāo)簽來(lái)訓(xùn)練 MLM 任務(wù)的模型。

      3.3.2 Fine-Tuning Distillation

      在微調(diào)過(guò)程中,作者使用微調(diào)后的 ViLT 作為教師模型,并對(duì)下游任務(wù)數(shù)據(jù)進(jìn)行跨模態(tài)注意力蒸餾。

      Vision-Language Understanding

      對(duì)于視覺(jué)語(yǔ)言理解任務(wù),例如視覺(jué)推理和 VQA,作者使用跨模態(tài)注意力蒸餾和軟標(biāo)簽損失來(lái)微調(diào)學(xué)生模型。

      Image-Text Retrieval

      對(duì)于檢索任務(wù),作者在教師模型和ground truth標(biāo)簽的交叉模態(tài)注意力分布的監(jiān)督下訓(xùn)練學(xué)生,以進(jìn)行有效的訓(xùn)練。



            04      

      實(shí)驗(yàn)


      上表展示了本文方法中所用到的一些數(shù)據(jù)集。


      上表展示了三個(gè)任務(wù)的微調(diào)結(jié)果。與以前的雙編碼器模型(如 CLIP)相比,本文的模型在三個(gè)視覺(jué)語(yǔ)言理解任務(wù)中取得了更好的性能,將平均得分從 57.83 提高到 73.85。從上表可以看出,在預(yù)訓(xùn)練和微調(diào)階段執(zhí)行蒸餾都對(duì)雙編碼器模型做出了積極貢獻(xiàn)。與 ViLT 初始化的雙編碼器模型的直接微調(diào)相比,在微調(diào)期間使用跨模態(tài)注意力蒸餾帶來(lái)了顯著的改進(jìn)。


      除了視覺(jué)語(yǔ)言理解任務(wù)外,作者還在圖像文本檢索任務(wù)上評(píng)估了本文的方法。本文的雙編碼器學(xué)生模型經(jīng)過(guò)跨模態(tài)注意力蒸餾和對(duì)比損失的訓(xùn)練。上表報(bào)告了在 Flickr30K 上微調(diào)的模型的結(jié)果。

      本文的雙編碼器模型以更快的推理速度實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。該模型在圖像檢索方面甚至優(yōu)于融合編碼器教師模型 (ViLT)。此外,實(shí)驗(yàn)結(jié)果表明,跨模態(tài)注意力蒸餾也改進(jìn)了檢索任務(wù)的模型。


      作者評(píng)估了本文的雙編碼器模型和 ViLT 在視覺(jué)語(yǔ)言理解任務(wù)上的推理延遲。這兩個(gè)模型都在具有相同超參數(shù)的單個(gè) P100 GPU 上進(jìn)行評(píng)估。由于雙編碼器架構(gòu),作者的模型可以緩存圖像表示以減少冗余計(jì)算。不同任務(wù)的平均推理時(shí)間和緩存時(shí)間如上表所示。

      本文的雙編碼器模型在三個(gè)任務(wù)中實(shí)現(xiàn)了更快的推理速度。預(yù)計(jì)算圖像表示進(jìn)一步提高了推理速度,這對(duì)于現(xiàn)實(shí)生活中的大量圖像和文本非常有效。


      作者研究了蒸餾中使用的不同知識(shí)的影響。在微調(diào)期間對(duì)具有不同蒸餾損失的視覺(jué)語(yǔ)言理解任務(wù)進(jìn)行了實(shí)驗(yàn)。雙編碼器學(xué)生模型由 ViLT 直接初始化。上表說(shuō)明了跨任務(wù)的結(jié)果。

      首先,可以發(fā)現(xiàn)使用軟標(biāo)簽蒸餾比真實(shí)標(biāo)簽獲得更好的性能。然而,使用軟標(biāo)簽訓(xùn)練的模型在 NLVR2 任務(wù)上的準(zhǔn)確率仍然相對(duì)較低。作者進(jìn)一步結(jié)合了融合編碼器模型的中間表示,以提高雙編碼器模型的性能。本文使用隱藏狀態(tài)和不同的注意力分布進(jìn)行比較。

      在三個(gè)任務(wù)中,使用注意力分布比隱藏狀態(tài)帶來(lái)更多的改進(jìn)。作者進(jìn)一步探討了注意力分布的哪一部分更為關(guān)鍵,包括跨模態(tài)注意力和單模態(tài)注意力。模仿教師的跨模態(tài)注意力分布比單模態(tài)部分取得了更多的改進(jìn),這驗(yàn)證了跨模態(tài)交互對(duì)于視覺(jué)語(yǔ)言理解任務(wù)更為重要。

      作者還發(fā)現(xiàn),僅使用跨模態(tài)注意力分布比使用整個(gè)注意力分布(跨模態(tài) + 單模態(tài))表現(xiàn)更好。


      作者在教師和學(xué)生的最后一層執(zhí)行所提出的知識(shí)蒸餾方法。為了驗(yàn)證僅在最后一層提取的有效性,將其與逐層策略進(jìn)行比較。結(jié)果如上表所示。最后一層蒸餾策略在 NLVR2 和 SNLI-VE 任務(wù)上獲得了更好的性能。此外,僅使用最后一層的注意力知識(shí)需要較少的計(jì)算。因此,僅使用最后一層是執(zhí)行本文的跨模態(tài)注意力蒸餾的更實(shí)用的方法。


            05      

      總結(jié)

      在這項(xiàng)工作中,作者引入了一個(gè)跨模態(tài)注意力蒸餾框架來(lái)提高雙編碼器模型在視覺(jué)語(yǔ)言理解任務(wù)上的性能。采用融合編碼器模型的跨模態(tài)注意力知識(shí),包括圖像到文本和文本到圖像的注意力分布,來(lái)指導(dǎo)雙編碼器模型的訓(xùn)練。

      實(shí)驗(yàn)結(jié)果表明,蒸餾后的雙編碼器模型在 NLVR2、SNLI-VE 和 VQA 上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,同時(shí)具有比融合編碼器模型快得多的推理速度。

      參考資料

      [1]https:///abs/2112.08723
      [2]https://github.com/kugwzk/Distilled-DualEncoder

      END



      歡迎加入「視覺(jué)語(yǔ)言交流群??備注:VL



        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章