詳細(xì)信息如下:
01 摘要本文提出了一個(gè)跨模態(tài)注意力蒸餾框架來(lái)訓(xùn)練用于視覺(jué)語(yǔ)言理解任務(wù)的雙編碼器模型,例如視覺(jué)推理和視覺(jué)問(wèn)答。雙編碼器模型比融合編碼器模型具有更快的推理速度,并且能夠在推理過(guò)程中對(duì)圖像和文本進(jìn)行預(yù)計(jì)算。然而,雙編碼器模型中使用的淺交互模塊不足以處理復(fù)雜的視覺(jué)語(yǔ)言理解任務(wù)。 為了學(xué)習(xí)圖像和文本的深度交互,作者提出了跨模態(tài)注意力蒸餾,它使用融合編碼器模型的圖像到文本和文本到圖像的注意力分布來(lái)指導(dǎo)雙編碼器的訓(xùn)練模型。此外,作者表明 ,在預(yù)訓(xùn)練和微調(diào)階段應(yīng)用跨模態(tài)注意力蒸餾可以實(shí)現(xiàn)進(jìn)一步的改進(jìn)。實(shí)驗(yàn)結(jié)果表明,蒸餾后的雙編碼器模型在視覺(jué)推理、視覺(jué)entailment和視覺(jué)問(wèn)答任務(wù)方面取得了有競(jìng)爭(zhēng)力的性能,同時(shí)比融合編碼器模型具有更快的推理速度。 02 Motivation 視覺(jué)語(yǔ)言(VL)預(yù)訓(xùn)練模型學(xué)習(xí)了大規(guī)模圖像-文本對(duì)的跨模態(tài)表示,并且可以直接微調(diào)以適應(yīng)到各種下游 VL 任務(wù),例如視覺(jué)語(yǔ)言理解/分類(lèi)(視覺(jué)推理、視覺(jué)問(wèn)答等)和圖像文本檢索?;诳缒B(tài)交互的方法,這些模型可以分為兩類(lèi)。 第一類(lèi)是融合編碼器模型,它采用有效但較少高效的Transformer編碼器,用于捕獲具有跨模態(tài)注意力的圖像和文本交互。該類(lèi)別的大多數(shù)模型依賴(lài)于現(xiàn)成的目標(biāo)檢測(cè)器來(lái)提取圖像區(qū)域特征,這進(jìn)一步阻礙了它們的效率。最近,ViLT放棄了檢測(cè)器,并使用 Vision Transformer 直接對(duì)圖像patch進(jìn)行編碼。
第二類(lèi)作品,包括 CLIP和 ALIGN,采用雙編碼器架構(gòu)分別編碼圖像和文本??缒B(tài)交互通過(guò)淺層融合模塊建模,通常是多層感知器 (MLP) 網(wǎng)絡(luò)或點(diǎn)積,與融合編碼器模型中的 Transformer 編碼器相比,它非常輕。此外,分開(kāi)的編碼支持離線計(jì)算和緩存圖像和文本候選,這可以很好地?cái)U(kuò)展到大量候選。 這些變化在理解和檢索任務(wù)中降低了更快的推理速度,使模型在現(xiàn)實(shí)生活中變得實(shí)用。雙編碼器模型在圖像文本檢索任務(wù)上取得了可喜的性能。雙編碼器模型在圖像文本檢索任務(wù)上取得了可喜的性能。然而,它們?cè)谛枰獜?fù)雜的跨模態(tài)推理的視覺(jué)語(yǔ)言理解任務(wù)上遠(yuǎn)遠(yuǎn)落后于融合編碼器模型,例如 NLVR2。 在這項(xiàng)工作中,作者提出了一個(gè)跨模態(tài)注意力蒸餾框架來(lái)訓(xùn)練雙編碼器視覺(jué)語(yǔ)言模型。蒸餾后的雙編碼器模型在視覺(jué)語(yǔ)言理解任務(wù)中實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,其推理速度比融合編碼器模型快得多。 除了軟標(biāo)簽蒸餾,作者還引入了跨模態(tài)注意力蒸餾作為雙編碼器模型(學(xué)生)的細(xì)粒度監(jiān)督,以更好地學(xué)習(xí)跨模態(tài)推理。具體來(lái)說(shuō),使用來(lái)自融合編碼器模型(教師)的圖像到文本和文本到圖像的注意力分布進(jìn)行蒸餾。 本文的蒸餾框架可以應(yīng)用于預(yù)訓(xùn)練和微調(diào)階段。在預(yù)訓(xùn)練期間,將蒸餾目標(biāo)應(yīng)用于圖文對(duì)比學(xué)習(xí)和圖文匹配任務(wù)。在微調(diào)階段,將微調(diào)后的教師模型的特定任務(wù)知識(shí)轉(zhuǎn)移到學(xué)生模型中。 作者在視覺(jué)語(yǔ)言理解任務(wù)和圖像文本檢索任務(wù)上評(píng)估本文的模型。實(shí)驗(yàn)結(jié)果表明,蒸餾的雙編碼器模型在視覺(jué)entailment、視覺(jué)推理和視覺(jué)問(wèn)答方面具有競(jìng)爭(zhēng)力,同時(shí)推理速度比融合算法快 3 倍以上。編碼器教師模型。
03 方法 上圖展示了本文的用于訓(xùn)練雙編碼器模型的跨模態(tài)注意力蒸餾框架。作者采用融合編碼器模型作為教師,并引入跨模態(tài)注意力知識(shí)和軟標(biāo)簽來(lái)訓(xùn)練雙編碼器學(xué)生模型。蒸餾目標(biāo)適用于預(yù)訓(xùn)練和微調(diào)階段,并幫助雙編碼器模型學(xué)習(xí)不同模態(tài)的交互。 3.1 Model Overview本文的蒸餾框架可以使用不同的融合編碼器模型作為教師。在這項(xiàng)工作中,本文采用 ViLT作為教師模型進(jìn)行實(shí)驗(yàn),因?yàn)樗?jiǎn)單高效。 Input Representations![]() ![]() Teacher: Fusion-Encoder Model![]() ![]() Student: Dual-Encoder Model![]() 3.2 Distillation ObjectivesCross-Modal Attention Distillation![]() ![]() Soft Label Distillation![]() 3.3 Two-Stage Distillation Framework![]() 3.3.1 Pre-Training DistillationImage-Text Matching (ITM)Image-Text Contrastive Learning (ITC)融合編碼器模型需要對(duì)每一對(duì)進(jìn)行聯(lián)合編碼以獲得軟標(biāo)簽,這導(dǎo)致了二次時(shí)間復(fù)雜度。因此,作者只考慮在 N 個(gè)匹配對(duì)上計(jì)算的跨模態(tài)注意力分布。 Masked Language Modeling (MLM)3.3.2 Fine-Tuning DistillationVision-Language UnderstandingImage-Text Retrieval04 實(shí)驗(yàn)![]() ![]() ![]() ![]() 本文的雙編碼器模型在三個(gè)任務(wù)中實(shí)現(xiàn)了更快的推理速度。預(yù)計(jì)算圖像表示進(jìn)一步提高了推理速度,這對(duì)于現(xiàn)實(shí)生活中的大量圖像和文本非常有效。 ![]() ![]() 05 總結(jié)實(shí)驗(yàn)結(jié)果表明,蒸餾后的雙編碼器模型在 NLVR2、SNLI-VE 和 VQA 上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,同時(shí)具有比融合編碼器模型快得多的推理速度。 參考資料[2]https://github.com/kugwzk/Distilled-DualEncoder ![]() END 歡迎加入「視覺(jué)語(yǔ)言」交流群??備注:VL |
|