NewBeeNLP原創(chuàng)出品 公眾號專欄作者@上杉翔二 悠閑會 · 信息檢索 BERT以及BERT后時(shí)代在NLP各項(xiàng)任務(wù)上都是強(qiáng)勢刷榜,多模態(tài)領(lǐng)域也不遑多讓。前幾天我們剛分享了復(fù)旦邱錫鵬老師的報(bào)告:復(fù)旦邱錫鵬教授 | 『語言+X』預(yù)訓(xùn)練模型,今天就來詳細(xì)整理一些代表性工作。 下圖是VL-BERT論文中的比較圖,就按這個(gè)表格的分類(Architecture) 整理這幾篇論文吧。 首先是 BERT 的基礎(chǔ)公式,不做贅述。所有的論文都是基于BERT做改裝或者暴力組合的,如果按Architecture可以分為「one single」和「two single」,one single會把text和visual融合到一個(gè)模型中,two single是分別處理text和visual。 One Single one single方法,會把text和visual融合到一個(gè)模型中。 VideoBERT 論文:VideoBERT: A Joint Model for Video and Language Representation Learning 地址:https:///abs/1904.01766 arxiv訪問不方便的同學(xué)后臺回復(fù)『0025』直接獲取論文 主要思路是改進(jìn) BERT 模型。從視頻數(shù)據(jù)的向量量化和現(xiàn)有的語音識別輸出結(jié)果上分別導(dǎo)出視覺幀token和語言學(xué)詞 token,然后在這些 token 的序列上BERT。 值得注意的模型細(xì)節(jié) 為了將BERT擴(kuò)展到視頻(這其實(shí)是8+篇里面暫時(shí)唯一做視頻的paper),以便仍然可以利用預(yù)先訓(xùn)練的語言模型和可伸縮的實(shí)現(xiàn)進(jìn)行推理和學(xué)習(xí),作者首先將原始視覺數(shù)據(jù)(整個(gè)視頻)成一個(gè)離散的圖片幀 token序列,以得到“visual words”。 文本和視頻的語義對齊存在困難,因?yàn)榧词乖诮虒W(xué)視頻中,演講者也可能指的是視覺上不存在的東西。解決方案: 隨機(jī)地將相鄰的句子連接成一個(gè)長句子,以允許模型學(xué)習(xí)語義對應(yīng),即使兩者在時(shí)間上沒有很好地對齊。 即使是相同的動(dòng)作,狀態(tài)轉(zhuǎn)換的速度也會有很大的變化,所以作者隨機(jī)為視頻token選擇1到5步的次采樣速率。這不僅有助于模型對視頻速度的變化具有更強(qiáng)的魯棒性,而且還允許該模型捕獲時(shí)間動(dòng)態(tài),在更大的時(shí)間范圍內(nèi)學(xué)習(xí)更長的狀態(tài)轉(zhuǎn)換。 3種訓(xùn)練任務(wù)。text-only, video-only和video-text。對于單模態(tài)任務(wù),用標(biāo)準(zhǔn)的BERT打上mask進(jìn)行預(yù)測,對于跨模態(tài)任務(wù),用語言-視覺對齊任務(wù),即使用[CLS]的最終隱藏狀態(tài)來預(yù)測語言句子是否在時(shí)間上與視覺句子對齊。 使用該預(yù)訓(xùn)練模型可以實(shí)現(xiàn)從video到text,也可以從text到video的各種任務(wù)。文章中主要驗(yàn)證了兩個(gè)下游任務(wù):zero-shot action classification和video captioning。 B2T2 論文:Fusion of Detected Objects in Text for Visual Question Answering 地址:https:///abs/1908.05054 arxiv訪問不方便的同學(xué)后臺回復(fù)『0026』直接獲取論文 應(yīng)用領(lǐng)域是視覺問答中的檢測到物體的文本融合,嘗試通過BERT利用了在同一個(gè)統(tǒng)一架構(gòu)中把單詞指向圖像中的一部分的參考信息。 值得注意的模型細(xì)節(jié) 評估了兩種主要的體系結(jié)構(gòu):“雙編碼器(Dual Encoder)”,一種late fusion的結(jié)構(gòu),其中圖像和文本被單獨(dú)編碼,score被計(jì)算為內(nèi)積(BERT結(jié)構(gòu)的[CLS]輸出端引入整個(gè)圖像的特征,判斷圖文是否匹配),如左圖。而右圖是完整的B2T2模型, 一種early fusion結(jié)構(gòu),其中視覺特征嵌入在與輸入字標(biāo)記相同的級別上,值得注意的是圖像不是單獨(dú)一邊輸入的,而是在“Mx”即masked的詞位置輸入改詞的局部區(qū)域特征。 兩個(gè)預(yù)訓(xùn)練任務(wù):(1) impostor identification and (2) masked language model prediction. 只有一個(gè)下游任務(wù)就是它自己的應(yīng)用領(lǐng)域VQA。 VisualBERT 論文:VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE 地址:https:///abs/1908.03557 arxiv訪問不方便的同學(xué)后臺回復(fù)『0027』直接獲取論文 改裝BERT,以將輸入一段文本中的元素(詞)和一張相關(guān)的輸入圖像中的區(qū)域(局部)隱式地對齊起來。 值得注意的模型細(xì)節(jié) 輸出使的三種embedding信息的增加,分別是position,segment,token/image。position是目標(biāo)檢測得到的局部位置or 句子詞的位置;segment表示是圖像嵌入or 文本嵌入;詞or視覺特征。 兩種訓(xùn)練任務(wù):(1)部分文本被屏蔽,模型學(xué)習(xí)根據(jù)剩余文本和視覺上下文預(yù)測屏蔽詞;(2)確定所提供的文本是否匹配圖像。 預(yù)訓(xùn)練任務(wù):VQA,VCR,NLVR,和Entities。 設(shè)備:4 Tesla V100s each with 16GBs Unicoder-VL 論文:Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training 地址:https:///abs/1908.06066 arxiv訪問不方便的同學(xué)后臺回復(fù)『0028』直接獲取論文 網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略與VideoBert大同小異,將視頻片段幀特征換成了單圖的局部區(qū)域。 值得注意的模型細(xì)節(jié) 預(yù)訓(xùn)練階段使用三個(gè)任務(wù),包括masked語言建模(MLM)、masked對象標(biāo)簽預(yù)測(MOC)以及視覺-語言匹配(VLM)。前兩個(gè)任務(wù)會讓模型學(xué)習(xí)從基于語言和視覺內(nèi)容輸入的聯(lián)合 token 學(xué)習(xí)到內(nèi)容相關(guān)的表征(都是15%masked之后,利用相應(yīng)的上下文進(jìn)行預(yù)測重構(gòu),其中MOC預(yù)測的不是特征而是區(qū)域的label);后一個(gè)任務(wù)嘗試預(yù)測一張圖像和一段文本描述之間是否相符。 預(yù)訓(xùn)練下游任務(wù):image-text retrieval,zero-shot image-text retrival。 設(shè)備:4 NVIDIA Tesla V100 GPU VL-BERT 論文:VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS 地址:https:///abs/1908.08530 arxiv訪問不方便的同學(xué)后臺回復(fù)『0029』直接獲取論文 在VL-BERT中,視覺和語言的嵌入特征將同時(shí)作為輸入,這些元素是在圖像中的感興趣區(qū)域(RoIs)上定義的特征 以及輸入句子中的子詞。RoIs可以是由對象檢測器產(chǎn)生的包圍框,也可以是某些任務(wù)中的注釋框。如下圖的結(jié)構(gòu),不管是句子還是圖片都有visual feature,用于捕捉視覺線索。 值得注意的模型細(xì)節(jié) 輸入由四個(gè)部分構(gòu)成,token embedding, visual feature embedding, segment embedding, and sequence position embedding。token和BERT一樣,對于圖像的輸入給特殊的[IMG]token做標(biāo)記;visual feature用于捕捉視覺線索,visual appearance feature用Faster-RNN抽取, visual geometry embedding是每個(gè)框的4-d位置信息然后做正弦余弦處理,最后用FC得到特征;segment標(biāo)記是句子or圖片,在不同任務(wù)中標(biāo)記不同,如在VQA中A denotes Question, B denotes Answer, and C denotes Image,在caption中就只有A和C兩種標(biāo)記,position,標(biāo)識輸入序列中的順序,由于image reginos不存在順序,所以標(biāo)記都是一樣的(如圖中的7)。 三個(gè)預(yù)訓(xùn)練任務(wù)為:帶有視覺線索的masked文字建模、帶有語言線索的感興趣區(qū)域RoI分類、句子-圖像關(guān)系預(yù)測。 設(shè)備:Pre-training is conducted on 16 Tesla V100 GPUs for 250k iterations by SGD。 Two Single two single方法,分別處理text和visual兩部分。 ViLBERT 論文:ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 地址:https:///abs/1908.02265 |
|