乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      重磅!百度多模態(tài)模型ERNIE-ViL刷新5項任務記錄,登頂權威榜單VCR

       板橋胡同37號 2020-07-02
      機器之心報道

      機器之心編輯部

      近日,百度在多模態(tài)語義理解領域取得突破,提出知識增強視覺-語言預訓練模型 ERNIE-ViL,首次將場景圖(Scene Graph)知識融入多模態(tài)預訓練,在 5 項多模態(tài)任務上刷新世界最好效果,并在多模態(tài)領域權威榜單 VCR 上超越微軟、谷歌、Facebook 等機構,登頂榜首。此次突破充分借助飛槳深度學習平臺分布式訓練領先優(yōu)勢。據(jù)機器之心了解,基于飛槳實現(xiàn)的 ERNIE-ViL 模型也將于近期開源。

      多模態(tài)語義理解是人工智能領域重要研究方向之一,如何讓機器像人類一樣具備理解和思考的能力,需要融合語言、語音、視覺等多模態(tài)的信息。

      近年來,視覺、語言、語音等單模態(tài)語義理解技術取得了重大進展。但更多的人工智能真實場景實質(zhì)上同時涉及到多個模態(tài)的信息。例如,理想的人工智能助手需要根據(jù)語言、語音、動作等多模態(tài)的信息與人類進行交流,這就要求機器具備多模態(tài)語義理解能力。

      近日,百度在該領域取得突破,提出業(yè)界首個融合場景圖知識的多模態(tài)預訓練模型 ERNIE-ViL。百度研究者將場景圖知識融入到視覺-語言模型的預訓練過程,學習場景語義的聯(lián)合表示,顯著增強了跨模態(tài)的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 5 項典型多模態(tài)任務中刷新了世界最好效果。并在多模態(tài)領域權威榜單視覺常識推理任務(VCR)上登頂榜首。

      • 論文鏈接:https:///abs/2006.16934

      • ERNIE 開源地址:https://github.com/PaddlePaddle/ERNIE


      ERNIE-ViL 登頂 VCR 榜單
       


      VCR Leaderboard 最新版。子任務一:Q->A(Question Answering)。子任務二:QA→R(Answer Justification)。綜合得分:Q→AR:模型的綜合表現(xiàn)(兩個子任務都對才得分)。

      上小學的時候,“看圖說話”在語文試卷中常年占據(jù)著一席之地。比如給出下面這張圖,讓我們描述圖里的人物在干什么、想什么、有著怎樣的心情。


      同樣,在人工智能領域,機器也需要具備“看圖說話” 的能力。

      如下邊這張圖,出題人問:“右邊的那個人是如何獲得她面前的錢的?”進一步還要回答 “你為什么做出這樣的推斷?” 也就是說,模型不僅需要識別出圖像中的物體 “人”、“樂器”、“硬幣”,還需要對它們的關系 “人演奏樂器” 等進行理解,并通過 “街頭表演掙錢” 這樣的常識進行推理。 

        
      VCR(Visual Commonsense Reasoning,視覺常識推理)就是由十幾萬這樣的圖片和問題組成的數(shù)據(jù)集。該數(shù)據(jù)集由華盛頓大學和艾倫人工智能研究所的研究者聯(lián)合創(chuàng)建,考查的是模型的多模態(tài)語義理解與推理能力。

      微軟、谷歌、Facebook 等科技公司及 UCLA、佐治亞理工學院等頂尖高校都對該任務發(fā)起了挑戰(zhàn)。

      6 月 24 號,該榜單被再次刷新,來自百度 ERNIE 團隊的 ERNIE-ViL 在單模型效果和多模型效果上都取得了第一的成績,并在聯(lián)合任務上以準確率領先榜單第二名 3.7 個百分點的成績登頂,超越了微軟、谷歌、Facebook 等機構。

      融合場景圖知識的 ERNIE-ViL


      當人們看到上面這張圖的時候,首先會關注圖中的物體(Objects)以及特點屬性(Attributes)和期間的關系(Relationships)。如:“車”、 “人”、“貓”、“房屋” 等物體構成了圖片場景中的基本元素;而物體的屬性,如:“貓是白的”,“汽車是棕色的” 則對物體做了更精細的刻畫;物體間的位置和語義關系,如:“貓在車上”,“車在房屋前” 等,建立了場景中的物體的關聯(lián)。因此,物體、屬性和關系共同構成了描述視覺場景的細粒度語義(Detailed Semantics)。

      基于此觀察,百度的研究者將包含場景先驗知識的場景圖(Scene Graph)融入到多模態(tài)預訓練過程中,建模了視覺-語言模態(tài)之間的細粒度語義關聯(lián),學習到包含細粒度語義對齊信息的聯(lián)合表示。

      如下圖所示,基于文本中解析出的場景圖,ERNIE-ViL 提出了三個多模態(tài)預訓練的場景圖預測(Scene Graph Prediction)任務:物體預測(Object Prediction)、屬性預測(Attribute Prediction)、關系預測(Relationship Prediction)。

      • 物體預測:隨機選取圖中的一部分物體,如圖中的“house”,對其在句子中對應的詞進行掩碼,模型根據(jù)文本上下文和圖片對被掩碼的部分進行預測;

      • 屬性預測:對于場景圖中的屬性 - 物體對,如圖中的“<dress, blue>”,隨機選取一部分詞對其中的屬性進行掩碼,根據(jù)物體和上下文和圖片對其進行預測; 

      • 關系預測:隨機選取一部分 “物體 - 關系 - 物體” 三元組,如圖的“<cat, on top of, car >”,然后對其中的關系進行掩碼,模型根據(jù)對應的物體和上下文和圖片對其進行預測。



      通過場景圖預測任務,ERNIE-ViL 學習到跨模態(tài)之間的細粒度語義對齊,如將語言中 “貓”、“車是棕色的”、“貓在車上” 等語義信息對應到圖像中相應的區(qū)域。

      除以上提出的場景圖預測的任務外,ERNIE-ViL 的預訓練還使用了掩碼語言模型(Masked Language Modelling)、掩碼圖像區(qū)域預測(Masked Region Prediction)、圖文對齊(Image-Text Matching)等任務。

      實驗結(jié)果

      研究者通過視覺常識推理、視覺問答等多模態(tài)下游任務,對 ERNIE-ViL 的模型能力進行了驗證。

      除了在視覺常識推理任務上取得 SOTA 之外,ERNIE-ViL 在視覺問答、跨模態(tài)圖片檢索、跨模態(tài)文本檢索、引用表達式理解等任務上也刷新了 SOTA 結(jié)果。

      引用表達式理解(Referring Expressions Comprehension, RefCOCO+)任務是給定一段自然語言描述,圖像中定位到相關的區(qū)域,該任務涉及到細粒度的跨模態(tài)語義對齊(自然語言短語與圖像區(qū)域),因此更加考查聯(lián)合表示對語義刻畫的精細程度,ERNIE-ViL 在該任務的兩個測試集上(testA、testB)對比當前最優(yōu)效果均提升了 2.0 個百分點以上。

       
      視覺問答(Visual Question Answering,VQA)任務是給定一個圖片以及文本描述的問題,要求模型給出答案。該任務需要對文本和圖像進行更深入的理解和推理,同時該任務里的問題涉及細粒度的語義(物體、物體屬性、物體間關系),能夠檢驗模型對于場景的理解深度。ERNIE-ViL 在該任務上以 74.93% 的得分取得了單模型的最好成績。

      跨模態(tài)圖像 & 文本檢索 (Cross-modal Image-Retrieval,IR; Cross-modal Text-Retrieval,TR)任務是多模態(tài)領域的經(jīng)典任務,給定圖像檢索相關的文本以及給定文本檢索相關的圖像。該任務實質(zhì)上是計算圖像模態(tài)和文本模態(tài)在語義上的相似度,要求模型同時兼顧整體語義和細粒度語義。ERNIE-ViL 在這兩個任務上分別以 R@1 提升 0.56 個百分點和 0.2 個百分點的結(jié)果刷新了 SOTA。


      模型分析

      百度研究者通過構建多模態(tài)完形填空測試實驗,驗證了 ERNIE-ViL 更強的跨模態(tài)知識推斷能力:給定一組圖片 - 文本對齊數(shù)據(jù),分別將文本中的物體、關系或?qū)傩栽~掩碼,讓模型根據(jù)上下文和圖片進行預測。實驗表明,在對文中表述細粒度語義的詞(物體、屬性、關系)進行預測時,ERNIE-ViL 表現(xiàn)更為優(yōu)越,準確率分別提升 2.12%、1.31% 和 6.00%。

       
      同時,論文中給出了完形填空測試的若干實例,從下圖中可以看出,ERNIE-ViL 往往能夠更精確地預測出被掩碼的物體、屬性和關系,而基線模型往往只能預測出原有詞的詞性,但是很難準確預測出具體的詞。


      結(jié)語

      聽懂、看懂、理解環(huán)境是人工智能的重要目標之一,實現(xiàn)該目標的首要任務是讓機器具備多模態(tài)語義理解能力。此次百度提出的知識增強多模態(tài)模型 ERNIE-ViL,首次將場景圖知識融入多模態(tài)模型的預訓練過程,在視覺問答、視覺常識推理等 5 個任務上刷新紀錄,為多模態(tài)語義理解領域研究提供了新的思路。除了上述公開數(shù)據(jù)集效果突破外,ERNIE-ViL 技術也逐步在真實工業(yè)應用場景中落地。未來百度將在該領域進行更深入的研究和應用,使其發(fā)揮更大的商業(yè)和社會價值。

      7月11日09:00-12:00,機器之心聯(lián)合百度在WAIC 2020云端峰會上組織「開發(fā)者日百度公開課」,為廣大開發(fā)者提供 3 小時極致學習機會,從 NLP、CV 到零門檻 AI 開發(fā)平臺 EasyDL,助力開發(fā)者掌握人工智能開發(fā)技能。掃描圖中二維碼,加機器之心小助手微信邀您入群。

        本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多