【原】如何解決神經(jīng)機(jī)器翻譯三大關(guān)鍵性問(wèn)題？清華團(tuán)隊(duì)發(fā)表NMT最新技術(shù)綜述

學(xué)術(shù)頭條 2021-03-17

展開(kāi)全文

如今，計(jì)算機(jī)技術(shù)滲透人們生活的方方面面，而要說(shuō)對(duì)我們工作學(xué)習(xí)幫助極大的，機(jī)器翻譯（machine translation）必須榜上有名。

近年來(lái)隨著計(jì)算機(jī)技術(shù)的不斷提高、AI 系統(tǒng)的日益精進(jìn)，機(jī)器翻譯一直為人們所質(zhì)疑的質(zhì)量問(wèn)題，也有了非常顯著的改善。其中，神經(jīng)機(jī)器翻譯（neural machine translation）技術(shù)所作的貢獻(xiàn)與創(chuàng)新也是一大研究熱點(diǎn)。

近日，清華大學(xué)計(jì)算機(jī)系與智能產(chǎn)業(yè)研究院的機(jī)器翻譯研究團(tuán)隊(duì)發(fā)表了一篇關(guān)于神經(jīng)機(jī)器翻譯技術(shù)的最新綜述論文，文章對(duì)神經(jīng)機(jī)器翻譯方法進(jìn)行回顧，并重點(diǎn)介紹與體系結(jié)構(gòu)、解碼和數(shù)據(jù)增強(qiáng)有關(guān)的方法，總結(jié)了對(duì)研究人員有用的資源和工具。最后，還討論了該領(lǐng)域未來(lái)可能的研究方向。清華大學(xué)計(jì)算機(jī)系教授、歐洲科學(xué)院外籍院士孫茂松與清華智能產(chǎn)業(yè)研究院副院長(zhǎng)、國(guó)家杰青劉洋是該論文的兩位教師作者。

該論文以 “Neural machine translation: A review of methods, resources, and tools” 為題發(fā)表在專注 AI 開(kāi)放獲取的新期刊 AI OPEN 上。

神經(jīng)機(jī)器翻譯技術(shù)的發(fā)展

在 70 年的發(fā)展歷程里，機(jī)器翻譯經(jīng)歷了從興起到高峰，從低迷到打開(kāi)新研究思路的種種變化。

早在 1949 年，美國(guó)科學(xué)家 Warren Weaver 就首次提出 “使用計(jì)算機(jī)進(jìn)行翻譯” 的思想，他也被公認(rèn)為是機(jī)器翻譯的先驅(qū)者之一。1952 年，以色列著名哲學(xué)家、語(yǔ)言學(xué)家和數(shù)學(xué)家 Yehoshua Bar-Hillel 組織召開(kāi)了第一次機(jī)器翻譯大會(huì)。

此后，由于機(jī)器翻譯質(zhì)量難以達(dá)到要求，其發(fā)展在長(zhǎng)達(dá) 30 年間始終緩慢，直到 1990 年之后，大量的雙語(yǔ)、多語(yǔ)語(yǔ)料庫(kù)給機(jī)器翻譯注入新鮮血液，統(tǒng)計(jì)機(jī)器翻譯（SMT）應(yīng)運(yùn)而生。這期間 IBM 研究人員也發(fā)表論文，詳細(xì)論述了基于詞典和轉(zhuǎn)換規(guī)則的機(jī)器翻譯方法和基于平行語(yǔ)料庫(kù)的實(shí)例機(jī)器翻譯方法。

（來(lái)源：GPI）

近些年，基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯技術(shù)（neural machine translation，簡(jiǎn)稱 NMT）發(fā)展迅猛。深度學(xué)習(xí)由圖靈獎(jiǎng)得主 Geoffrey Hinton 等人在 2006 年提出，是一種深層的非線性數(shù)據(jù)處理技術(shù)，與傳統(tǒng)的淺層次線性處理相比，它在處理模型分析和分類問(wèn)題上更準(zhǔn)確，性能更高。

NMT 與以前的機(jī)器翻譯方法完全不同，一方面，NMT 在 SMT 中采用連續(xù)表示而不是離散符號(hào)表示；另一方面，NMT 使用單個(gè)大型神經(jīng)網(wǎng)絡(luò)對(duì)整個(gè)翻譯過(guò)程進(jìn)行建模，從而無(wú)需進(jìn)行過(guò)多的特征工程。而且，NMT 的訓(xùn)練是端到端的（end-to-end），不像 SMT 中需要單獨(dú)調(diào)整組件。除了簡(jiǎn)單之外，NMT 可適應(yīng)多種語(yǔ)言之間的翻譯，實(shí)現(xiàn)最先進(jìn)的性能。

如何解決三大關(guān)鍵性問(wèn)題？

綜述中，論文作者首先闡釋了 NMT 系統(tǒng)的三個(gè)關(guān)鍵性問(wèn)題：

建模（modeling），即如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)條件分布建模？
推理（inference），即給定源輸入，如何從 NMT 模型生成翻譯句子？
學(xué)習(xí)（learning），即如何有效地從數(shù)據(jù)中學(xué)習(xí) NMT 所需的參數(shù)？

關(guān)于建模，NMT 通常采用編碼器 - 解碼器框架，由嵌入層 embedding，分類層 classifier，編碼器網(wǎng)絡(luò) encoder 和解碼器網(wǎng)絡(luò) decoder 組成。

圖 | NMT 體系結(jié)構(gòu)示意圖，不同顏色代表不同的語(yǔ)言

因此，構(gòu)建強(qiáng)大的編碼器和解碼器對(duì) NMT 性能來(lái)說(shuō)至關(guān)重要，其方法大致可分為三類：基于遞歸神經(jīng)網(wǎng)絡(luò)（RNN），基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）和基于自注意力網(wǎng)絡(luò)（SAN）的方法。文章不僅詳細(xì)闡釋了三種方法的機(jī)制，還對(duì)比了其優(yōu)點(diǎn)與缺陷，并提出相應(yīng)的解決辦法。例如 RNN 容易出現(xiàn)梯度消失 / 爆炸問(wèn)題，CNN 接收領(lǐng)域有限較難擴(kuò)張，SAN 則容易忽略序列中單詞的順序。

圖 | RNN、CNN 和 SAN 分別編碼序列的方式

關(guān)于推理，NMT 通常使用本地搜索算法（例如貪婪搜索或集束搜索）來(lái)找到最佳翻譯結(jié)果。此外，NMT 通常使用最大對(duì)數(shù)似然（MLE）作為訓(xùn)練目標(biāo)函數(shù)，這是一種估算概率分布參數(shù)的常用方法。

圖 | 集束搜索算法

除了 NMT 的計(jì)算機(jī)原理與構(gòu)建機(jī)制，文中還綜述了不同的 NMT 研究方法與應(yīng)用，例如有關(guān)使用單語(yǔ)言數(shù)據(jù)和無(wú)監(jiān)督 NMT 的研究，以及有關(guān)提升 NMT 可解釋性和魯棒性的研究。

最后，文中還總結(jié)了當(dāng)前流行的開(kāi)源 NMT 工具，均可在 GitHub 直接獲取。

未來(lái)可能的研究方向

盡管 NMT 取得了巨大的成功，但仍有許多問(wèn)題有待探索，因此，文章列出了 NMT 的一些重要且具有挑戰(zhàn)性的問(wèn)題。

第一，加深對(duì) NMT 的了解。盡管如今已經(jīng)有很多嘗試，試圖分析和解釋 NMT，但顯然，NMT 領(lǐng)域還有許多未 “解鎖” 之處。未來(lái)，要想窺破 NMT 技術(shù)的瓶頸和弱點(diǎn)，弄清 NMT 究竟如何產(chǎn)生其翻譯結(jié)果顯得格外重要。

第二，設(shè)計(jì)更好的 NMT 模型。目前常見(jiàn)的是 Transformer 體系結(jié)構(gòu)，設(shè)計(jì)一種比它更加優(yōu)越、能夠平衡翻譯性能和計(jì)算復(fù)雜性的新體系結(jié)構(gòu)，對(duì)于 NMT 研究和生產(chǎn)意義重大。

第三，充分利用單語(yǔ)言數(shù)據(jù)。盡管如今單語(yǔ)言數(shù)據(jù)取得了顯著進(jìn)步，但 NMT 在利用豐富的單語(yǔ)言數(shù)據(jù)方面，仍有巨大的上升空間。

第四，對(duì)先前的知識(shí)進(jìn)行整合。除了自然語(yǔ)言，將人類其他知識(shí)納入 NMT 也是一個(gè)重要的問(wèn)題。如何實(shí)現(xiàn)離散表示和連續(xù)表示之間的互相轉(zhuǎn)換一直是 NMT 面臨的問(wèn)題，仍需進(jìn)一步探討。

關(guān)于 AI OPEN

AI OPEN 于 2020 年 3 月創(chuàng)刊，專注于分享有關(guān)人工智能（AI）理論及其應(yīng)用的可行知識(shí)和前瞻性觀點(diǎn)。期刊主編為智源研究院學(xué)術(shù)副院長(zhǎng)、清華大學(xué)計(jì)算機(jī)系唐杰教授。

網(wǎng)址：

https://www./journal/ai-open