在2021年國際口語機器翻譯評測比賽(簡稱IWSLT)中,科大訊飛與中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)聯(lián)合團隊在同聲傳譯任務中包攬三個賽道的冠軍! 這到底有多“?!保?/strong> 說個背景簡單科普一下: IWSLT作為國際上最具影響力的口語機器翻譯評測比賽,已經(jīng)舉辦了18年,每年都會有不同的語音翻譯類比賽任務。 在今年,IWSLT共設置了4類任務,其中包括同傳任務,為考察不同語言對語序的影響以及語音同聲傳譯整體性能,在本次同聲傳譯任務中設置了三個賽道:
并通過“翻譯質(zhì)量”和“翻譯延遲”兩個維度來進行評測,以下是英德文本同傳比賽結(jié)果: ▲英德文本同傳的結(jié)果截圖 UEDIN:英國愛丁堡大學 USTC-NESLIP:科大訊飛-中科大聯(lián)合團隊 APPTEK:AppTek(德國) VOLCTRANS:字節(jié)跳動火山翻譯團隊 訊飛在低中高三個延遲區(qū)間上都顯著優(yōu)于其他系統(tǒng)(注意圖中紅色小星星的位置),并拿下了全部賽道的冠軍!尤其是低延遲環(huán)境下的進展,將進一步推動機器同傳的商業(yè)落地。 ▲左右滑動查看成績截圖 依次為:英德文本同傳效果排名、英日文本同傳效果排名、英德語音同傳效果排名 我們是怎么做到的? 一個關鍵原因是,我們創(chuàng)新性地提出了Cross Attention Augmented Transducer(CAAT)同傳架構(gòu),基于這一框架實現(xiàn),可以更好地實現(xiàn)翻譯效果和延遲的平衡,其模型結(jié)構(gòu)如下: 針對同傳任務中翻譯質(zhì)量和延遲這兩個評價目標,借鑒語音識別中針對多路徑的優(yōu)化方式,實現(xiàn)了將動態(tài)決策和翻譯效果進行聯(lián)合優(yōu)化,從而在延遲-翻譯質(zhì)量之間找到了更好的平衡。 怎么理解這句話呢?
“你好,他問一下火車站在哪兒?” 當機器去聽這句話的時候,這些是逐詞輸入到機器的“腦袋”里的,在輸入的過程中,機器就需要根據(jù)自己的模型和策略來做翻譯決策。 目前經(jīng)典的機器翻譯技術,翻譯策略通常是固定出現(xiàn)N個詞之后開始翻譯。 例如固定詞數(shù)量是2個,機器在讀到第二個詞“他”時,輸出第一個詞“你好,”的翻譯結(jié)果,即輸出“Hello”;接下來每次讀一個詞,輸出一個詞,讀入“問”,然后輸出“he”,依次類推。當機器看完源端信息時,會把所有結(jié)果一次性輸出。這種策略針對同傳的兩個指標是選擇固定延遲,優(yōu)化翻譯效果,比較機械,很容易造成直譯或預測錯誤問題,尤其是在低延遲的時候。 而我們的CAAT模型則會根據(jù)輸入和語語義綜合進行分析,當出現(xiàn)“你好”的時候,能夠自主分析“你好”是一個相對完整的語義,不論后面接什么單詞,它的翻譯通常是固定的,則立刻做出決策先翻譯出“Hello”,與此同時,它還會根據(jù)語義進行自主調(diào)序,使得翻譯出來的語言能夠更地道。 相比目前主流的機器翻譯技術,CAAT避免了固定延遲導致的延遲過大或翻譯質(zhì)量下降的問題,在相同延遲下取得翻譯質(zhì)量的顯著提升。 除了這一模型結(jié)構(gòu)的創(chuàng)新外,針對任務中語音翻譯數(shù)據(jù)量有限這一問題,我們還從模型融合、數(shù)據(jù)增強等策略上進行了優(yōu)化。 總之,經(jīng)過我們的創(chuàng)新和努力,在尋找到延遲和翻譯質(zhì)量之間更好的平衡點上,我們做到了第一! 我們的技術用在了哪里?
在正反兩面屏幕的加持下,可呈現(xiàn)出同傳級的實時翻譯效果,人們在保持社交距離的同時,還能順暢地對談交流。特別是創(chuàng)新研發(fā)了會話翻譯、錄音翻譯、演講翻譯、同聲字幕等功能,可與手電腦、大屏(電視、投影、會場LED等)實現(xiàn)翻譯聯(lián)動,幫助用戶在跨語言匯報工作、提案演講、遠程開會時提供實時語音翻譯或同傳翻譯字幕。 ![]()
它目前已經(jīng)可以支持中、英、日、韓、法、西、俄、阿8國語種的實時轉(zhuǎn)寫,以及中文到英、日、韓、法、西、俄、德、阿拉伯等國語種的翻譯。通過客戶端在會議現(xiàn)場或在線會議實現(xiàn)語音實時識別、翻譯,內(nèi)容記錄,并將識別和翻譯內(nèi)容形成字幕,實時投屏展示。是一款能夠廣泛應用于大型高端會議、發(fā)布會、展覽會等場景的軟件產(chǎn)品。 ▲訊飛聽見同傳為WAIC2021提供轉(zhuǎn)寫翻譯服務 截至目前,訊飛聽見同傳已服務大會10000 場次,訊飛聽見網(wǎng)站及APP為近1500萬用戶提供智能轉(zhuǎn)寫及翻譯服務,累計轉(zhuǎn)寫時長超3866萬小時。 盡管如此,機器同傳相比與人工同傳來說,有我們不可回避的問題: 機器翻譯很容易出現(xiàn)“直譯”問題。同時,在語義理解和核心內(nèi)容的傳達上,機器翻譯更容易出現(xiàn)識別和翻譯錯誤等問題。 站在包攬IWSLT 2021語音同傳任務的三個賽道冠軍的基石上,我們將以本次技術突破為全新的起點,進一步提升科大訊飛在語音翻譯和機器同傳領域的核心競爭力! 為訊飛技術點贊! |
|