機(jī)器閱讀理解終于超越人類水平！權(quán)威競賽排名中國霸榜，MSRA、阿里、騰訊前二

汐鈺文藝范 2018-01-13

展開全文

來源：新智元

編輯：劉小芹弗朗西斯

2018年1月3日，微軟亞洲研究院的r-net率先第一個(gè)在SQuAD machine reading comprehension challenge 上達(dá)到82.650，這意味著在ExactMatch (精準(zhǔn)匹配)指標(biāo)上首次超越人類在2016年創(chuàng)下的82.304。之后兩天，阿里巴巴iDST也取得佳績，刷新F1分?jǐn)?shù)至88.607, 中國AI崛起，中國的自然語言理解研究已經(jīng)走在世界前列。

2018年1月3日，微軟亞洲研究院的r-net率先在SQuAD machine reading comprehension challenge 上達(dá)到82.650，這意味著在ExactMatch (精準(zhǔn)匹配)指標(biāo)上首次超越人類在2016年創(chuàng)下的82.304。

值得注意的是，其中阿里巴巴數(shù)據(jù)科學(xué)與技術(shù)研究院IDST在1月5日刷新了F1分?jǐn)?shù)至88.607。騰訊NLP團(tuán)隊(duì)在一個(gè)月前的數(shù)據(jù)也緊隨其后，可喜可賀。

在前10名單中，我們看到了中國團(tuán)隊(duì)的“霸榜”：

并列第1：阿里巴巴 iDST NLP、微軟亞洲研究院
并列第2：微軟亞洲研究院、騰訊DPDAC NLP
并列第4：阿里巴巴 iDST NLP、微軟亞洲研究院
第5：科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室
第9：阿里巴巴 iDST NLP
第10：浙江大學(xué)

包括阿里巴巴、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及CMU（卡內(nèi)基·梅隆大學(xué)）、斯坦福大學(xué)等在內(nèi)的全球自然語言處理領(lǐng)域的研究人員，共同推動(dòng)著自然語言理解的進(jìn)步。

微軟亞洲研究院副院長周明在朋友圈評論：祝賀中國的自然語言理解研究已經(jīng)走在世界前列！高興的同時(shí)也更加意識(shí)到自然語言理解長路漫漫，更需繼續(xù)努力。

SQuAD：機(jī)器閱讀理解界的ImageNet

做機(jī)器閱讀理解研究的學(xué)者，想必對由斯坦福大學(xué)自然語言計(jì)算組發(fā)起的SQuAD（Stanford Question Answering Dataset）文本理解挑戰(zhàn)賽并不陌生。

它也被譽(yù)為“機(jī)器閱讀理解界的ImageNet”。諸多來自全球?qū)W術(shù)界和產(chǎn)業(yè)界的研究團(tuán)隊(duì)都積極地參與其中。

SQUAD是斯坦福大學(xué)2016年推出的一個(gè)閱讀理解數(shù)據(jù)集，由眾多維基百科文章眾包工作者提出的問題組成，其中每個(gè)問題的答案都是相應(yīng)閱讀段落的一段文字，需要算法找到答案。

在配套的500多篇文章中，有超過10萬個(gè)問題，SQuAD顯著大于以前的閱讀理解數(shù)據(jù)集。

那么，SQuAD機(jī)器閱讀理解挑戰(zhàn)賽是怎樣進(jìn)行的呢？SQuAD通過眾包的方式構(gòu)建了一個(gè)大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集（包含10萬個(gè)問題）。

即將一篇幾百（平均100，最多800）詞左右的短文給標(biāo)注者閱讀，隨后讓標(biāo)注人員提出最多5個(gè)基于文章內(nèi)容的問題并提供正確答案。

SQuAD向參賽者提供訓(xùn)練集用于模型訓(xùn)練，以及一個(gè)規(guī)模較小的數(shù)據(jù)集作為開發(fā)集，用于模型的測試和調(diào)優(yōu)。

與此同時(shí)，他們提供了一個(gè)開放平臺(tái)供參賽者提交自己的算法，并利用測試集對其進(jìn)行評分，評分結(jié)果將實(shí)時(shí)地在SQuAD官網(wǎng)上進(jìn)行更新。

R-NET：基于自匹配網(wǎng)絡(luò)的機(jī)器閱讀理解

為了研究機(jī)器閱讀理解問題，微軟亞洲研究院NLP團(tuán)隊(duì)試圖去建模人做閱讀理解的過程。

他們提出一個(gè)名為R-NET的端到端神經(jīng)網(wǎng)絡(luò)模型，該模型的目的是回答針對給定文本段落的問題。

在R-NET的技術(shù)報(bào)告中，他們首先將問題和文本與門控注意力循環(huán)網(wǎng)絡(luò)（gated attention-based recurrent networks）相匹配，以獲得question-aware的文本表示。

然后，他們提出一個(gè)self-matching的注意力機(jī)制，通過將文本自身進(jìn)行匹配來優(yōu)化表示，從而有效地對整個(gè)段落中的信息進(jìn)行編碼。

最后，研究人員使用提示網(wǎng)絡(luò)（ pointer network）來定位文本中答案的位置。這個(gè)模型在SQuAD和MS-MARCO數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)，在兩個(gè)數(shù)據(jù)集上都取得了很好的結(jié)果。

人在做閱讀理解的過程中，一個(gè)常見的順序是這樣的：首先閱讀整篇文章，對文章有一個(gè)初步理解之后再去審題，從而對問題也有了一定認(rèn)知。

第二步，可能就需要將問題和文中的部分段落和內(nèi)容做一些關(guān)聯(lián)。例如題干中出現(xiàn)的某些關(guān)鍵已知信息（或證據(jù)）的，找出一些候選答案，舉例來說：如果問題問的信息是時(shí)間，那么文中出現(xiàn)的與時(shí)間相關(guān)的信息就可能是候選答案。

第三步，當(dāng)我們將候選答案與問題進(jìn)行對應(yīng)之后，我們還需要綜合全文去看待這些問題，進(jìn)行證據(jù)的融合來輔證答案的正確性。

最后一步，就是針對自己挑出的答案候選進(jìn)行精篩，最終寫下最正確的答案。

R-NET 模型也分為類似這樣的四層。

最下面的一層做表示學(xué)習(xí)，就是給問題和文本中的每一個(gè)詞做一個(gè)表示，即深度學(xué)習(xí)里的向量。這里研究組使用的是多層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。

第二步，就是將問題中的向量和文本中的向量做一個(gè)比對，這樣就能找出那些問題和哪些文字部分比較接近。

接下來，將這些結(jié)果放在全局中進(jìn)行比對。這些都是通過注意力機(jī)制達(dá)到的。

最后一步，針對挑出的答案候選區(qū)中的每一個(gè)詞匯進(jìn)行預(yù)測，哪一個(gè)詞是答案的開始，到哪個(gè)詞是答案的結(jié)束。

這樣，系統(tǒng)會(huì)挑出可能性最高的一段文本，最后將答案輸出出來。整個(gè)過程就是一個(gè)基于以上四個(gè)層面的神經(jīng)網(wǎng)絡(luò)的端到端系統(tǒng)。

圖：微軟亞洲研究院提出的 R-NET 算法的網(wǎng)絡(luò)結(jié)構(gòu)圖。

其中最為獨(dú)特的部分是第三層文章的自匹配網(wǎng)絡(luò)（Self-Matching Networks），更多細(xì)節(jié)參考技術(shù)報(bào)告。

R-NET：一個(gè)用于閱讀理解和問題回答的端到端神經(jīng)網(wǎng)絡(luò)模型，由以下四部分組成：

1）循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器，用于為問題和文本建立表示

2）門控匹配層（gated matching layer），用于匹配問題和文本

3）自匹配層（self-matching layer），用于整合整個(gè)段落的信息

4）基于答案邊界預(yù)測層的提示網(wǎng)絡(luò)（pointer-network）

這項(xiàng)工作在SQuAD數(shù)據(jù)集取得了優(yōu)異的結(jié)果。最新的r-net 集成模型（ensemble）取得了EM（完全匹配）82.650分和F1 88.493分，排名第一的成績，r-net（集成模型）、r-net （單模型）和r-net（單模型）也分別取得第2、第4和第14名的成績。

參考文獻(xiàn)：

[1]R-NET: Machine Reading Comprehension with Self-matching Networks, Natural Language Computing Group, Microsoft Research Asia

[2] 機(jī)器閱讀理解界的 ImageNet：他們?yōu)槭裁纯梢蚤L期穩(wěn)坐第一名

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：汐鈺文藝范 > 《信息廣場》

舉報(bào)/認(rèn)領(lǐng)