最近這幾年,大家一起共同經(jīng)歷了 NLP(寫一下全稱,Natural Language Processing) 這一領(lǐng)域井噴式的發(fā)展,從 Word2Vec 到大量使用 RNN、LSTM,從 seq2seq 再到 Attention,Transformer,Bert,直到現(xiàn)在的大模型 GPT-4。作為理解、生成與處理自然語言這一人類生活、交流的核心工具與信息共享的重要載體,計(jì)算語言學(xué)家早在上世紀(jì)五十年代就從“計(jì)算”的視角開始關(guān)注使用“機(jī)器”對(duì)自然語言進(jìn)行處理。而伴隨著各種技術(shù)的逐步成熟,NLP 這一領(lǐng)域蓬勃發(fā)展欣欣向榮,以 ACL 收錄為例,從 1952 年至今,已經(jīng)發(fā)表了超過 80000 論文: 伴隨著出版物的增加,NLP 領(lǐng)域也發(fā)展成為了擁有多個(gè)不同分支,由不同子領(lǐng)域子學(xué)科共同構(gòu)成的大領(lǐng)域大學(xué)科,過去可能有不少綜述 NLP 歷史,梳理 NLP 發(fā)展脈絡(luò)的文章、綜述,但是很遺憾很少有從一個(gè)空間的角度對(duì) NLP 廣泛鋪開的領(lǐng)域進(jìn)行概述的研究。 而今天介紹的這篇由德國(guó)慕尼黑工業(yè)大學(xué)出品的論文,便對(duì)最近 20 年 NLP 研究領(lǐng)域進(jìn)行了一個(gè)詳盡系統(tǒng)的分類與綜述,幫助大家站在一個(gè)上帝視角,概覽 NLP 360 度的全景圖。作者希望通過這樣的工作,可以幫助任何一個(gè) NLP 領(lǐng)域的學(xué)者、從業(yè)者、實(shí)踐者以及初學(xué)者識(shí)別 NLP 的研究趨勢(shì),幫助研究社區(qū)彌補(bǔ)現(xiàn)有的空白,以更好的探索 NLP 中的各種研究領(lǐng)域。 論文題目: 論文鏈接: 1. NLP 究竟包含哪些子領(lǐng)域?要說 NLP 的子領(lǐng)域,隨口一提就可以想到許多,從機(jī)器翻譯到情感分析,從信息檢索到文本生成,但是要以一套結(jié)構(gòu)化的體系完整的概述 NLP 領(lǐng)域的分類法,可能就并不是一件那么輕松的工作。 而論文作者在參考 ACL、EMNLP、COLING 以及 IJCNLP 等 NLP 領(lǐng)域主要會(huì)議網(wǎng)站上列出的最近幾年的投稿主題,以及 ACL Anthology 中包含的研討會(huì)的主題,及 EMNLP 2022 中 828篇論文的研究領(lǐng)域,構(gòu)建了初版的 NLP 領(lǐng)域分類法,同時(shí)為了盡可能全面完整的構(gòu)建 NLP 研究領(lǐng)域的方方面面,作者又與 NLP 不同領(lǐng)域的專家進(jìn)行了 20 余次一對(duì)一的訪談,根據(jù)訪談結(jié)果以及對(duì)初版分類的修訂與完善,作者構(gòu)建了這樣一套 NLP 研究領(lǐng)域分類法如下圖所示: 可以看到,作者共將 NLP 分為了 12 個(gè)大領(lǐng)域,包含多模態(tài)(Multimodality)、自然語言交互( Natural Language Interfaces)、語義解析(Semantic Text Processing)、情感分析(Sentiment Analysis)、句法分析(Syntactic Text Processing)、NLP 中的認(rèn)知語言學(xué)分析(Linguistics & Cognitive NLP)、可解釋 NLP(Responsible & Trustworthy NLP)、邏輯推理(Reasoning)、雙語(Multilinguality)、信息檢索(Information Retrieval)、信息提取與文本挖掘(Information Extraction & Text Mining)、文本生成(Text Generation)。 通過這套分類法,作者使用半人工半自動(dòng)的標(biāo)注方式構(gòu)建了一個(gè)包含 178521 篇論文領(lǐng)域標(biāo)注的訓(xùn)練集,并且訓(xùn)練得到了一個(gè)弱監(jiān)督的論文領(lǐng)域分類器,通過此分類器,作者分類得到了 1952 年至 2022 年 ACL Anthology 中包含的所有共計(jì) 74279 篇論文作為最終的分析研究對(duì)象。 2. NLP 研究領(lǐng)域的發(fā)展脈絡(luò)?雖然 NLP 最早的論文出現(xiàn)在 1952 年,但是其論文數(shù)量至 2000 年才開始緩慢增長(zhǎng),從 2000 年至 2017 年,NLP 的研究數(shù)量增加了四倍,而在接下來的五年中,NLP 的研究數(shù)量又翻了一番,這表明這五年 NLP 領(lǐng)域得到了爆炸式的發(fā)展,而根據(jù)作者構(gòu)建的論文領(lǐng)域分類集,作者研究了 NLP 中最受歡迎的研究領(lǐng)域(Fos)的發(fā)展與變化情況: 可以看到機(jī)器翻譯與語言模型是 NLP 文獻(xiàn)中最受歡迎的研究領(lǐng)域,但是這兩個(gè)領(lǐng)域的發(fā)展變化有著十分明顯的區(qū)別,機(jī)器翻譯是一個(gè)經(jīng)過深入研究,已經(jīng)被建立了許多年的研究論文,發(fā)文數(shù)量以及增長(zhǎng)率都相對(duì)平穩(wěn),而語言模型雖然也經(jīng)過了長(zhǎng)時(shí)間的研究,但是其出版數(shù)量直到 2018 年才開始顯著增長(zhǎng),在關(guān)注其他 NLP 的領(lǐng)域時(shí)也可以看到類似的情況,表示學(xué)習(xí)與文本分類雖然研究廣泛,但是增長(zhǎng)率沒有顯著變化,而對(duì)話系統(tǒng)以及低資源 NLP 則在近期獲得了非常高的增長(zhǎng)率。 而整個(gè) NLP 的研究領(lǐng)域中,也出現(xiàn)了經(jīng)典的二八法則,大多數(shù) NLP 領(lǐng)域的研究程度顯著低于這些最受歡迎的 NLP 領(lǐng)域的研究程度,似乎 NLP 研究的發(fā)展主要來自于熱門領(lǐng)域與應(yīng)用的驅(qū)動(dòng),但是總體而言,NLP 所有領(lǐng)域的研究都在保持正向增長(zhǎng)。 3. 什么才是 NLP 研究的未來?所謂知古方能鑒今,根據(jù)整個(gè) NLP 領(lǐng)域的研究發(fā)展,作者又探究了 NLP 各個(gè)領(lǐng)域的研究趨勢(shì)并探索了 NLP 領(lǐng)域未來的發(fā)展方向: 首先,作者采用矩陣式的方式繪制了從 2018 年到 2022 年 NLP 相關(guān)的各個(gè) FoS 的文章數(shù)量-增長(zhǎng)率矩陣,增長(zhǎng)率高且總體文章數(shù)量的較多的研究領(lǐng)域?qū)儆?NLP 中的“明星”產(chǎn)品,可以看到,占據(jù) NLP 舞臺(tái)中心的領(lǐng)域包括語言模型、可解釋性 NLP、低資源 NLP等,而類似機(jī)器翻譯、文本分類與表示學(xué)習(xí)則由于其高的文章數(shù)量與低的增長(zhǎng)率成為了 NLP 研究的基礎(chǔ),值得關(guān)注的還有一部分保持高增長(zhǎng)率與低文章數(shù)量的研究領(lǐng)域,比如段落檢索、風(fēng)格轉(zhuǎn)換、代碼生成等,這些研究領(lǐng)域雖然近期熱度高漲,但是由于文章數(shù)量較少無法得到明顯的進(jìn)一步發(fā)展趨勢(shì)的判斷。 利用創(chuàng)新擴(kuò)散理論,作者繪制了 NLP 研究領(lǐng)域的創(chuàng)新生命周期圖如上圖所示,從上圖可以看出,語義解析領(lǐng)域已經(jīng)基本步入了夕陽,接近創(chuàng)新生命周期的衰落期,而機(jī)器翻譯、表示學(xué)習(xí)與文本分析整體雖然都比較受歡迎,但是其已經(jīng)過了創(chuàng)新生命周期從成熟到衰落的拐點(diǎn),發(fā)展速度目前正在減緩。而可解釋性 NLP,多模型以及自然語言交互等領(lǐng)域正處于快速發(fā)展期,在未來的研究中很有可能開始加速,而作為明星產(chǎn)品的綠色 NLP 正值當(dāng)打之年,未來可能會(huì)迎來爆發(fā)。 總結(jié)與討論盡管當(dāng)下伴隨著大模型的橫空出世,似乎許多 NLP 問題都一夜之間變成了已經(jīng)被解決的問題,這篇文章很合時(shí)宜的指出,伴隨著 NLP 使用模型越來越大,模型參數(shù)量直逼天文數(shù)字,與之伴生的計(jì)算成本問題、環(huán)境問題以及倫理問題有可能成為未來 NLP 研究的主流。 伴隨著一個(gè)領(lǐng)域的快速發(fā)展,可以宏觀的全景的對(duì)一個(gè)領(lǐng)域有一個(gè)全面的理解是一件相當(dāng)困難的事,而這篇通過收集、分類與判斷以呈現(xiàn)領(lǐng)域結(jié)構(gòu)化概述的工作可能對(duì)我們更加明確的了解我們身處的這個(gè)領(lǐng)域會(huì)非常有幫助吧! |
|