【原】陳根：人工智能——處理語言的機(jī)器

陳根談科技 2021-07-25

展開全文

文/陳根

20世紀(jì)50年代，圖靈提出著名的“圖靈測試”，引出了自然語言處理的思想，而后，經(jīng)過半個多世紀(jì)的跌宕起伏，歷經(jīng)專家規(guī)則系統(tǒng)、統(tǒng)計機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等一系列基礎(chǔ)技術(shù)體系的迭代，如今的自然語言處理技術(shù)在各個方向都有了顯著的進(jìn)步和提升。

自然語言是指漢語、英語、法語等人們?nèi)粘Ｊ褂玫恼Z言，是人類社會發(fā)展演變而來的語言，而不是人造的語言，自然語言是人類學(xué)習(xí)生活的重要工具。

自然語言在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的 80%以上。就計算機(jī)應(yīng)用而言，據(jù)統(tǒng)計，用于數(shù)學(xué)計算的僅占10%，用于過程控制的不到5%，其余 85%左右則都是用于語言文字的信息處理。

自然語言處理（Natural Language Processing，NLP）是將人類交流溝通所用的語言經(jīng)過處理轉(zhuǎn)化為機(jī)器所能理解的機(jī)器語言，是一種研究語言能力的模型和算法框架，是語言學(xué)和計算機(jī)科學(xué)的交叉學(xué)科，是實(shí)現(xiàn)人機(jī)間的信息交流，是人工智能、計算機(jī)科學(xué)和語言學(xué)所共同關(guān)注的重要方向。

自然語言的處理流程大致可分為五步：

第一步，獲取語料。

第二步，對語料進(jìn)行預(yù)處理，其中包括語料清理、分詞、詞性標(biāo)注和去停用詞等步驟。

第三步，特征化，也就是向量化，主要把分詞后的字和詞表示成計算機(jī)可計算的類型（向量），這樣有助于較好的表達(dá)不同詞之間的相似關(guān)系。

第四步，模型訓(xùn)練，包括傳統(tǒng)的有監(jiān)督、半監(jiān)督和無監(jiān)督學(xué)習(xí)模型等，可根據(jù)應(yīng)用需求不同進(jìn)行選擇。

第五步，對建模后的效果進(jìn)行評價，常用的評測指標(biāo)有準(zhǔn)確率（Precision）、召回率（Recall）、F值（F-Measure）等。準(zhǔn)確率是衡量檢索系統(tǒng)的查準(zhǔn)率；召回率是衡量檢索系統(tǒng)的查全率；而F值是綜合準(zhǔn)確率和召回率用于反映整體的指標(biāo)，當(dāng) F 值較高時則說明試驗(yàn)方法有效。

比爾·蓋茨曾說：“語言理解是人工智能皇冠上的明珠”。可以說，誰掌握了更高級的自然語言處理技術(shù)，誰在自然語言處理的技術(shù)研發(fā)中取得了實(shí)質(zhì)突破，誰就將在日益激烈的人工智能軍備競賽中占得先機(jī)。

作為一門包含著計算機(jī)科學(xué)、人工智能以及語言學(xué)的交叉學(xué)科，自然語言處理的發(fā)展也經(jīng)歷了曲折中發(fā)展的過程。

1950 年圖靈提出的著名的“圖靈測試”，被認(rèn)為是自然語言處理思想的開端。20世紀(jì)50年代到70年代自然語言處理主要采用基于規(guī)則的方法，即認(rèn)為自然語言處理的過程和人類學(xué)習(xí)認(rèn)知一門語言的過程是類似的，彼時，自然語言處理還停留在理性主義思潮階段，以基于規(guī)則的方法為代表。

然而，基于規(guī)則的方法具有不可避免的缺點(diǎn)，首先規(guī)則不可能覆蓋所有語句，其次這種方法對開發(fā)者的要求極高，開發(fā)者不僅要精通計算機(jī)還要精通語言學(xué)，因此，這一階段雖然解決了一些簡單的問題，但是無法從根本上將自然語言理解實(shí)用化。

70 年代以后，隨著互聯(lián)網(wǎng)的高速發(fā)展，豐富的語料庫成為現(xiàn)實(shí)以及硬件不斷更新完善，自然語言處理思潮由理性主義向經(jīng)驗(yàn)主義過渡，基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。

賈里尼克和其領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室是推動這一轉(zhuǎn)變的關(guān)鍵，他們采用基于統(tǒng)計的方法，將當(dāng)時的語音識別率從70%提升到90%。在這一階段，自然語言處理基于數(shù)學(xué)模型和統(tǒng)計的方法取得了實(shí)質(zhì)性的突破，從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。

從 20世紀(jì) 90年代開始，自然語言處理進(jìn)入了繁榮期。1993年7月在日本神戶召開的第四屆機(jī)器翻譯高層會議（MT Summit IV）上，英國著名學(xué)者William John Hutchins教授在他的特約報告中指出，自1989年以來，機(jī)器翻譯的發(fā)展進(jìn)入了一個新紀(jì)元。

這個新紀(jì)元的重要標(biāo)志是在基于規(guī)則的技術(shù)中引入了語料庫方法，其中包括統(tǒng)計方法、基于實(shí)例的方法、通過語料加工手段使語料庫轉(zhuǎn)化為語言知識庫的方法等等。這種建立在大規(guī)模真實(shí)文本處理基礎(chǔ)上的機(jī)器翻譯，是機(jī)器翻譯研究史上的一場革命，它將會把自然語言處理推向一個嶄新的階段。隨著機(jī)器翻譯新紀(jì)元的開始，自然語言處理進(jìn)入了它的繁榮期。

尤其是20世紀(jì)90年代的最后5年（1994一1999）以及 21世紀(jì)初期，自然語言處理的研究發(fā)生了很大的變化，出現(xiàn)了空前繁榮的局面。這主要表現(xiàn)在三個方面。

首先，概率和數(shù)據(jù)驅(qū)動的方法幾乎成了自然語言處理的標(biāo)準(zhǔn)方法。句法剖析、詞類標(biāo)注、參照消解和話語處理的算法全都開始引入概率，并且采用從語音識別和信息檢索中借過來的評測方法。

其次，由于計算機(jī)的速度和存儲量的增加，使得在語音和語言處理的一些子領(lǐng)域，特別是在語音識別、拼寫檢查、語法檢查這些子領(lǐng)域，有可能進(jìn)行商品化的開發(fā)。語音和語言處理的算法開始被應(yīng) 用于增強(qiáng) 交替通信(augmentative and alternative communication，AAC）中。

最后，是網(wǎng)絡(luò)技術(shù)的發(fā)展對于自然語言處理產(chǎn)生了的巨大推動力。萬維網(wǎng)（World Wide Web，WWW）的發(fā)展使得網(wǎng)絡(luò)上的信息檢索和信息抽取的需要變得更加突出，數(shù)據(jù)挖掘的技術(shù)日漸成熟。而 WWW 正是由自然語言構(gòu)成的，因此，隨著 WWW的發(fā)展，自然語言處理的研究變得越發(fā)重要。

如今，在圖像識別和語音識別領(lǐng)域的成果激勵下，人們也逐漸開始引入深度學(xué)習(xí)來做自然語言處理研究， 2013年，word2vec將深度學(xué)習(xí)與自然語言處理的結(jié)合推向了高潮，并在機(jī)器翻譯、問答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。

作為多層的神經(jīng)網(wǎng)絡(luò)，深度學(xué)習(xí)從輸入層開始經(jīng)過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓(xùn)練。把輸入到輸出對的數(shù)據(jù)準(zhǔn)備好，設(shè)計并訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)，即可執(zhí)行預(yù)想的任務(wù)。 RNN已經(jīng)成為自然語言處理最常用的方法之一，GRU、LSTM等模型則相繼引發(fā)了一輪又一輪的自然語言識別熱潮。