自然語言處理趨向更加智能化

洣江 2015-08-04

展開全文

近年來，腦科學(xué)與類腦智能已經(jīng)成為世界各國研究的熱點。記者從近日在天津召開的“類腦智能創(chuàng)新論壇”上獲悉，我國也即將啟動“中國腦計劃”。自然語言處理技術(shù)是各種“腦計劃”的核心技術(shù)之一，未來“中國腦計劃”的構(gòu)建也離不開中文語言處理核心技術(shù)的突破。

　　自然語言處理已到中級階段

　　“簡單來說，‘自然語言處理’就是讓計算機能夠像人一樣使用語言文字?！鄙綎|大學(xué)文學(xué)與新聞傳播學(xué)院教授盛玉麒介紹。“自然語言處理的基本任務(wù)是解決人機交互中涉及的各種技術(shù)問題?！敝袊鐣茖W(xué)院語言研究所研究員李愛軍告訴記者，自然語言處理包括對文本信息的處理以及對語音信息的處理。

　　盛玉麒將自然語言處理研究與應(yīng)用分為三個階段：初級階段的自然語言處理主要解決語言文字的輸入、輸出、存儲、傳輸、顯示、打印、編輯、檢索等功能；中級階段的自然語言處理就是讓機器具有一定的智能，能夠自動識別自然語言指令，按照指令完成信息檢索、數(shù)據(jù)提取、查詢、不同語言的自動翻譯等；高級階段就是智能化處理，速度、容量和正確率都能夠達到接近人的程度。

　　目前學(xué)界和業(yè)界已經(jīng)實現(xiàn)初級階段的任務(wù)，中級階段也取得了一些關(guān)鍵性突破，諸如電子詞典、快譯通、機器翻譯等，體現(xiàn)了相關(guān)技術(shù)的產(chǎn)品化。盛玉麒談到，不過，整體來看這些技術(shù)應(yīng)用的正確率還不理想，自然語言處理的中級階段還處在攻關(guān)過程中，離高級階段的真正智能化目標還有較遠距離。

　　規(guī)則與統(tǒng)計相結(jié)合

　　破解自然語言處理難題

　　如何才能讓計算機像人類一樣使用語言文字？杭州師范大學(xué)錢江學(xué)者講座教授馮志偉研究自然語言處理已50多年，他表示，“為了使現(xiàn)實的自然語言成為可以由計算機直接處理的對象，我們都需要建立語言的‘形式模型’，使之能以一定的數(shù)學(xué)形式，嚴密而規(guī)整地表示出來，建立自然語言的‘計算模型’，使之能夠在計算機上實現(xiàn)。”

　　李愛軍告訴記者，完成自然語言處理要克服一系列難題，比如單語分析任務(wù)中語言的歧義性，遠距離相關(guān)性，動態(tài)性，隨意性以及多語任務(wù)中的語序差異性，語義集合的差異性，表達習(xí)慣差異性等。

　就漢語而言，在歧義性方面，漢語的詞形變化較少，語義的確定更多地依賴上下文及場景關(guān)系；而在隨意性方面，漢語的語法結(jié)構(gòu)更為靈活多變?！坝捎跐h語的語言特征，學(xué)界在中文自然語言處理中面臨更多難題?！倍嗄陙韽氖聺h語自然語言處理的盛玉麒對此深有體會，漢語的自動分詞、詞性標注、規(guī)則提取、規(guī)則描寫、歧義消解等方面是中文自然語言處理重要瓶頸。

　　基于這些難題，自然語言處理的研究歷經(jīng)從基于規(guī)則到基于統(tǒng)計、進而規(guī)則與統(tǒng)計相結(jié)合的發(fā)展過程?！霸缙跒榱伺浜匣谝?guī)則的方法而建設(shè)的大量知識庫為自然語言處理研究打下了很好的基礎(chǔ)。但基于規(guī)則的方法難以覆蓋大量的變體和適應(yīng)快速的變化，由此興起了基于統(tǒng)計方法的語言建模。”李愛軍告訴記者。

　　盛玉麒強調(diào)說，基于規(guī)則與基于統(tǒng)計相結(jié)合的路線，成為自然語言處理領(lǐng)域的共識。

　　亟須漢語言文字學(xué)界的參與

　　基于語料庫的知識挖掘、數(shù)據(jù)提取已成為智能化信息處理的領(lǐng)跑者，理論和技術(shù)也漸趨成熟。馮志偉表示，大規(guī)模語料庫的建立為自然語言處理提供了強有力手段。

　　近年來，我國以多種基金項目加大對自然語言處理，特別是對少數(shù)民族語言處理的投入，開展對互聯(lián)網(wǎng)環(huán)境中文言語信息處理重大基礎(chǔ)理論和應(yīng)用研究。李愛軍介紹說，這些研究主要包括互聯(lián)網(wǎng)環(huán)境中文言語感知與表示理論研究；面向復(fù)雜環(huán)境的多言語識別方法與關(guān)鍵技術(shù)等。其中，中國社會科學(xué)院語音與言語科學(xué)重點實驗室承擔(dān)了國家973計劃“互聯(lián)網(wǎng)環(huán)境中文言語信息處理與深度計算的基礎(chǔ)理論和方法項目”中“互聯(lián)網(wǎng)環(huán)境中文言語行為規(guī)律和篇章結(jié)構(gòu)研究”子課題，已經(jīng)成功構(gòu)建互聯(lián)網(wǎng)中文言語信息的表示體系和大規(guī)模多模態(tài)口語語篇庫。

　　針對中文自然語言處理目前存在不盡如人意的情況，盛玉麒認為，主要原因是計算機信息處理與漢語言文字學(xué)的結(jié)合不夠，漢語言文字學(xué)界對于自然語言處理的關(guān)注、參與遠遠不夠?！坝嬎銠C專家需要漢語言學(xué)研究者的配合，將語言學(xué)家的知識、方法和思路轉(zhuǎn)化為自然語言處理的數(shù)據(jù)庫、知識庫、方法庫和規(guī)則庫?！?/span>