近年來,腦科學(xué)與類腦智能已經(jīng)成為世界各國研究的熱點。記者從近日在天津召開的“類腦智能創(chuàng)新論壇”上獲悉,我國也即將啟動“中國腦計劃”。自然語言處理技術(shù)是各種“腦計劃”的核心技術(shù)之一,未來“中國腦計劃”的構(gòu)建也離不開中文語言處理核心技術(shù)的突破。 自然語言處理已到中級階段 “簡單來說,‘自然語言處理’就是讓計算機能夠像人一樣使用語言文字?!鄙綎|大學(xué)文學(xué)與新聞傳播學(xué)院教授盛玉麒介紹。“自然語言處理的基本任務(wù)是解決人機交互中涉及的各種技術(shù)問題?!敝袊鐣茖W(xué)院語言研究所研究員李愛軍告訴記者,自然語言處理包括對文本信息的處理以及對語音信息的處理。 盛玉麒將自然語言處理研究與應(yīng)用分為三個階段:初級階段的自然語言處理主要解決語言文字的輸入、輸出、存儲、傳輸、顯示、打印、編輯、檢索等功能;中級階段的自然語言處理就是讓機器具有一定的智能,能夠自動識別自然語言指令,按照指令完成信息檢索、數(shù)據(jù)提取、查詢、不同語言的自動翻譯等;高級階段就是智能化處理,速度、容量和正確率都能夠達到接近人的程度。 目前學(xué)界和業(yè)界已經(jīng)實現(xiàn)初級階段的任務(wù),中級階段也取得了一些關(guān)鍵性突破,諸如電子詞典、快譯通、機器翻譯等,體現(xiàn)了相關(guān)技術(shù)的產(chǎn)品化。盛玉麒談到,不過,整體來看這些技術(shù)應(yīng)用的正確率還不理想,自然語言處理的中級階段還處在攻關(guān)過程中,離高級階段的真正智能化目標還有較遠距離。 規(guī)則與統(tǒng)計相結(jié)合 破解自然語言處理難題 如何才能讓計算機像人類一樣使用語言文字?杭州師范大學(xué)錢江學(xué)者講座教授馮志偉研究自然語言處理已50多年,他表示,“為了使現(xiàn)實的自然語言成為可以由計算機直接處理的對象,我們都需要建立語言的‘形式模型’,使之能以一定的數(shù)學(xué)形式,嚴密而規(guī)整地表示出來,建立自然語言的‘計算模型’,使之能夠在計算機上實現(xiàn)。” 李愛軍告訴記者,完成自然語言處理要克服一系列難題,比如單語分析任務(wù)中語言的歧義性,遠距離相關(guān)性,動態(tài)性,隨意性以及多語任務(wù)中的語序差異性,語義集合的差異性,表達習(xí)慣差異性等。 就漢語而言,在歧義性方面,漢語的詞形變化較少,語義的確定更多地依賴上下文及場景關(guān)系;而在隨意性方面,漢語的語法結(jié)構(gòu)更為靈活多變?!坝捎跐h語的語言特征,學(xué)界在中文自然語言處理中面臨更多難題?!倍嗄陙韽氖聺h語自然語言處理的盛玉麒對此深有體會,漢語的自動分詞、詞性標注、規(guī)則提取、規(guī)則描寫、歧義消解等方面是中文自然語言處理重要瓶頸。 基于這些難題,自然語言處理的研究歷經(jīng)從基于規(guī)則到基于統(tǒng)計、進而規(guī)則與統(tǒng)計相結(jié)合的發(fā)展過程?!霸缙跒榱伺浜匣谝?guī)則的方法而建設(shè)的大量知識庫為自然語言處理研究打下了很好的基礎(chǔ)。但基于規(guī)則的方法難以覆蓋大量的變體和適應(yīng)快速的變化,由此興起了基于統(tǒng)計方法的語言建模。”李愛軍告訴記者。 盛玉麒強調(diào)說,基于規(guī)則與基于統(tǒng)計相結(jié)合的路線,成為自然語言處理領(lǐng)域的共識。 亟須漢語言文字學(xué)界的參與 基于語料庫的知識挖掘、數(shù)據(jù)提取已成為智能化信息處理的領(lǐng)跑者,理論和技術(shù)也漸趨成熟。馮志偉表示,大規(guī)模語料庫的建立為自然語言處理提供了強有力手段。 近年來,我國以多種基金項目加大對自然語言處理,特別是對少數(shù)民族語言處理的投入,開展對互聯(lián)網(wǎng)環(huán)境中文言語信息處理重大基礎(chǔ)理論和應(yīng)用研究。李愛軍介紹說,這些研究主要包括互聯(lián)網(wǎng)環(huán)境中文言語感知與表示理論研究;面向復(fù)雜環(huán)境的多言語識別方法與關(guān)鍵技術(shù)等。其中,中國社會科學(xué)院語音與言語科學(xué)重點實驗室承擔(dān)了國家973計劃“互聯(lián)網(wǎng)環(huán)境中文言語信息處理與深度計算的基礎(chǔ)理論和方法項目”中“互聯(lián)網(wǎng)環(huán)境中文言語行為規(guī)律和篇章結(jié)構(gòu)研究”子課題,已經(jīng)成功構(gòu)建互聯(lián)網(wǎng)中文言語信息的表示體系和大規(guī)模多模態(tài)口語語篇庫。 針對中文自然語言處理目前存在不盡如人意的情況,盛玉麒認為,主要原因是計算機信息處理與漢語言文字學(xué)的結(jié)合不夠,漢語言文字學(xué)界對于自然語言處理的關(guān)注、參與遠遠不夠?!坝嬎銠C專家需要漢語言學(xué)研究者的配合,將語言學(xué)家的知識、方法和思路轉(zhuǎn)化為自然語言處理的數(shù)據(jù)庫、知識庫、方法庫和規(guī)則庫?!?/span> |
|