199IT數(shù)據(jù)中心微信賬戶:i199IT 大數(shù)據(jù)中蘊(yùn)含著重要的價(jià)值信息,文本大數(shù)據(jù)作為大數(shù)據(jù)的重要組成部分,是人類知識(shí)的主要載體。特征作為數(shù)據(jù)內(nèi)在規(guī)律的反映,將文本大數(shù)據(jù)映射到反映數(shù)據(jù)本質(zhì)的特征空間是文本大數(shù)據(jù)語(yǔ)義理解的重要手段。介紹了文本大數(shù)據(jù)的特征表示、特征學(xué)習(xí),進(jìn)而梳理了特征學(xué)習(xí)在文本大數(shù)據(jù)內(nèi)容理解中的進(jìn)展,最后闡述了基于特征學(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解未來(lái)的發(fā)展趨勢(shì)。 1 引言 近年來(lái),隨著互聯(lián)網(wǎng)、云計(jì)算、社交網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)空間中的信息總量在飛速膨脹,網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。如何充分挖掘大數(shù)據(jù)中蘊(yùn)含的價(jià)值成為全社會(huì)共同關(guān)注的話題。 在20世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(Bill Inmon)提出數(shù)據(jù)倉(cāng)庫(kù)的概念,激活了沉睡在數(shù)據(jù)庫(kù)中多年的歷史數(shù)據(jù),使之用于數(shù)據(jù)分析與決策支持,以挖掘出隱藏在數(shù)據(jù)背后的有價(jià)值信息。而在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)每分鐘都在產(chǎn)生大量的數(shù)據(jù),YouTube每分鐘內(nèi)上傳的視頻長(zhǎng)達(dá)72 h,F(xiàn)acebook上每分鐘共分享了多達(dá)246萬(wàn)條信息,Instagram每分鐘可產(chǎn)生21萬(wàn)張新照片;在數(shù)據(jù)快速增長(zhǎng)、數(shù)據(jù)類型多樣、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的背景下,傳統(tǒng)的基于靜態(tài)、淺層的數(shù)據(jù)分析方法,已經(jīng)無(wú)法適應(yīng)當(dāng)前越來(lái)越多的對(duì)數(shù)據(jù)語(yǔ)義深層理解和計(jì)算應(yīng)用的需求。因此,大數(shù)據(jù)的分析、挖掘成為學(xué)術(shù)界、工業(yè)界共同的研究熱點(diǎn)。 文本大數(shù)據(jù)是網(wǎng)絡(luò)大數(shù)據(jù)的重要組成部分,人們?nèi)粘9ぷ骱蜕钪薪佑|最多的電子文檔也是以文本的形式存在。從海量文本數(shù)據(jù)中挖掘有價(jià)值的信息、知識(shí),一直都是學(xué)術(shù)界研究的熱點(diǎn)問(wèn)題,但是文本大數(shù)據(jù)的復(fù)雜性和規(guī)模性,導(dǎo)致傳統(tǒng)的全量數(shù)據(jù)模式下對(duì)文本進(jìn)行分析變得異常困難。挖掘海量文本數(shù)據(jù)的特征是降低計(jì)算時(shí)空復(fù)雜性、實(shí)現(xiàn)文本語(yǔ)義理解的重要手段。 本文主要介紹近年來(lái)伴隨特征學(xué)習(xí)技術(shù)的發(fā)展,對(duì)海量文本數(shù)據(jù)特征發(fā)現(xiàn),進(jìn)而實(shí)現(xiàn)語(yǔ)義理解方面所取得的新進(jìn)展。 2 文本大數(shù)據(jù)特征 人類是通過(guò)識(shí)別出物體的特征來(lái)認(rèn)識(shí)不同的物體的,因此,特征作為數(shù)據(jù)本質(zhì)的反映是理解數(shù)據(jù)的重要手段。將文本大數(shù)據(jù)映射到其特征空間,首先需要確定文本大數(shù)據(jù)的特征表示方式,正如不同的人認(rèn)識(shí)同一物體時(shí),會(huì)以不同的方式抽象物體的特征,特征表示方式也不盡相同,但是一個(gè)良好的特征表示方式是保證特征可理解、可計(jì)算的基礎(chǔ);在確定了特征表示方式的基礎(chǔ)上,從文本大數(shù)據(jù)中學(xué)習(xí)能夠精確表達(dá)文本語(yǔ)義的特征是實(shí)現(xiàn)內(nèi)容理解的關(guān)鍵。 2.1 特征表示 由于文本大數(shù)據(jù)的多源異構(gòu)性,實(shí)現(xiàn)海量文本的內(nèi)容理解首先需要將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可操作的結(jié)構(gòu)化模型,文本特征表示將文本信息映射到計(jì)算機(jī)可理解的特征空間,從而為計(jì)算機(jī)理解文本語(yǔ)義提供基礎(chǔ)。在文本數(shù)據(jù)分析領(lǐng)域,傳統(tǒng)的算法依賴人工定義反映輸入數(shù)據(jù)性質(zhì)的特征作為模型的輸入,而為了盡可能地反映自然語(yǔ)言規(guī)律,提高算法的準(zhǔn)確性,人工定義特征往往數(shù)量十分龐大,通常這一步驟稱作特征工程。為了生成大量的特征,特征工程首先定義一系列的特征模板(feature template),利用特征模板進(jìn)一步產(chǎn)生語(yǔ)言的特征。例如,在語(yǔ)言模型的研究中,定義三元特征模板(trigram feature template),對(duì)于訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的任意三元組(u,v,w),若在出現(xiàn)詞語(yǔ)u、v的情況下,出現(xiàn)詞語(yǔ)w,則該特征為1;類似地,還可以定義二元特征模板、一元特征模板或詞語(yǔ)前綴模板等。 從特征模板的定義可以看出,最終生成的特征可以高達(dá)數(shù)十萬(wàn)甚至數(shù)百萬(wàn)級(jí)別,這也導(dǎo)致人工定義的特征十分稀疏,只有極少部分的特征為非0值,而當(dāng)測(cè)試語(yǔ)料中出現(xiàn)訓(xùn)練數(shù)據(jù)中沒(méi)有的特征時(shí),將訓(xùn)練數(shù)據(jù)產(chǎn)生的特征應(yīng)用于測(cè)試數(shù)據(jù),效果并不理想;且人工定義特征在面對(duì)特定任務(wù)時(shí),通常存在過(guò)度細(xì)化的問(wèn)題,而面對(duì)海量數(shù)據(jù)時(shí),又存在表示不足的問(wèn)題。 近年來(lái),表示學(xué)習(xí)(representation learning)或非監(jiān)督的特征學(xué)習(xí)(unsupervised feature learning)由于其可以自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)特征,從而有效地避免繁瑣的人工參與,成為重要的研究方向。深度學(xué)習(xí)作為特征學(xué)習(xí)的主要手段,不僅可以利用海量訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)分類、回歸等傳統(tǒng)機(jī)器學(xué)習(xí)的目標(biāo),還可以在模型的訓(xùn)練過(guò)程中產(chǎn)生層次化的抽象特征,該特征表示是提高訓(xùn)練準(zhǔn)確性的重要基礎(chǔ)。圖1[1]對(duì)比了傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在實(shí)現(xiàn)步驟上的不同。 圖 1 深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)步驟對(duì)比 一般而言,特征學(xué)習(xí)的目的在于學(xué)習(xí)一種數(shù)據(jù)的轉(zhuǎn)換方式,用于從數(shù)據(jù)中抽取有效的特征信息,最終使得數(shù)據(jù)的分類、預(yù)測(cè)更加準(zhǔn)確,而有價(jià)值的特征信息應(yīng)該滿足表達(dá)性、抽象性、排他性等要求[2]。 (1)表達(dá)性 表達(dá)性是指合理大小的特征應(yīng)該能夠有效表示足夠大的輸入數(shù)據(jù)。傳統(tǒng)的文本數(shù)據(jù)理解以one-hot的形式表示,n維的空間只能表示n個(gè)特征。分布表示(distributed representations)是一種基于神經(jīng)網(wǎng)絡(luò)的表示方式,其思想來(lái)自于認(rèn)知表示,它認(rèn)為腦中的一個(gè)物體可以用許多描述該物體的神經(jīng)元來(lái)有效表示,這些神經(jīng)元可以獨(dú)立地激活或不激活,例如,一個(gè)n維的二值神經(jīng)元集合,可以描述2n個(gè)不同的數(shù)據(jù),即每一個(gè)數(shù)據(jù)都由所有的神經(jīng)元共同表示,而每個(gè)神經(jīng)元都參與到各個(gè)不同數(shù)據(jù)的表示[3]中去。因此,分布表示可以看作由n維連續(xù)實(shí)值向量構(gòu)成的特征空間,向量的每一維共同構(gòu)成數(shù)據(jù)的特征表示向量,特征表示維度不會(huì)隨著數(shù)據(jù)數(shù)量的增加而增加。 (2)抽象性 文本特征是對(duì)文本數(shù)據(jù)本身的抽象表示,因此文本的特征對(duì)文本數(shù)據(jù)的抖動(dòng)應(yīng)具有相應(yīng)的頑健性,同時(shí)也不應(yīng)該因任務(wù)的不同而變化。通常而言,對(duì)特征的抽象也具有層次性,低層次的抽象特征來(lái)源于輸入數(shù)據(jù),高層次的抽象特征來(lái)源于對(duì)低層次抽象特征的進(jìn)一步學(xué)習(xí),抽象的層次越高對(duì)數(shù)據(jù)抖動(dòng)的不變性就越強(qiáng),例如,相似的詞匯、同義語(yǔ)句應(yīng)該有相似的特征。因此,特征的抽象性反映了特征的不變性和層次性。 (3)排他性 文本特征的排他性是指特征應(yīng)該刻畫數(shù)據(jù)不同方面的性質(zhì),對(duì)于互不相同的性質(zhì),其特征也應(yīng)該互相排斥。例如,文本是由文本的結(jié)構(gòu)、文本中詞語(yǔ)的選擇、文本詞語(yǔ)出現(xiàn)的順序等多種互相關(guān)系的因素共同組成,而有效的特征表示應(yīng)該能夠盡可能多地分離出互相關(guān)聯(lián)的因素,使得不同的抽象特征反映不同的文本內(nèi)在因素。 文本大數(shù)據(jù)特征的表達(dá)性、抽象性和排他性定義了特征表示的不同層次,逐層遞進(jìn)。文本大數(shù)據(jù)的表達(dá)性保證了文本特征必須適合刻畫非結(jié)構(gòu)化數(shù)據(jù),并且特征表示本身能夠以固定的結(jié)構(gòu)描述文本;在此基礎(chǔ)上,文本特征應(yīng)該是對(duì)文本內(nèi)容的歸納和抽象,文本大數(shù)據(jù)是無(wú)窮盡的,但是特征應(yīng)該是有限的;最后,特征的排他性要求特征能夠使一個(gè)對(duì)象區(qū)別于其他對(duì)象,即如果一個(gè)文本具有某個(gè)特征,那么這個(gè)特征就能使這個(gè)文本區(qū)別于不具有這個(gè)特征的文本,從而為文本內(nèi)容的精確理解提供基礎(chǔ)。 2.2 特征學(xué)習(xí) 特征表示規(guī)約了特征的抽象形式,特征學(xué)習(xí)則指在選擇特征表示的規(guī)范下,學(xué)習(xí)數(shù)據(jù)的特征。目前,對(duì)特征的學(xué)習(xí)主要有兩類方法:一類是通過(guò)監(jiān)督學(xué)習(xí)的方法,利用訓(xùn)練數(shù)據(jù)構(gòu)建適合描述數(shù)據(jù)特征的模型;另一類是非監(jiān)督學(xué)習(xí)的方法,該類方法主要通過(guò)降維將數(shù)據(jù)約簡(jiǎn)至特征空間,以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律。近年來(lái),由于深度學(xué)習(xí)可以自動(dòng)發(fā)現(xiàn)結(jié)構(gòu)化深層次特征,從而逐漸成為特征學(xué)習(xí)的主要方法。深度學(xué)習(xí)本質(zhì)上是一個(gè)深度、多層的神經(jīng)網(wǎng)絡(luò)模型,由于它在圖像處理、語(yǔ)音識(shí)別、自然語(yǔ)言處理等應(yīng)用上的重大突破而成為研究熱點(diǎn)。 2006年,Hinton等人[4]利用受限玻爾茲曼機(jī)(restricted Bolzman machine)非監(jiān)督地預(yù)訓(xùn)練(pre-training)深層神經(jīng)網(wǎng)絡(luò)中每一層模型的參數(shù),進(jìn)而利用反向傳播算法有監(jiān)督地更新整體模型的參數(shù),極大地提高了模型在圖像識(shí)別上的準(zhǔn)確率。其中,每一層受限玻爾茲曼機(jī)預(yù)訓(xùn)練得到的模型都可以看作對(duì)圖像不同層次上的抽象特征。因此,早期的深度學(xué)習(xí)算法可分為兩個(gè)階段,首先是對(duì)每一層神經(jīng)網(wǎng)絡(luò)非監(jiān)督地預(yù)訓(xùn)練該層模型參數(shù),得到各層的抽象特征表示,進(jìn)而將預(yù)先訓(xùn)練好的各層神經(jīng)網(wǎng)絡(luò)模型疊加,以構(gòu)成深度模型,并依據(jù)訓(xùn)練數(shù)據(jù)中的標(biāo)注信息對(duì)整個(gè)模型的參數(shù)進(jìn)行調(diào)優(yōu)(finetune),以提高算法的準(zhǔn)確性,從而體現(xiàn)出深度神經(jīng)網(wǎng)絡(luò)復(fù)雜模型帶來(lái)的表示能力提高的優(yōu)勢(shì)。隨著深度學(xué)習(xí)技術(shù)的自身發(fā)展[5,6],深度模型逐漸不再依賴非監(jiān)督的預(yù)訓(xùn)練,而是直接學(xué)習(xí)出結(jié)構(gòu)化的模型并用于預(yù)測(cè),特征學(xué)習(xí)也即通過(guò)深度模型訓(xùn)練得到的層次化的抽象特征。 3 文本大數(shù)據(jù)內(nèi)容理解 由于語(yǔ)言本身是一個(gè)復(fù)雜的結(jié)構(gòu)對(duì)象,借助于特征學(xué)習(xí)方法可以較好地刻畫語(yǔ)言的復(fù)雜結(jié)構(gòu),從而實(shí)現(xiàn)對(duì)文本大數(shù)據(jù)的內(nèi)容理解?;谔卣鲗W(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解目前主要從兩個(gè)方面展開(kāi):第一個(gè)方面是面向非結(jié)構(gòu)化文本,以詞匯為基本單元,抽象詞匯的特征,進(jìn)而組合以表示語(yǔ)句的特征,并在特征表示的基礎(chǔ)上實(shí)現(xiàn)對(duì)文本內(nèi)容的理解;第二個(gè)方面是面向結(jié)構(gòu)化知識(shí)數(shù)據(jù),以知識(shí)表示三元組為基本單元,從非結(jié)構(gòu)化文本中抽取出計(jì)算機(jī)可操作的結(jié)構(gòu)化知識(shí),實(shí)現(xiàn)知識(shí)的發(fā)現(xiàn)、推理等,從而理解文本的內(nèi)容。 3.1 面向非結(jié)構(gòu)化文本的內(nèi)容理解 詞匯作為自然語(yǔ)言的最小組成單元,學(xué)習(xí)其特征是讓計(jì)算機(jī)理解詞匯進(jìn)而理解文本的基礎(chǔ);在理解詞匯的基礎(chǔ)上,闡述語(yǔ)義組合方法,語(yǔ)義組合通過(guò)將詞匯組合成短語(yǔ)、語(yǔ)句的特征表示,從而讓計(jì)算機(jī)理解文本大數(shù)據(jù)內(nèi)容。 3.1.1 詞匯理解 在計(jì)算機(jī)中,所有的字符都是以固定的編碼形式表示,例如,漢字“中”在Unicode編碼中表示為“4E2D”,字母“A”的Unicode編碼為“0041”。計(jì)算機(jī)中的文字是由無(wú)任何意義的編碼拼接而成,均無(wú)法直接應(yīng)用于文本理解。因此,一種能夠刻畫詞匯語(yǔ)義特征的表示方式是實(shí)現(xiàn)詞匯語(yǔ)義理解的關(guān)鍵。 以詞匯為基本單位,旨在研究建立合適的詞語(yǔ)表示模型,經(jīng)典的當(dāng)屬以WordNet[7]和知網(wǎng)(HowNet)[8]為代表的人工編制的知識(shí)庫(kù)。WordNet中每個(gè)詞項(xiàng)(synsets)都代表詞匯的一個(gè)具體含義,詞項(xiàng)間通過(guò)詞義的語(yǔ)義關(guān)系建立聯(lián)系,形成完善的詞匯網(wǎng)絡(luò),以表達(dá)詞匯語(yǔ)義。知網(wǎng)則是把概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系構(gòu)成網(wǎng)狀的知識(shí)系統(tǒng),知網(wǎng)定義義原為最小的語(yǔ)義概念單元,并通過(guò)義原對(duì)義項(xiàng)的結(jié)構(gòu)屬性相互關(guān)系描述詞匯語(yǔ)義。這類人工知識(shí)庫(kù)對(duì)詞匯的語(yǔ)義描述雖然準(zhǔn)確,但是其規(guī)模小,缺乏可擴(kuò)展性和自適應(yīng)能力,難以滿足文本大數(shù)據(jù)語(yǔ)義理解的需要。 利用特征學(xué)習(xí)方法實(shí)現(xiàn)詞匯的語(yǔ)義表示源自神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,語(yǔ)言模型的訓(xùn)練目的是最大化詞匯出現(xiàn)的概率分布。在參考文獻(xiàn)[9]中,作者基于前向神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,隨機(jī)初始化訓(xùn)練語(yǔ)料庫(kù)中的詞向量表示,以海量文本作為訓(xùn)練數(shù)據(jù),假設(shè)在文本中套用滑動(dòng)窗口產(chǎn)生的短句為正例樣本f,將滑動(dòng)窗口中的某個(gè)詞隨機(jī)替換為詞典中的任一詞所產(chǎn)生的錯(cuò)誤短句為負(fù)樣本f′,并令正例樣本的得分比負(fù)例樣本的得分高,以Hinge loss為目標(biāo)函數(shù),該目標(biāo)函數(shù)在正例樣本和負(fù)例樣本中劃分距離為1的邊界,從而利用反向傳播算法更新詞向量,通過(guò)訓(xùn)練得到的詞匯表示向量,使得相似的詞的特征表示也相似。 由于神經(jīng)語(yǔ)言模型復(fù)雜,基于多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算詞匯表示向量,存在計(jì)算量較大的問(wèn)題,訓(xùn)練時(shí)間往往需要幾天甚至數(shù)周。Mikolov等人[10]提出了Word2vec模型,該模型極大簡(jiǎn)化了多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),僅包含一層投影層,使得計(jì)算效率大幅提高。該模型包括連續(xù)詞袋模型(continue bag of words,CBOW)和Skip-gram模型兩種詞向量的訓(xùn)練方法。CBOW模型的目標(biāo)是給定窗口為n的上下文wc,預(yù)測(cè)中間的詞wi,其中,投影層為對(duì)所有的上下文詞向量求平均值,即 ,并利用投影層預(yù)測(cè)目標(biāo)詞wi的概率;Skip-gram模型的目標(biāo)則是給定目標(biāo)詞wi,預(yù)測(cè)上下文的詞wc的概率。 3.1.2 語(yǔ)義組合 詞匯特征表示向量在一定程度上解決了詞匯的語(yǔ)義理解問(wèn)題,語(yǔ)義組合則是將詞匯組合成詞組或者語(yǔ)句的語(yǔ)義表示形式,已實(shí)現(xiàn)語(yǔ)句級(jí)的語(yǔ)義理解。語(yǔ)義組合符合人們理解語(yǔ)句的方式,人們理解語(yǔ)句不是通過(guò)直接記憶句子,而是在理解詞語(yǔ)和詞語(yǔ)組合方式的基礎(chǔ)上理解句子的含義。語(yǔ)義組合的目的是將基本的詞語(yǔ)單元組合,以表達(dá)復(fù)雜語(yǔ)句的語(yǔ)義,語(yǔ)句整體的語(yǔ)義看作部分語(yǔ)義的組合函數(shù)。因此,語(yǔ)義組合是詞匯語(yǔ)義理解向語(yǔ)句語(yǔ)義理解的重要手段。語(yǔ)義組合函數(shù)定義為[12]:p=f(u,v,R,K),其中,u、v表示待組合部分,R表示u、v間的關(guān)系,K表示用于語(yǔ)義組合的其他上下文知識(shí)。 若將R定義為簡(jiǎn)單的線性關(guān)系,則可以實(shí)現(xiàn)基于加法p=u+v和乘法p=u·v的組合函數(shù),這種組合方式雖然簡(jiǎn)單,但在組合時(shí)忽略了詞在文本中出現(xiàn)的順序,即u+v=v+u或u·v=v·u,存在明顯的缺陷。這導(dǎo)致不同含義的詞組可能有相同的表示形式,例如“種子植物”和“植物種子”有相同的表示,但是這兩個(gè)詞組前者描述一類植物,后者表示種子,意義并不相同。有研究顯示,英文文章的含義 80%來(lái)自于詞的選擇, 20%來(lái)自于詞的順序,因此忽略詞序?qū)φZ(yǔ)義理解有較大的損失。 基于特征學(xué)習(xí)的復(fù)雜模型由于符合語(yǔ)義組合的方式、刻畫語(yǔ)句的特征,獲得廣泛的關(guān)注,并在語(yǔ)句的語(yǔ)義理解上取得很好的效果。遞歸自編碼(recursive autoencoders)[13]是一種非線性的語(yǔ)義組合模型,它以遞歸的方式組合自編碼網(wǎng)絡(luò),構(gòu)建短語(yǔ)或句子的語(yǔ)義特征表示。遞歸自編碼模型是由自編碼模型組合而成,自編碼模型是一種非監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,該模型以輸出數(shù)據(jù)約等于輸入數(shù)據(jù)為訓(xùn)練目標(biāo)更新模型參數(shù),得到編碼后的隱藏層g為模型輸入數(shù)據(jù)的特征。如圖2所示,u、 v為待組合的兩個(gè)詞語(yǔ)的特征表示向量,利用自編碼模型計(jì)算組合后詞組的特征表示,為了訓(xùn)練詞組的特征表示 ,模型解碼詞組特征得到 ,并以 為目標(biāo)訓(xùn)練模型的參數(shù)和詞組的特征表示向量。如圖3所示,在得到二元詞組的語(yǔ)義組合表示的基礎(chǔ)上,可以遞歸地?cái)U(kuò)展為一棵二叉樹(shù)的結(jié)構(gòu)以實(shí)現(xiàn)語(yǔ)義擴(kuò)展。目前,將句子構(gòu)建成樹(shù)有兩種方式:一是利用貪心算法構(gòu)建一棵樹(shù),對(duì)于長(zhǎng)度為n的句子,計(jì)算n-1個(gè)連續(xù)二元詞組所構(gòu)造的自編碼模型錯(cuò)誤率,選擇錯(cuò)誤率最低的兩個(gè)節(jié)點(diǎn)組合構(gòu)成一棵二叉樹(shù),在剩下的n-2個(gè)節(jié)點(diǎn)中,繼續(xù)選擇自編碼模型錯(cuò)誤率最低的連續(xù)兩個(gè)節(jié)點(diǎn)組合,直到組合至根節(jié)點(diǎn)為止;二是利用語(yǔ)法樹(shù)構(gòu)建遞歸自編碼,該方法將句子解析為語(yǔ)法樹(shù)的形式,這不僅降低了計(jì)算復(fù)雜性,還保留了句子的語(yǔ)法結(jié)構(gòu),因此語(yǔ)義組合后能得到更好的語(yǔ)句特征。 圖 2 自編碼模型 圖 3 基于遞歸自編碼的語(yǔ)義組合模型 利用語(yǔ)義組合方法構(gòu)建的抽象語(yǔ)句特征表示,可以更好地識(shí)別出語(yǔ)句的內(nèi)在語(yǔ)義,使得相似的語(yǔ)句有相似的特征表示,從而用于語(yǔ)句的情感挖掘、詞組相似性、同義語(yǔ)句識(shí)別等語(yǔ)義理解任務(wù)中。 3.2 面向結(jié)構(gòu)化知識(shí)的內(nèi)容理解 結(jié)構(gòu)化知識(shí)是文本內(nèi)容理解的產(chǎn)物,同時(shí)也可用于文本的內(nèi)容理解。知識(shí)數(shù)據(jù)作為搜索引擎、智能問(wèn)答重要的信息源,扮演著越來(lái)越重要的角色。通過(guò)知識(shí)圖譜可以建立實(shí)體的關(guān)系網(wǎng)絡(luò),賦予豐富的語(yǔ)義信息,從而為文本理解提供基礎(chǔ)。 3.2.1 知識(shí)表示 將知識(shí)表示成計(jì)算機(jī)可計(jì)算的符號(hào)化形式,是讓計(jì)算機(jī)理解知識(shí)的基礎(chǔ)。對(duì)知識(shí)表示的研究伴隨著計(jì)算機(jī)的整個(gè)發(fā)展階段,提出了一系列表示方法,如謂詞邏輯表示方法、框架式表示方法、產(chǎn)生式表示方法和面向?qū)ο蟊硎痉椒ǖ龋煌闹R(shí)表示方法對(duì)問(wèn)題解決有不同的幫助。良好的知識(shí)表示方法應(yīng)能滿足不同類型使用者的要求,一般來(lái)說(shuō),對(duì)知識(shí)表示的要求應(yīng)考慮以下幾個(gè)方面:表示知識(shí)的范圍要廣泛,表示的形式要適合于推理,并且要具有可解釋的能力。 隨著語(yǔ)義網(wǎng)的發(fā)展,將知識(shí)以本體(ontology)的形式進(jìn)行組織,以描述概念和概念間的關(guān)系,這已經(jīng)成為重要的知識(shí)表示方式;但是,由于本體的結(jié)構(gòu)過(guò)于復(fù)雜,近年來(lái)語(yǔ)義結(jié)構(gòu)相對(duì)簡(jiǎn)單的知識(shí)圖譜成為知識(shí)表示的熱門發(fā)展方向。 通常,知識(shí)圖譜包括大量的實(shí)體(如奧巴馬、夏威夷)、實(shí)體的語(yǔ)義類別(如奧巴馬屬于政治家分類,夏威夷屬于城市的分類)和實(shí)體間的關(guān)系(如奧巴馬和夏威夷的關(guān)系是奧巴馬出生于夏威夷),并以三元組的形式表示(主體,關(guān)系,客體),記作(el,r,er)(如(奧巴馬,出生于,夏威夷))。 由于知識(shí)圖譜的重要作用,學(xué)術(shù)界和工業(yè)界都在努力構(gòu)建大規(guī)模知識(shí)圖譜,以滿足實(shí)際應(yīng)用需要,其中,典型的知識(shí)圖譜包括Freebase、NELL(never-ending language learning)等。Freebase是以眾包的形式構(gòu)建的知識(shí)圖譜,因而包含一定的噪音數(shù)據(jù),目前已包含大于4 000萬(wàn)個(gè)實(shí)體、大于20 000種關(guān)系,共大約19億條記錄;而NELL項(xiàng)目自2010年以來(lái),不斷地從互聯(lián)網(wǎng)中抽取結(jié)構(gòu)化數(shù)據(jù),且不停地迭代更新已有數(shù)據(jù)的置信度,目前已累計(jì)超過(guò)5 000萬(wàn)條知識(shí)數(shù)據(jù)。 3.2.2 知識(shí)發(fā)現(xiàn) 利用特征學(xué)習(xí)表示知識(shí)數(shù)據(jù)是在詞匯特征表示捕捉詞匯語(yǔ)義的基礎(chǔ)上,構(gòu)建關(guān)系的表示方法,進(jìn)而實(shí)現(xiàn)結(jié)構(gòu)化知識(shí)的發(fā)現(xiàn)。其中,經(jīng)典的工作是TransE模型[14],該模型將三元組中的關(guān)系看作主體到客體的翻譯,使得三元組滿足的線性轉(zhuǎn)換。利用特征表示向量描述實(shí)體和關(guān)系,可以更加容易地計(jì)算實(shí)體間的語(yǔ)義關(guān)系。但是該方法不能很好地刻畫多對(duì)一、一對(duì)多或多對(duì)多的關(guān)系,例如在多對(duì)一的關(guān)系中,在關(guān)系r和客體的特征表示向量相同的情況下,由于三元組滿足el+r?er的映射要求,使得不同主體的特征表示也會(huì)相同,這顯然不符合特征的語(yǔ)義表示,因此該模型未來(lái)還有繼續(xù)改進(jìn)的空間。在得到實(shí)體、關(guān)系的特征語(yǔ)義表示的基礎(chǔ)上,可以進(jìn)一步實(shí)現(xiàn)關(guān)系的抽取和發(fā)現(xiàn)。例如,給定主體el和客體er,通過(guò)判斷與er-el最相似的關(guān)系特征表示向量r,確認(rèn)兩個(gè)實(shí)體間的關(guān)系;或在給定主體el和關(guān)系r的情況下,判斷與el+r最相似的客體er,從而發(fā)現(xiàn)新的三元組知識(shí)數(shù)據(jù)。實(shí)驗(yàn)顯示,通過(guò)簡(jiǎn)單的向量加減法可以發(fā)現(xiàn)新的事實(shí)數(shù)據(jù)或判斷實(shí)體間的關(guān)系,這極大提高了知識(shí)發(fā)現(xiàn)的效率。 3.2.3 知識(shí)推理 計(jì)算機(jī)的推理能力是計(jì)算機(jī)智能的重要體現(xiàn)。在知識(shí)圖譜中,基于實(shí)體關(guān)系的推理是發(fā)現(xiàn)隱藏知識(shí)的重要手段。傳統(tǒng)的基于規(guī)則的推理方式,由于完全依賴人為定義,發(fā)現(xiàn)的關(guān)系受限于人為定義的規(guī)則庫(kù),因此自動(dòng)化的關(guān)系推理是豐富現(xiàn)有知識(shí)圖譜的重要手段。在基于線性關(guān)系發(fā)現(xiàn)知識(shí)數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步擴(kuò)展線性轉(zhuǎn)換關(guān)系,可以實(shí)現(xiàn)多關(guān)系組合推理[15],給定兩個(gè)相關(guān)聯(lián)三元組(el, r,er)和(er,r’,er’),根據(jù)三元組的線性變換規(guī)則,可以認(rèn)為在實(shí)體、關(guān)系的特征語(yǔ)義空間中,多個(gè)三元組間存在的組合推理關(guān)系,從而實(shí)現(xiàn)知識(shí)的推理。 3.2.4 隱式關(guān)系發(fā)現(xiàn) 知識(shí)圖譜是對(duì)文本大數(shù)據(jù)內(nèi)容理解的產(chǎn)物,同時(shí),知識(shí)圖譜作為豐富的知識(shí)資源可以反作用于文本的內(nèi)容理解。由于個(gè)體文檔通常只包含少量的關(guān)系數(shù)據(jù),這些關(guān)系數(shù)據(jù)可能不足以體現(xiàn)完整的實(shí)體關(guān)系網(wǎng),但是通過(guò)與已有的知識(shí)圖譜匹配,可以完善實(shí)體間的關(guān)系,從而發(fā)現(xiàn)現(xiàn)有文本中無(wú)法挖掘的隱式關(guān)系,滿足文本數(shù)據(jù)深層次內(nèi)容理解的需要。 4 基于特征學(xué)習(xí)的文本內(nèi)容理解發(fā)展趨勢(shì) 基于特征學(xué)習(xí)的方法在文本內(nèi)容理解問(wèn)題上已經(jīng)取得了一系列突破,未來(lái)結(jié)合網(wǎng)絡(luò)大數(shù)據(jù)的涌現(xiàn),對(duì)文本內(nèi)容理解的研究還將繼續(xù)發(fā)展。針對(duì)非結(jié)構(gòu)化文本的內(nèi)容理解,深度學(xué)習(xí)由于其可以抽象高層次的概念特征,是未來(lái)重要的研究方向;而針對(duì)結(jié)構(gòu)化知識(shí)的內(nèi)容理解,知識(shí)圖譜可以結(jié)構(gòu)化、形式化地刻畫文本的語(yǔ)義內(nèi)容,進(jìn)而實(shí)現(xiàn)關(guān)聯(lián)推理,是實(shí)現(xiàn)文本內(nèi)容深度理解的重要手段。 深度學(xué)習(xí)作為非結(jié)構(gòu)化文本內(nèi)容理解的重要方法,未來(lái)將繼續(xù)探索適合文本內(nèi)容理解的模型,以提高內(nèi)容理解的準(zhǔn)確性。語(yǔ)言是一種序列模型,語(yǔ)言本身具有一定連續(xù)性,因此一個(gè)能刻畫語(yǔ)言時(shí)序特征的模型是實(shí)現(xiàn)文本內(nèi)容理解的重要基礎(chǔ)。由于遞歸神經(jīng)網(wǎng)絡(luò)具有一定的時(shí)序性和記憶性,利用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本的特征符合語(yǔ)言的形式,在機(jī)器翻譯、自然語(yǔ)言生成等應(yīng)用中都取得較好的結(jié)果,遞歸神經(jīng)網(wǎng)絡(luò)正逐漸成為文本內(nèi)容理解的重要模型。在遞歸神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,有研究進(jìn)一步提出有長(zhǎng)期記憶能力的遞歸模型,并將該模型用于自動(dòng)問(wèn)答中[16],取得了較好的結(jié)果。具有較強(qiáng)記憶能力的模型對(duì)于文本內(nèi)容理解起著重要的作用。 同時(shí),對(duì)基于深度學(xué)習(xí)方法自動(dòng)學(xué)習(xí)的文本特征的可解釋性也是未來(lái)研究的方向。不同于直觀的人工定義特征,通過(guò)特征學(xué)習(xí)方法得到文本抽象特征,其對(duì)人而言的可解釋性并不強(qiáng)。最近,Google的研究人員提出了Deep Dream方法,可視化地針對(duì)圖像識(shí)別的深度模型各層特征。對(duì)于文本而言,目前對(duì)于文本的抽象特征以及模型自身的可解釋性都還有待進(jìn)一步研究,只有理解了模型及其抽象特征,才能更好地實(shí)現(xiàn)文本內(nèi)容的理解。 知識(shí)圖譜作為結(jié)構(gòu)化知識(shí)的重要組織形式,刻畫實(shí)體關(guān)系的演化是重要發(fā)展方向。實(shí)體間的關(guān)系是不斷演化發(fā)展的,具有時(shí)序性,因此有其自身的生命周期,繪制一張動(dòng)態(tài)的知識(shí)關(guān)系網(wǎng),對(duì)文本大數(shù)據(jù)內(nèi)容理解的實(shí)時(shí)性有很大幫助。此外,目前的知識(shí)圖譜圍繞實(shí)體展開(kāi),描述實(shí)體間的關(guān)系;未來(lái)如何從文本大數(shù)據(jù)中抽取事件信息,實(shí)現(xiàn)事件的發(fā)現(xiàn)和推理,是文本大數(shù)據(jù)全面深入內(nèi)容理解的重要方向。 5 結(jié)束語(yǔ) 隨著文本大數(shù)據(jù)的涌現(xiàn),文本處理已經(jīng)從數(shù)據(jù)不足轉(zhuǎn)向數(shù)據(jù)過(guò)量,雖然文本大數(shù)據(jù)主要是無(wú)標(biāo)注或者弱標(biāo)注的數(shù)據(jù),但是這類數(shù)據(jù)正好為特征學(xué)習(xí)方法提供了數(shù)據(jù)基礎(chǔ),進(jìn)而實(shí)現(xiàn)了特征發(fā)現(xiàn)基礎(chǔ)上的文本語(yǔ)義理解?;谔卣鲗W(xué)習(xí)的文本內(nèi)容理解有了許多探索和突破,但是由于自然語(yǔ)言自身的復(fù)雜性、模糊性,特征學(xué)習(xí)需要更為準(zhǔn)確的結(jié)構(gòu)以刻畫自然語(yǔ)言。相信隨著特征學(xué)習(xí)技術(shù)的發(fā)展和對(duì)自然語(yǔ)言本身認(rèn)識(shí)的加深,對(duì)文本大數(shù)據(jù)的內(nèi)容理解能力一定會(huì)進(jìn)一步提高。 作者,袁書寒,向陽(yáng),鄂世嘉,同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 大數(shù)據(jù)期刊 |
|