【干貨版】劉海濤縱議大數(shù)據(jù)時代的語言研究（上）

犁杖 2017-02-16

展開全文

2017年2月12日下午，“語英坊”（EngLing Workshop）系列學術講座的第一講在北京社科書店成功舉行。國際世界語學院（Akademio de Esperanto）院士、浙江大學求是特聘教授、廣東外語外貿大學云山領軍學者劉海濤，就“大數(shù)據(jù)時代的語言研究：距離與方向”這一主題，為約70位與會專家、學者、企業(yè)界代表及其他社會各界聽眾帶來了一場精彩的講座。

中國社會科學院語言研究所《當代語言學》期刊責任編輯王大惟副研究員組織并主持了此次講座。

劉海濤教授在歷時近三個小時的講座中，針對語言研究在“大數(shù)據(jù)”時代面臨的挑戰(zhàn)與機遇，以他及所率團隊在語言學領域多年來潛心鉆研、享譽國際的學術成果為例，深入淺出地講解了如何以（依存）距離和方向為綱，通過文本的計量來進行語言與認知及語言類型方面的研究。貫穿講座始終的“中國語言學國際化與科學化”這一議題，引起聽眾的極大共鳴。在“大數(shù)據(jù)”時代，語言學如何從藝術與人文學科向生命與認知科學轉向，中國語言學如何走向國際，乃至語言學如何實現(xiàn)科學化這些問題振聾發(fā)聵，引發(fā)了每位參會人員的深思?，F(xiàn)場氣氛熱烈，聽眾還就研究方法、數(shù)據(jù)獲取及研究課題等方面跟劉海濤教授展開了廣泛而深入的交流。

1. 大數(shù)據(jù)時代的轉變

講座一開始，劉海濤教授援引了舍恩伯格（Viktor Mayer-Sch?nberger）和庫克耶（Kenneth Cukier）在《大數(shù)據(jù)時代：生活、工作與思維的大變革》一書中的一段話：

“大數(shù)據(jù)開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙，顯微鏡讓我們能夠觀測微生物一樣，大數(shù)據(jù)正在改變我們的生活以及理解世界的方式，成為新發(fā)明和新服務的源泉，而更多的改變正蓄勢待發(fā)……”。

借此，劉海濤教授引出了本次講座的核心：轉變。大數(shù)據(jù)開啟了一次重大的時代轉型。

與傳統(tǒng)的研究方式相比，大數(shù)據(jù)時代給我們帶來了三大轉變：

要全體，不要抽樣；要效率，不要絕對精確；要相關，不要因果。

這種轉變將為人類的生活創(chuàng)造前所未有的可量化的維度，之前無法量化的研究對象可以通過量化展開精確研究。例如，Lieberman等（2007）通過對跨越200年的文本中英語不規(guī)則動詞的規(guī)則化使用的量化研究，發(fā)現(xiàn)經(jīng)常使用的不規(guī)則動詞不容易規(guī)則化，而不經(jīng)常使用的不規(guī)則動詞反而容易規(guī)則化，這也是 chide 這個罕用詞被稱為“世界最快動詞”的緣由。

英語不規(guī)則動詞的規(guī)則變化規(guī)律

以上研究表明，數(shù)據(jù)的量化分析有助于揭示過去不好分析或無法分析的語言事實與規(guī)律。哈佛大學政治學系教授加里·金（Gary King）在最近的一次演講中也提出了類似的觀點（http://news./info/1007/1275714.htm)。他指出：

在大數(shù)據(jù)時代，我們可以通過量化過去不能量化的信息、使用精妙的統(tǒng)計學方法，使得分析這些信息成為可能。

在其他人文學科中，數(shù)據(jù)與理論之間也有各自的問題。對此，劉海濤教授提出了自己對“數(shù)字（數(shù)據(jù)）人文”的一些看法。數(shù)字人文的真諦是：把數(shù)字（數(shù)據(jù)）與知識、社會、文化、行為、人聯(lián)系在一起，而不是簡單地把一本書、一幅畫數(shù)字化后保存在計算機里；通過可視化的方法，更直觀地展現(xiàn)這種聯(lián)系；以及通過數(shù)理統(tǒng)計方法，更科學地解釋數(shù)據(jù)背后隱藏的有關人類認知、行為的模式以及人與社會、自然交互的規(guī)律。

在此背景下，語言學家的任務是什么呢？我們知道，語言學是研究語言結構與演化規(guī)律的學科。語言的輸出端是線性結構，而人腦中是網(wǎng)絡結構，二者具有不同的結構。那么線性結構與網(wǎng)絡結構之間的轉換是如何及何時進行的？再者，字同現(xiàn)、詞同現(xiàn)、句法、語義、概念等層面有什么區(qū)別？這其中又有什么規(guī)律？對于這些問題，劉海濤教授指出，我們都可以通過對真實語料（大數(shù)據(jù)）的研究來探求。正如伯納德·科姆里（Bernard Comrie）在《語言共性和語言類型》這本書的前言中指出的，“語言學研究語言，而語言是民眾實際所講語言?！?/span>

劉海濤教授強調，語言數(shù)據(jù)來自語言實踐，因此，我們要用真實語料來進行語言研究。

這樣，才能反映出語言使用的真實面貌，而不是存在于人腦中的假設。Rickheit和Sichelschmidt（2007）也曾明確指出：

“語言學已經(jīng)從藝術與人文學科轉向認知與生命科學。語言學的研究方法也從內省式的方法變?yōu)槭褂脧碗s技術與最新設備的實驗方法。”

可見，語言學家需要為語言學的轉向做好準備，迎接大數(shù)據(jù)時代帶來的研究方法與理念上的轉變。這將有助于中國語言學的國際化與語言研究的科學化進程，進而真正實現(xiàn)作為一門（領先）科學的語言學。

2.基于依存語法的計量研究

接下來，劉海濤教授結合他和團隊成員多年來的研究經(jīng)歷與學術成果，介紹了在大數(shù)據(jù)時代探索中國語言學國際化與語言研究科學化的成功經(jīng)驗。

2008年至今，劉海濤教授作為第一（通訊）作者的語言學相關文章，已有17篇收錄于SCI（科學引文索引）、43篇收錄于SSCI（社會科學引文索引）、41篇收錄于A&HCI（人文藝術引文索引）。他也是近十年來被WOS（Web of Science）核心庫（SSCI、A&HCI、SCI）收錄語言學論文最多的大中華區(qū)學者，名列愛思唯爾2014、2015“中國高被引學者”。

這些顯赫的成果背后是劉海濤教授及其團隊多年來在基于依存語法的計量研究方面所做的大量工作與不懈的努力。他們主要從依存距離與認知規(guī)律、依存方向與語言類型學、復雜網(wǎng)絡與形態(tài)學這三個方面展開研究，探索人類語言的普遍特征以及語言類型研究的新范式，在計量語言學、心理語言學、認知科學及語言類型學方面，都具有開創(chuàng)性的重大意義。

劉海濤教授在依存語法的基礎上研究依存距離與依存方向。依存語法是法國語言學家泰尼埃（Tesnière）在對古希臘語、古羅馬語、羅曼語族、斯拉夫語族、匈牙利語、土耳其語和巴斯克語等數(shù)十種語言對比研究的基礎上提出的一種普適的語法理論。劉海濤（2009）總結道，泰尼埃對句子的分析重在尋求句中各詞之間的關系。依存關系是一種詞間句法關系。依存句法是一種以依存關系為基礎的句法理論。

劉海濤教授及其團隊用了十余年時間不斷完善漢語句法標注體系并標注了各種語體的漢語依存樹庫，這些資源為研究漢語句中各詞間的句法關系奠定了重要的基礎。

與之相關的另一個重要的學術思想是，語言是人驅動的符號系統(tǒng)（Liu 2014）。現(xiàn)代語言學之父索緒爾提出，語言是一個符號系統(tǒng)。劉海濤教授在此基礎上，強調人的重要作用。因為人兼具心理、生理與社會、自然的屬性，所以語言呈現(xiàn)出一定的普遍性與多樣性。前者對應于一般的認知規(guī)律，后者對應于生態(tài)的多樣性。

這從另一個角度再次說明，語言研究要注重對語言普遍規(guī)律的探尋與語言多樣性的考察。而基于真實語料的數(shù)據(jù)驅動的研究方法是達到這一目的的一種重要手段。

接著，劉海濤教授分別從（依存）距離、（依存）方向，以及距離和方向這三個方面介紹了他們的研究工作與成果。

2.1 依存距離與認知規(guī)律

依存距離指的是構成依存關系的支配詞和從屬詞之間的線性距離。對于依存距離的計算與分析可以反映出句子分析的難易程度。因為分析句子就是將一個線性字符串轉換為一個依存結構樹的過程，也就是說：

一個詞只能在與其他的詞連接，形成依存關系之后，才能從短時記憶中移去。

進而，真實文本的依存距離具有某種分布規(guī)律嗎？這些規(guī)律是人類語言特有的嗎？這些規(guī)律的認知基礎是什么？

劉海濤（Liu 2007）分別考察了隨機語言和自然語言的依存距離的時序分布，得到了他們的依存距離均值（MDD），發(fā)現(xiàn)依存距離分布是有規(guī)律的，而且跟其他隨機語言相比，人類語言的依存距離是最小的。

他在Hawkins(1994)和Gibson(1998)的理論成果的基礎上進一步提出依存距離的三個假設：（1）人類語言處理機制偏愛的句子，其依存距離要盡可能地?。唬?）這個小的要求是在一個范圍內，與人的工作記憶容量差不多；（3）認知和語法共同起作用。不過，以上研究只采用了一種自然語言的樣本，還無法說明人類語言的共性。

于是，劉海濤（Liu 2008）在二十種語言的真實語料的基礎上展開進一步的研究，并首次發(fā)現(xiàn)，依存距離最小化可能是人類語言的一個普遍規(guī)律。

自然語言與隨機語言的依存距離均值

如上圖所示，漢語的依存距離均值最高，為3.66。以上這些語言的依存距離均值，都在現(xiàn)代心理學普遍認定的工作記憶容量為4的閾值內。劉海濤教授的這一發(fā)現(xiàn)，是首次使用大規(guī)模真實語料的文本而得出的語言普遍性的規(guī)律，具有重要的創(chuàng)新意義，并對該領域的研究產(chǎn)生了深遠影響。2015年，麻省理工學院弗特勒爾等人（Futrell, et al. 2015）對37種自然語言進行了基于語料庫的大數(shù)據(jù)分析，再次驗證了語言中的依存距離具有最小化的傾向。

掃描右上角二維碼即可下載全文，浙大學報棒棒的！

除了依存距離的最小化，劉海濤教授還對依存距離的分布展開了研究。他提出了如下的問題：依存距離分布有沒有規(guī)律？依存距離分布的規(guī)律是否符合一定的分布模型？依存距離分布模型是否會隨不同語言而異，導致分歧的主要原因是什么？

陸前、劉海濤（2016a）對30種語言的真實語料進行了依存距離分布的分析，研究發(fā)現(xiàn)，人類語言依存距離分布具有規(guī)律性；本質上，其分布都是一種指數(shù)和冪律混合的分布模型；多數(shù)語言符合一定的分布模型，指數(shù)和冪律分別較適合擬合“短句”與“長句”的依存距離分布；

為什么長句是冪律呢？因為冪律是系統(tǒng)自適應調節(jié)的結果；兩種分布模型分歧的主要原因可能受擬合方法、不同語言、句長和文本大小等因素的影響。

再者，陸前、劉海濤（2016b）還探討了為什么人類語言不喜歡交叉。

他們提出了一種枚舉依存樹的方法，進行依存句法結構計量研究，結果顯示：語言中的依存交叉并非偶然現(xiàn)象，根據(jù)計數(shù)公式推導出的交叉依存比例，遠高于真實語言樹庫的統(tǒng)計數(shù)據(jù)；平均依存距離難以區(qū)分交叉與不交叉依存；依存距離最小化能約束交叉依存比例降至真實語言情況，但此時平均依存距離與真實語言不同。這些說明除受人類認知機制約束外，可能還存在其他因素促使人類語言傾向于不交叉。

劉海濤教授進一步指出，對于語言共性的發(fā)現(xiàn)是具有應用價值的。最近，谷歌的人工智能團隊在機器翻譯上取得了突破性的進展，其核心理念是找到了具有相同含義的句子的共同基礎，而不用考慮他們屬于哪種語言。

(https://www./article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是說，不同語言表示語義和認知的概念結構基本相同，而線性序列則是不同的。

那么，從大腦中表義相同的網(wǎng)狀結構轉變?yōu)榫€性結構時，就需要符合認知的普遍規(guī)律，而這個受認知機制約束的線性化原則可能就是依存距離最小化。

2.2 依存方向與語言類型學

劉海濤團隊的另一個重要發(fā)現(xiàn)是關于依存方向與語序類型之間的關系。在語序的類型學研究中，句中語法單位的線性順序通常被看作是區(qū)分不同的語言的首要條件。Greenberg (1963)在該領域做出了開拓性的成果。在他提出的45種語言的共性中，大多會描述該條共性的使用情況，如：

“9：在遠遠超過隨機頻率的多數(shù)情況下，涉及全句的疑問小詞或詞綴，在前置詞語言中居于句首，在后置詞語言中居于句末?！?/section>

“17：除了偶然出現(xiàn)的情況外，優(yōu)勢語序為VSO的語言絕大多數(shù)是形容詞居于名詞之后?！?/section>

“18：當描寫性形容詞前置于名詞時，除了偶然出現(xiàn)的情況外，絕大多數(shù)情況是指別詞和數(shù)詞也處于名詞之前?！?/section>

可見，這些共性的前提條件也是統(tǒng)計的結果，只不過限于當時的研究條件，無法在基于真實語料的大數(shù)據(jù)上來統(tǒng)計?，F(xiàn)在，我們不僅有基于真實文本的語料庫，還有經(jīng)過句法標注的語料庫。其中，依存樹庫就是一個很好的資源。這是因為，在對語言類型的研究中，泰尼埃早就發(fā)現(xiàn)了不同語言在中心語置前還是居后上有不同的傾向性（Tesnière 1959）。而中心語置前還是居后在依存語法就可以表現(xiàn)為支配詞前置或后置，這種信息在依存樹庫中都是有明確的標注的。

據(jù)此，劉海濤（Liu 2010）采用二十種語言的大規(guī)模真實語料，考察了這些語言的依存方向分布，發(fā)現(xiàn)語序類型是一個連續(xù)統(tǒng)（如下圖所示）。這是在世界上的首次發(fā)現(xiàn)，該項研究開辟了用大數(shù)據(jù)進行語言類型研究的新路子。

維基百科上有人這樣評價這項發(fā)現(xiàn)：“該研究為現(xiàn)代的語言類型學提供了一種全新的先進方法。”