2017年2月12日下午,“語英坊”(EngLing Workshop)系列學術講座的第一講在北京社科書店成功舉行。國際世界語學院(Akademio de Esperanto)院士、浙江大學求是特聘教授、廣東外語外貿大學云山領軍學者劉海濤,就“大數(shù)據(jù)時代的語言研究:距離與方向”這一主題,為約70位與會專家、學者、企業(yè)界代表及其他社會各界聽眾帶來了一場精彩的講座。 中國社會科學院語言研究所《當代語言學》期刊責任編輯王大惟副研究員組織并主持了此次講座。 劉海濤教授在歷時近三個小時的講座中,針對語言研究在“大數(shù)據(jù)”時代面臨的挑戰(zhàn)與機遇,以他及所率團隊在語言學領域多年來潛心鉆研、享譽國際的學術成果為例,深入淺出地講解了如何以(依存)距離和方向為綱,通過文本的計量來進行語言與認知及語言類型方面的研究。貫穿講座始終的“中國語言學國際化與科學化”這一議題,引起聽眾的極大共鳴。在“大數(shù)據(jù)”時代,語言學如何從藝術與人文學科向生命與認知科學轉向,中國語言學如何走向國際,乃至語言學如何實現(xiàn)科學化這些問題振聾發(fā)聵,引發(fā)了每位參會人員的深思?,F(xiàn)場氣氛熱烈,聽眾還就研究方法、數(shù)據(jù)獲取及研究課題等方面跟劉海濤教授展開了廣泛而深入的交流。 講座一開始,劉海濤教授援引了舍恩伯格(Viktor Mayer-Sch?nberger)和庫克耶(Kenneth Cukier)在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中的一段話: 借此,劉海濤教授引出了本次講座的核心:轉變。大數(shù)據(jù)開啟了一次重大的時代轉型。 與傳統(tǒng)的研究方式相比,大數(shù)據(jù)時代給我們帶來了三大轉變: 這種轉變將為人類的生活創(chuàng)造前所未有的可量化的維度,之前無法量化的研究對象可以通過量化展開精確研究。例如,Lieberman等(2007)通過對跨越200年的文本中英語不規(guī)則動詞的規(guī)則化使用的量化研究,發(fā)現(xiàn)經(jīng)常使用的不規(guī)則動詞不容易規(guī)則化,而不經(jīng)常使用的不規(guī)則動詞反而容易規(guī)則化,這也是 chide 這個罕用詞被稱為“世界最快動詞”的緣由。 英語不規(guī)則動詞的規(guī)則變化規(guī)律 以上研究表明,數(shù)據(jù)的量化分析有助于揭示過去不好分析或無法分析的語言事實與規(guī)律。哈佛大學政治學系教授加里·金(Gary King)在最近的一次演講中也提出了類似的觀點(http://news./info/1007/1275714.htm)。他指出: 在其他人文學科中,數(shù)據(jù)與理論之間也有各自的問題。對此,劉海濤教授提出了自己對“數(shù)字(數(shù)據(jù))人文”的一些看法。數(shù)字人文的真諦是:把數(shù)字(數(shù)據(jù))與知識、社會、文化、行為、人聯(lián)系在一起,而不是簡單地把一本書、一幅畫數(shù)字化后保存在計算機里;通過可視化的方法,更直觀地展現(xiàn)這種聯(lián)系;以及通過數(shù)理統(tǒng)計方法,更科學地解釋數(shù)據(jù)背后隱藏的有關人類認知、行為的模式以及人與社會、自然交互的規(guī)律。 在此背景下,語言學家的任務是什么呢?我們知道,語言學是研究語言結構與演化規(guī)律的學科。語言的輸出端是線性結構,而人腦中是網(wǎng)絡結構,二者具有不同的結構。那么線性結構與網(wǎng)絡結構之間的轉換是如何及何時進行的?再者,字同現(xiàn)、詞同現(xiàn)、句法、語義、概念等層面有什么區(qū)別?這其中又有什么規(guī)律?對于這些問題,劉海濤教授指出,我們都可以通過對真實語料(大數(shù)據(jù))的研究來探求。正如伯納德·科姆里(Bernard Comrie)在《語言共性和語言類型》這本書的前言中指出的,“語言學研究語言,而語言是民眾實際所講語言?!?/span> 這樣,才能反映出語言使用的真實面貌,而不是存在于人腦中的假設。Rickheit和Sichelschmidt(2007)也曾明確指出: 可見,語言學家需要為語言學的轉向做好準備,迎接大數(shù)據(jù)時代帶來的研究方法與理念上的轉變。這將有助于中國語言學的國際化與語言研究的科學化進程,進而真正實現(xiàn)作為一門(領先)科學的語言學。 接下來,劉海濤教授結合他和團隊成員多年來的研究經(jīng)歷與學術成果,介紹了在大數(shù)據(jù)時代探索中國語言學國際化與語言研究科學化的成功經(jīng)驗。 這些顯赫的成果背后是劉海濤教授及其團隊多年來在基于依存語法的計量研究方面所做的大量工作與不懈的努力。他們主要從依存距離與認知規(guī)律、依存方向與語言類型學、復雜網(wǎng)絡與形態(tài)學這三個方面展開研究,探索人類語言的普遍特征以及語言類型研究的新范式,在計量語言學、心理語言學、認知科學及語言類型學方面,都具有開創(chuàng)性的重大意義。 劉海濤教授在依存語法的基礎上研究依存距離與依存方向。依存語法是法國語言學家泰尼埃(Tesnière)在對古希臘語、古羅馬語、羅曼語族、斯拉夫語族、匈牙利語、土耳其語和巴斯克語等數(shù)十種語言對比研究的基礎上提出的一種普適的語法理論。劉海濤(2009)總結道,泰尼埃對句子的分析重在尋求句中各詞之間的關系。依存關系是一種詞間句法關系。依存句法是一種以依存關系為基礎的句法理論。 與之相關的另一個重要的學術思想是,語言是人驅動的符號系統(tǒng)(Liu 2014)。現(xiàn)代語言學之父索緒爾提出,語言是一個符號系統(tǒng)。劉海濤教授在此基礎上,強調人的重要作用。因為人兼具心理、生理與社會、自然的屬性,所以語言呈現(xiàn)出一定的普遍性與多樣性。前者對應于一般的認知規(guī)律,后者對應于生態(tài)的多樣性。 接著,劉海濤教授分別從(依存)距離、(依存)方向,以及距離和方向這三個方面介紹了他們的研究工作與成果。 依存距離指的是構成依存關系的支配詞和從屬詞之間的線性距離。對于依存距離的計算與分析可以反映出句子分析的難易程度。因為分析句子就是將一個線性字符串轉換為一個依存結構樹的過程,也就是說: 進而,真實文本的依存距離具有某種分布規(guī)律嗎?這些規(guī)律是人類語言特有的嗎?這些規(guī)律的認知基礎是什么? 他在Hawkins(1994)和Gibson(1998)的理論成果的基礎上進一步提出依存距離的三個假設:(1)人類語言處理機制偏愛的句子,其依存距離要盡可能地?。唬?)這個小的要求是在一個范圍內,與人的工作記憶容量差不多;(3)認知和語法共同起作用。不過,以上研究只采用了一種自然語言的樣本,還無法說明人類語言的共性。 自然語言與隨機語言的依存距離均值 如上圖所示,漢語的依存距離均值最高,為3.66。以上這些語言的依存距離均值,都在現(xiàn)代心理學普遍認定的工作記憶容量為4的閾值內。劉海濤教授的這一發(fā)現(xiàn),是首次使用大規(guī)模真實語料的文本而得出的語言普遍性的規(guī)律,具有重要的創(chuàng)新意義,并對該領域的研究產(chǎn)生了深遠影響。2015年,麻省理工學院弗特勒爾等人(Futrell, et al. 2015)對37種自然語言進行了基于語料庫的大數(shù)據(jù)分析,再次驗證了語言中的依存距離具有最小化的傾向。 掃描右上角二維碼即可下載全文,浙大學報棒棒的! 除了依存距離的最小化,劉海濤教授還對依存距離的分布展開了研究。他提出了如下的問題:依存距離分布有沒有規(guī)律?依存距離分布的規(guī)律是否符合一定的分布模型?依存距離分布模型是否會隨不同語言而異,導致分歧的主要原因是什么? 為什么長句是冪律呢?因為冪律是系統(tǒng)自適應調節(jié)的結果;兩種分布模型分歧的主要原因可能受擬合方法、不同語言、句長和文本大小等因素的影響。 他們提出了一種枚舉依存樹的方法,進行依存句法結構計量研究,結果顯示:語言中的依存交叉并非偶然現(xiàn)象,根據(jù)計數(shù)公式推導出的交叉依存比例,遠高于真實語言樹庫的統(tǒng)計數(shù)據(jù);平均依存距離難以區(qū)分交叉與不交叉依存;依存距離最小化能約束交叉依存比例降至真實語言情況,但此時平均依存距離與真實語言不同。這些說明除受人類認知機制約束外,可能還存在其他因素促使人類語言傾向于不交叉。 劉海濤教授進一步指出,對于語言共性的發(fā)現(xiàn)是具有應用價值的。最近,谷歌的人工智能團隊在機器翻譯上取得了突破性的進展,其核心理念是找到了具有相同含義的句子的共同基礎,而不用考慮他們屬于哪種語言。 (https://www./article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是說,不同語言表示語義和認知的概念結構基本相同,而線性序列則是不同的。 劉海濤團隊的另一個重要發(fā)現(xiàn)是關于依存方向與語序類型之間的關系。在語序的類型學研究中,句中語法單位的線性順序通常被看作是區(qū)分不同的語言的首要條件。Greenberg (1963)在該領域做出了開拓性的成果。在他提出的45種語言的共性中,大多會描述該條共性的使用情況,如: 可見,這些共性的前提條件也是統(tǒng)計的結果,只不過限于當時的研究條件,無法在基于真實語料的大數(shù)據(jù)上來統(tǒng)計?,F(xiàn)在,我們不僅有基于真實文本的語料庫,還有經(jīng)過句法標注的語料庫。其中,依存樹庫就是一個很好的資源。這是因為,在對語言類型的研究中,泰尼埃早就發(fā)現(xiàn)了不同語言在中心語置前還是居后上有不同的傾向性(Tesnière 1959)。而中心語置前還是居后在依存語法就可以表現(xiàn)為支配詞前置或后置,這種信息在依存樹庫中都是有明確的標注的。 維基百科上有人這樣評價這項發(fā)現(xiàn):“該研究為現(xiàn)代的語言類型學提供了一種全新的先進方法。” 二十種語言的依存方向分布 如圖所示,任何一種語言都可以在上述這個連續(xù)統(tǒng)中找到自己的位置。這意味著,語言可以在這個連續(xù)統(tǒng)中根據(jù)距離的遠近來進行聚類分析,而傳統(tǒng)的類型學研究是按照分類標準來劃分出幾個具體的類型。 此外,我們也可以利用依存方向來考察優(yōu)勢語序(dominant order)。 這就說明了,我們可以利用樹庫作為語言類型學研究的數(shù)據(jù)基礎。 跟傳統(tǒng)的類型學的研究相比,劉海濤(Liu 2010)這篇文章所使用的方法具有如下的優(yōu)點與創(chuàng)新性: 它是基于統(tǒng)計和語料庫的; 它具有魯棒性(robust)和非離散性; 它是細粒度的; 它是對語言更為整體性的類型學方法; 它可以跟計算語言學共享語言資源。 英國著名語言學家Hudson教授對這篇論文贊賞有加,說它充滿了原創(chuàng)性的思想和重要的數(shù)據(jù)。 敬請期待下篇。精彩內容,豈能錯過?看大家笑的,那是被精彩到了呀。 語英坊,語言奧秘探索者的家園 【logo虛位以待,征集中……】 |
|