簡(jiǎn) 王惟晉 中山大學(xué)國(guó)際關(guān)系學(xué)院博士后研究人員主要研究國(guó)際關(guān)系理論中國(guó)外交中歐關(guān)系。 【摘 要】文本是國(guó)際關(guān)系研究必不可少的資料形式。為了更方便地管理和分析文本西方 國(guó)際關(guān)系學(xué)界越來(lái)越多地將文本內(nèi)容轉(zhuǎn)化為數(shù)據(jù)并整合成庫(kù)。信息技術(shù)的發(fā)展使機(jī)器逐步代替研究者進(jìn)行文本數(shù)據(jù)的搜集編碼和分析對(duì)基于文本開(kāi)展的國(guó)際關(guān)系研究貢獻(xiàn)良多。然而數(shù)據(jù)本質(zhì)上是意義單一的符號(hào)數(shù)據(jù)化的過(guò)程會(huì)排除話語(yǔ)的背景信息和深刻內(nèi)涵若研究者以不適當(dāng)?shù)姆绞教幚頂?shù)據(jù)化文本資料則研究結(jié)論的可靠性就會(huì)大打折扣。對(duì)此國(guó)際關(guān)系研究者應(yīng)加強(qiáng)發(fā)展后實(shí)證主義方法確保研究的內(nèi)在邏輯性重視通過(guò)人際交流檢驗(yàn)結(jié)論以克服數(shù)據(jù)化文本資料的局限性。 【關(guān)鍵詞】國(guó)際關(guān)系 文本研究 研究方法 研究智能化 數(shù)據(jù)化 國(guó)際關(guān)系研究者常常借助媒體報(bào)道歷史檔案、政府報(bào)告學(xué)術(shù)文獻(xiàn)等文字材料觀察和研究國(guó)家間的現(xiàn)象和行為。但是研究者搜集的原始文本資料內(nèi)容通常龐雜無(wú)序這讓研究者很難找到問(wèn)題中的關(guān)鍵因子無(wú)法進(jìn)行有效的分析操作。對(duì)此許多國(guó)際關(guān)系研究者將搜集到的文本資料進(jìn)行數(shù)據(jù)化處理建立了大量數(shù)據(jù)庫(kù)實(shí)時(shí)記錄和分析國(guó)際事件等。由于存在重視實(shí)證主義與定量研究方法的學(xué)術(shù)傳統(tǒng)美國(guó)學(xué)界在國(guó)際關(guān)系研究文本的數(shù)據(jù)化方面可謂世界的領(lǐng)導(dǎo)者擁有世界上大部分的著名數(shù)據(jù)庫(kù); 單就公眾輿論數(shù)據(jù)庫(kù)而言美國(guó)校際政治及社會(huì)研究聯(lián)盟( Inter -University Consortium for Political and Socialesearch2011 年前后便已收錄 1889 個(gè)當(dāng)中包含 500 多萬(wàn)組變量規(guī)模遠(yuǎn)超其他國(guó)家美國(guó)還是先行者最早在國(guó)際關(guān)系研究領(lǐng)域開(kāi)展和應(yīng)用文本資料數(shù)據(jù)化還及時(shí)將大數(shù)據(jù)技術(shù)引入至數(shù)據(jù)庫(kù)建設(shè)中現(xiàn)已建立了相對(duì)成熟的國(guó)際關(guān)系大數(shù)據(jù)分析系統(tǒng)。歐洲的學(xué)術(shù)傳統(tǒng)則更注重抽象思辨更多學(xué)者以詮釋學(xué)的路徑開(kāi)展研究因此對(duì)數(shù)據(jù)化的文本資料采取了更謹(jǐn)慎的態(tài)度所建此類數(shù)據(jù)庫(kù)數(shù)量上比美國(guó)少但也取得了不少成果近年亦有學(xué)術(shù)團(tuán)隊(duì)正以大數(shù)據(jù)技術(shù)建設(shè)國(guó)際關(guān)系數(shù)據(jù)庫(kù)。許多中國(guó)國(guó)際關(guān)系學(xué)者認(rèn)為這是大勢(shì)所趨并將在技術(shù)層面引起分析手段和決策模式的革命 然而在信息科學(xué)領(lǐng)域學(xué)者們一致認(rèn)為文本數(shù)據(jù)即便質(zhì)量再好歸根到底也無(wú)法表達(dá)話語(yǔ)中的隱晦含義這種含義能體現(xiàn)國(guó)際行為體的價(jià)值觀規(guī)范和身份認(rèn)同因此經(jīng)過(guò)數(shù)據(jù)化處理的文本資料可對(duì)國(guó)際關(guān)系研究產(chǎn)生潛在影響。換言之文本信息數(shù)據(jù)化對(duì)于國(guó)際關(guān)系研究的影響不但在于數(shù)據(jù)分析技術(shù)層面還可源自文本內(nèi)容本質(zhì)。但是目前從數(shù)據(jù)本質(zhì)的角度對(duì)文本信息數(shù)據(jù)化的影響進(jìn)行的思考尚有不足這導(dǎo)致學(xué)界對(duì)于國(guó)際關(guān)系研究數(shù)據(jù)化的認(rèn)識(shí)還有很大空間。本文擬對(duì)此做出進(jìn)一步探討以期更好地認(rèn)識(shí)數(shù)據(jù)的本質(zhì)和文本資料數(shù)據(jù)化對(duì)國(guó)際關(guān)系研究的影響進(jìn)而使國(guó)際關(guān)系的文本數(shù)據(jù)處理能夠更好地服務(wù)于學(xué)術(shù)研究與國(guó)家決策。 一、國(guó)際關(guān)系文本資料的數(shù)據(jù)化 數(shù)據(jù)是人類觀察自然和社會(huì)后用于表達(dá)事物、時(shí)間、地點(diǎn)等信息的標(biāo)記或符號(hào),其內(nèi)容意義被抽離于具體的歷史社會(huì)環(huán)境。數(shù)據(jù)化是將研究材料編碼整理成為可用于操作分析的符號(hào)之過(guò)程,也是人們將自己無(wú)形的主觀理解轉(zhuǎn)化為有形的客觀事實(shí)之過(guò)程。研究者分析數(shù)據(jù)的目的是創(chuàng)造信息、知識(shí)和智慧。 為了更好地分析國(guó)際社會(huì)的現(xiàn)象和行為,西方國(guó)際關(guān)系研究者很早便搜集和編碼新聞報(bào)道、歷史 檔案、政府文件等文本資料,將文本內(nèi)容轉(zhuǎn)化成數(shù)據(jù) 并整合成庫(kù)。自20世紀(jì)60年代至今,國(guó)際關(guān)系文本資料數(shù)據(jù)庫(kù)的建設(shè)從開(kāi)始興起到加速發(fā)展,呈現(xiàn)出三個(gè)突出特點(diǎn)。 第一個(gè)特點(diǎn)是自動(dòng)化數(shù)據(jù)挖掘。在20世紀(jì)90年代前,文本資料的收集和編碼均由人工處理。比如在美國(guó),查爾斯·麥克蘭德( Charles McClelland) 于 1966 年創(chuàng)立“世界事件互動(dòng)調(diào)查數(shù)據(jù)庫(kù)”( World Event Interaction Survey) 時(shí),其研究團(tuán)隊(duì)成員自行搜集《紐約時(shí)報(bào)》的報(bào)道,閱讀報(bào)道內(nèi)容,用紙、筆將相 關(guān)內(nèi)容轉(zhuǎn)化成各種變量,再將變量整合為數(shù)據(jù)集、組合成庫(kù)。類似的著名數(shù)據(jù)庫(kù)還有大衛(wèi)·辛格( David Singer)于1963年建立的“戰(zhàn)爭(zhēng)相關(guān)指數(shù)數(shù)據(jù)庫(kù)” ( the Behavioral Correlates of War); 愛(ài)德華·阿扎爾( Edward Azar)主持的“沖突與和平數(shù)據(jù)庫(kù)”( The Conflict and Peace Data Bank) 項(xiàng)目。在歐洲,歐共體于 1974 年建立“歐洲晴雨表”( Eurobarometer),將研究者通過(guò)訪談民眾得來(lái)的文本資料轉(zhuǎn)化成為量化數(shù)據(jù),以便監(jiān)測(cè)與研究輿情的變化。由于收集與編碼文本均依賴人力,這些數(shù)據(jù)庫(kù)建設(shè)效率相對(duì)低下,比如“戰(zhàn)爭(zhēng)相關(guān)指數(shù)數(shù)據(jù)庫(kù)”中的數(shù)據(jù)集經(jīng)歷數(shù)年才更新一次,這讓數(shù)據(jù)庫(kù)無(wú)法緊貼時(shí) 勢(shì)發(fā)展,影響學(xué)術(shù)價(jià)值。20世紀(jì)90年代起,西方國(guó)際關(guān)系學(xué)者編寫(xiě)程序?qū)ξ谋举Y料進(jìn)行編碼,建庫(kù)效率大幅提升。在這個(gè)時(shí)期,此類有影響力的數(shù)據(jù)庫(kù)集中在美國(guó)。典型的例子有德博拉·格爾納(Deborah Gerner)主持開(kāi)發(fā)的“堪薩斯事件數(shù)據(jù)系統(tǒng)”( Kansas Events Data System) ,加里·京格 ( Gary King) 與威爾·洛維( Will Lowe)構(gòu)建的“事件分析綜合數(shù)據(jù)”( the Integrated Data for Events Analysis),約翰·戴維斯( John Davies)開(kāi)發(fā)的“全球事 件數(shù)據(jù)系統(tǒng)”( The Global Event-Data System),肖恩·奧布萊恩( Sean O’ Brien) 開(kāi)發(fā)的“整合性沖突早期預(yù)警系統(tǒng)”( the Integrated Conflict Early Warning System) 等等。但是,這些數(shù)據(jù)庫(kù)只在文本編碼層面實(shí)現(xiàn)了自動(dòng)化,研究者仍須自行搜集文本資料、錄入程序中加以編碼,依然難以做到根據(jù)形勢(shì)實(shí)時(shí)更新數(shù)據(jù),令數(shù)據(jù)庫(kù)的學(xué)術(shù)價(jià)值同樣受限。 2010 年后,大數(shù)據(jù)技術(shù)深刻地影響國(guó)際關(guān)系文本資料的數(shù)據(jù)化進(jìn)程。此時(shí)計(jì)算機(jī)已能代替研究者自行收集文本,以每天甚至每小時(shí)的頻率對(duì)文本編 碼并更新數(shù)據(jù)庫(kù)。在美國(guó)國(guó)際關(guān)系學(xué)界,卡里夫·利塔魯( Kalev Leetaru) 與菲利普·施羅德( Philip Schrodt) 于 2013 年建立的“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”( the Global Database of Event Language and Tone)正以每日更新約70億字節(jié)的速度自動(dòng)記錄1979年1月1日迄今全球媒體報(bào)道國(guó)內(nèi)和國(guó)際層面發(fā)生的事件?;?Python 語(yǔ)言構(gòu)建的“鳳凰實(shí)時(shí)事件數(shù)據(jù)集”( Pheonix Near-Real-Time Event Dataset) 則能每小時(shí)自動(dòng)從400多個(gè)網(wǎng)站上搜集文本資料并對(duì)其編碼。在歐洲,荷蘭萊頓大學(xué)的“和平情報(bào)實(shí)驗(yàn)室”( Peace Informatics Lab)下屬“未來(lái)基地”( Future Base) 計(jì)劃開(kāi)發(fā)新的軟件自動(dòng)搜集、整合和分析全球 的文本資料數(shù)據(jù),以幫助國(guó)家安全部門(mén)制定最佳的 防務(wù)政策。由于文本收集和編碼均實(shí)現(xiàn)自動(dòng)化,新的國(guó)際關(guān)系文本數(shù)據(jù)庫(kù)大幅提升了數(shù)據(jù)生產(chǎn)效率,使數(shù)據(jù)庫(kù)建設(shè)可緊貼國(guó)際形勢(shì)的變化。 第二個(gè)特點(diǎn)是大數(shù)據(jù)體量動(dòng)態(tài)增長(zhǎng)。1990年前,國(guó)際關(guān)系文本資料數(shù)據(jù)庫(kù)體量主要以百萬(wàn)字節(jié)( MB) 為單位。20世紀(jì)60年代建立的“世界事件互 動(dòng)調(diào)查數(shù)據(jù)庫(kù)”數(shù)據(jù)集的大小只有30多MB?!皼_突與和平數(shù)據(jù)庫(kù)”項(xiàng)目在 20 世紀(jì) 60 年代中期至 1978 年的數(shù)據(jù)體量也是30多MB。同時(shí)期建立的“戰(zhàn)爭(zhēng)相關(guān)指數(shù)項(xiàng)目數(shù)據(jù)庫(kù)”記錄 1816~1979 年戰(zhàn)爭(zhēng)變量的單個(gè)數(shù)據(jù)總量不過(guò)2MB。這些數(shù)據(jù)庫(kù)的體量增長(zhǎng)依靠研究者手工勞動(dòng)補(bǔ)充數(shù)據(jù)集,受制于經(jīng)費(fèi)或人事變動(dòng)等現(xiàn)實(shí)因素,數(shù)據(jù)增長(zhǎng)進(jìn)程容易遭遇干擾或中斷而缺乏持續(xù)性,所以研究者無(wú)法以接近實(shí)時(shí)的方式更新數(shù)據(jù),數(shù)據(jù)庫(kù)的體量增長(zhǎng)往往有限而且容易窮盡。 20世紀(jì)90年代國(guó)際關(guān)系文本資料編碼實(shí)現(xiàn)自動(dòng)化后,數(shù)據(jù)庫(kù)的體量依然不大。由于研究的文本資料來(lái)源主要依賴《紐約時(shí)報(bào)》、路透社等權(quán)威媒體,當(dāng)時(shí)數(shù)據(jù)庫(kù)體量增加幅度有限。菲利普·施羅德通過(guò)“堪薩斯事件數(shù)據(jù)系統(tǒng)”構(gòu)建的一個(gè)數(shù)據(jù)集體量只有幾百KB(千字節(jié))左右?!罢闲詻_突早期預(yù)警系統(tǒng)”一年更新的數(shù)據(jù)量約為200MB。 大數(shù)據(jù)技術(shù)應(yīng)用后,國(guó)際關(guān)系數(shù)據(jù)庫(kù)的文本來(lái)源不再局限于權(quán)威媒體,而是借助現(xiàn)代信息技術(shù)有了大幅拓寬,人們?cè)谏缃痪W(wǎng)絡(luò)上發(fā)布的內(nèi)容亦可成為分析對(duì)象。加上云儲(chǔ)存技術(shù)的不斷發(fā)展為大體量數(shù)據(jù)的管理和分享創(chuàng)造了空間,2010年后,國(guó)際關(guān)系文本資料的數(shù)據(jù)庫(kù)體量呈現(xiàn)指數(shù)級(jí)別增長(zhǎng),從過(guò)往的千字節(jié)級(jí)別發(fā)展至萬(wàn)億字節(jié)(TB)甚至千萬(wàn)億字節(jié)(PB)級(jí)別。由于實(shí)現(xiàn)了機(jī)器自動(dòng)收集和編碼文本,數(shù)據(jù)庫(kù)體量可自動(dòng)增加,若研究者能妥善經(jīng)營(yíng),數(shù)據(jù)庫(kù)的體量并不會(huì)窮盡。在美國(guó),“鳳凰實(shí)時(shí)事件數(shù)據(jù)集”平均每天能自動(dòng)記錄全球約3000項(xiàng)事件。而“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”一年的數(shù)據(jù)體量便超過(guò)2.5TB,其間記錄超過(guò)7500億條人們對(duì)國(guó)際事件的態(tài)度和15億條國(guó)際事件發(fā)生的位置數(shù)據(jù)。在歐洲,國(guó)際關(guān)系學(xué)界應(yīng)用大數(shù)據(jù)不如美國(guó)早和快,但也在不斷進(jìn)展。比如“和平情報(bào)實(shí)驗(yàn)室”項(xiàng)目計(jì)劃在2018~2023年間建成大數(shù)據(jù)平臺(tái)的數(shù)據(jù)體量也能自動(dòng)實(shí)現(xiàn)增長(zhǎng),及時(shí)為公共及私營(yíng)部門(mén)提供決策建議依據(jù)。 第三個(gè)特點(diǎn)是機(jī)器代替人成為數(shù)據(jù)分析的主體。過(guò)去的電腦只擅長(zhǎng)處理重復(fù)、規(guī)律的計(jì)算工作,并沒(méi)有解讀數(shù)據(jù)意義的能力,即便20世紀(jì)90年后機(jī)器代替研究者對(duì)文本進(jìn)行編碼,計(jì)算機(jī)仍無(wú)法取代研究者進(jìn)行數(shù)據(jù)分析,只能作為研究者的分析工具。在大數(shù)據(jù)技術(shù)和理念進(jìn)入國(guó)際關(guān)系研究領(lǐng)域后,數(shù)據(jù)分析須實(shí)時(shí)進(jìn)行,而人單憑自身有限的時(shí)間和精力難以適應(yīng)。隨著人工智能技術(shù)特別是自然語(yǔ)言處理技術(shù)的發(fā)展,機(jī)器具備了從持續(xù)的數(shù)據(jù)歸納總結(jié)中學(xué)習(xí)的能力,這使計(jì)算機(jī)分析技術(shù)不再局限于從數(shù)學(xué)模型和公式中推導(dǎo)出結(jié)果,電腦對(duì)于文字的處理不再拘泥于句法和語(yǔ)義規(guī)則的理性分析,而是更多通過(guò)機(jī)器學(xué)習(xí)的方法,逐漸提升解讀文本中意義的能力。 由于有了結(jié)合環(huán)境解讀文本意義的能力,計(jì)算機(jī)能從無(wú)結(jié)構(gòu)的文本內(nèi)容中辨別說(shuō)話者的行為模式,當(dāng)下的機(jī)器由此具備了一定的沖突預(yù)測(cè)能力。現(xiàn)今許多國(guó)際關(guān)系數(shù)據(jù)庫(kù)不但可提供數(shù)據(jù)挖掘服務(wù),還可幫助研究者進(jìn)行數(shù)據(jù)分析。在美國(guó),基于“堪薩斯事件數(shù)據(jù)系統(tǒng)”發(fā)展而成“帕盧斯分析系統(tǒng)”(ParusAnalyticalSystem)能自動(dòng)分析和預(yù)測(cè)國(guó)際沖突。由于機(jī)器分析能節(jié)省大量人力物力,開(kāi)發(fā)者彼得·施羅德憑一己之力便可成立一家公司,為全球客戶提供咨詢服務(wù)。IMB公司依據(jù)自然語(yǔ)言處理技術(shù)開(kāi)發(fā)了Watson系統(tǒng),該系統(tǒng)能通過(guò)不斷與人交流逐漸理解文本話語(yǔ)的意義,也具備分析國(guó)際問(wèn)題的能力。在歐洲,塞浦路斯大學(xué)的安得利斯·安德魯(AndreasAndreou)和希臘銀行研究部的喬治·祖巴納基斯(GeorgeZombanakis)也宣稱使用機(jī)器學(xué)習(xí)技術(shù)成功預(yù)測(cè)了希臘與土耳其的軍備競(jìng)賽態(tài)勢(shì)。簡(jiǎn)而言之,此時(shí)計(jì)算機(jī)從過(guò)往被人操作的分析工具逐漸轉(zhuǎn)變?yōu)檠芯糠治鑫谋镜闹黧w,有能力實(shí)時(shí)監(jiān)測(cè)國(guó)際關(guān)系形勢(shì),為決策者提供行動(dòng)建議。 綜上所述,數(shù)據(jù)化趨勢(shì)為國(guó)際關(guān)系的文本研究提供了越來(lái)越大的便利,日益深刻地影響到國(guó)際關(guān)系研究的形式和內(nèi)容,發(fā)揮了不可替代的重要作用。 二、文本資料數(shù)據(jù)化對(duì)國(guó)際關(guān)系研究的貢獻(xiàn) 文本研究數(shù)據(jù)化為分析、研究活動(dòng)帶來(lái)了空前的便利和效率,促進(jìn)了國(guó)際關(guān)系研究在形式和內(nèi)容上的革新,具有重大的歷史性貢獻(xiàn)。 第一,數(shù)據(jù)化可提升國(guó)際關(guān)系文本研究的靈活性。原始文本資料的內(nèi)容不如數(shù)字般有大小之分,許多文字、詞組表達(dá)常是多義的,內(nèi)涵容易混淆,內(nèi)容結(jié)構(gòu)不明顯。這使研究者在大容量的閱讀后即便 思維再敏銳也難以準(zhǔn)確區(qū)分不同內(nèi)容間的主次關(guān) 系,無(wú)法提取關(guān)鍵變量或概念進(jìn)行分析處理,只能依 賴主觀判斷進(jìn)行詮釋。 對(duì)此,研究者可通過(guò)數(shù)據(jù)化將復(fù)雜的話語(yǔ)內(nèi)容轉(zhuǎn)化成表達(dá)精煉的文字或數(shù)字標(biāo)簽,由于這些標(biāo)簽通常是單義的,能最大限度避免歧義,由此可以更確切無(wú)誤地將各類內(nèi)容信息分類整理,避免混淆,讓不同內(nèi)容之間的結(jié)構(gòu)變得清晰,明確文本描述的事物之間相互關(guān)系。基于此,研究者能更容易地從文本資料中辨認(rèn)并提煉分析所需的變量或概念,繼而可用更多分析工具和設(shè)計(jì)技巧研究文本資料,提升國(guó)際關(guān)系文本研究模式的多樣性。比如克里斯蒂安·格萊迪許( Kristian Gleditsch) 和邁克爾· 沃德 ( Michael Ward) 在“戰(zhàn)爭(zhēng)相關(guān)指數(shù)數(shù)據(jù)庫(kù)”的基礎(chǔ)上將國(guó)家間的政治親密度轉(zhuǎn)換成連續(xù)型變量并建立數(shù)據(jù)庫(kù),其他研究者便可更輕松地應(yīng)用各類統(tǒng)計(jì)學(xué)模型對(duì)媒體報(bào)道內(nèi)容進(jìn)行計(jì)量分析,大幅提升了文本內(nèi)容的可操作性。查理·卡彭特( Charli Carpenter) 收集訪談資料后,用質(zhì)性編碼的手段將因戰(zhàn)時(shí)性暴力而出生的兒童面臨的困境精煉成意義單一的文字標(biāo)簽,而后根據(jù)不同標(biāo)簽在文本資料出現(xiàn)的次數(shù)判斷這些兒童面臨的主要危機(jī),以客觀的方式驗(yàn)證這些兒童得不到國(guó)際倡議組織關(guān)注的原因,讓基于文本操作的國(guó)際關(guān)系研究實(shí)現(xiàn)理論檢驗(yàn)的功能。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,更多能夠探尋事物相關(guān)關(guān)系( correlation) 的方法也將引入國(guó)際關(guān)系文本研究中。由此說(shuō)來(lái),文本資料數(shù)據(jù)化后,國(guó)際關(guān)系研究者可應(yīng)用更多社會(huì)科學(xué)方法與技巧加以學(xué)術(shù)價(jià)值。鑒于國(guó)際關(guān)系比一般的社會(huì)關(guān)系更加抽象且復(fù)雜多變,更多樣、靈活的文本研究設(shè)計(jì)方案能幫助研究者厘清國(guó)際形勢(shì)的發(fā)展脈絡(luò),進(jìn)而從錯(cuò)綜復(fù)雜的表象中正確剖析事件的內(nèi)在聯(lián)系。 第二,數(shù)據(jù)化可增強(qiáng)國(guó)際關(guān)系文本研究的科學(xué)性。廣義上的科學(xué)應(yīng)是嚴(yán)謹(jǐn)、系統(tǒng)的知識(shí)體系,應(yīng)建立在前人的基礎(chǔ)上,為后續(xù)的研究提供重復(fù)、檢驗(yàn)、證偽的可能。然而,原始文本資料的字里行間常帶 有深刻、隱晦的含義,這些含義需要研究者主觀解讀 和詮釋,但這種分析過(guò)程常依賴直覺(jué),透明度低,分析結(jié)果不夠精確,以致文本研究具有較大的隨意性 且流程無(wú)法重復(fù),結(jié)論難以檢驗(yàn)而在可靠性方面受到削弱或質(zhì)疑。 無(wú)論文本被編碼成量化數(shù)據(jù)還是質(zhì)性數(shù)據(jù),數(shù)據(jù)化都是將文本資料中最確鑿無(wú)疑的核心內(nèi)容提取為分析對(duì)象,使之變得相對(duì)客觀和穩(wěn)定。鑒于研究者須根據(jù)研究對(duì)象的特質(zhì)選擇方法和技巧設(shè)計(jì)分析流程,分析數(shù)據(jù)的手段須客觀、標(biāo)準(zhǔn),一些更縝密的 實(shí)證主義方法便可應(yīng)用于文本研究中,進(jìn)而得出更精確的分析結(jié)果。即便是純粹的質(zhì)性研究,研究者 也可應(yīng)用相對(duì)客觀的理論框架或模型分析數(shù)據(jù)化文本內(nèi)容,這方便研究者公開(kāi)分析流程細(xì)節(jié),其他研究者能更輕易地重復(fù)開(kāi)展其研究,國(guó)際關(guān)系文本研究的結(jié)論可因此變得更可靠。比如尼古拉·史密斯( Nicola Smith) 和科林·黑爾( Colin Hay)在開(kāi)展英國(guó)與愛(ài)爾蘭關(guān)于全球化、歐洲一體化的政治觀念對(duì)比研究時(shí),將兩國(guó)政治家的講話文本錄入 Nvivo 軟件中進(jìn)行質(zhì)性編碼并將文本內(nèi)容濃縮整合為六項(xiàng)主 題,而后根據(jù)主題設(shè)計(jì)調(diào)查問(wèn)卷、詢問(wèn)兩國(guó)議員對(duì)于 主題內(nèi)容的認(rèn)可程度,再用數(shù)字?jǐn)?shù)據(jù)對(duì)比兩國(guó)對(duì)于全球化與歐洲一體化的態(tài)度差異。在該項(xiàng)研究中,文本中數(shù)據(jù)化的政治態(tài)度變得具體,因此研究者可明確問(wèn)卷問(wèn)題和選項(xiàng),提升分析流程透明度,得出相對(duì)精確的結(jié)論,為研究結(jié)論留下了被檢驗(yàn)的可能性。 這種處理可讓前人的成果為后續(xù)的研究打下基礎(chǔ),后人也更容易站在前人的肩膀上進(jìn)一步攀登學(xué)術(shù)高峰,令國(guó)際關(guān)系學(xué)科內(nèi)的知識(shí)能不斷加以檢驗(yàn)和完善,進(jìn)而更連貫地發(fā)展,日益增加“科學(xué)”特質(zhì)。再者,由于基于數(shù)據(jù)得到的分析結(jié)論相對(duì)精確,研究者由此發(fā)現(xiàn)的社會(huì)規(guī)律更加可靠,更具應(yīng)用價(jià)值,進(jìn)而為決策者提供更切實(shí)可行的建議,讓扎根于文本的國(guó)際關(guān)系研究具有更真實(shí)的科學(xué)價(jià)值和實(shí)踐意義,推動(dòng)國(guó)際關(guān)系學(xué)科發(fā)展,使其向真正的科學(xué)研究靠攏,創(chuàng)造更多社會(huì)價(jià)值。 第三,數(shù)據(jù)化可突破小樣本研究的局限。原始文本資料中的無(wú)關(guān)內(nèi)容會(huì)占據(jù)大量?jī)?chǔ)存空間,增加了管理與分享資料的難度,還降低研究者的閱讀效率。因此,國(guó)際關(guān)系研究者基于文本使用質(zhì)性方法( 如內(nèi)容分析法、案例分析法等) 開(kāi)展研究時(shí)常無(wú)法有效提升樣本量,不能確保抽樣方法充分合理,從而容易取巧地選擇對(duì)論證有利的案例進(jìn)行分析,令研究出現(xiàn)選擇性偏差。國(guó)際關(guān)系行為體的話語(yǔ)經(jīng)過(guò)數(shù)據(jù)化處理后,無(wú)關(guān)內(nèi)容被剔除,文本資料的儲(chǔ)存容量大大降低,比如“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”僅以 10MB 左右的儲(chǔ)存空間便可記錄世界范圍內(nèi)一天發(fā)生的超過(guò) 20 萬(wàn)項(xiàng)事件。由于信息儲(chǔ)存效率大大提高,研究者可大量收集和整理文本資料,加上通訊技術(shù)高速發(fā)展,數(shù)據(jù)傳播的速度日與俱增,當(dāng)下的國(guó)際關(guān)系研究者可以輕易地分享到大量經(jīng)數(shù)據(jù)化處理后的文本資料。比如,哈佛大學(xué)建立的數(shù)據(jù)分享平臺(tái)( Har- vard Dataverse) 收錄了超過(guò) 25000 種數(shù)據(jù)庫(kù)供國(guó)際關(guān)系研究者使用。密歇根大學(xué)校際政治與社會(huì)研究聯(lián)合會(huì)的網(wǎng)站提供了超過(guò) 25 萬(wàn)份社會(huì)與行為科學(xué)領(lǐng)域的數(shù)據(jù)文件,亦可作為國(guó)際關(guān)系研究的重要數(shù)據(jù)來(lái)源。 另外,數(shù)據(jù)化使用計(jì)算機(jī)程序定位或篩選話語(yǔ)內(nèi)容,可為研究者大幅提升閱讀資料的速度,在單位時(shí)間內(nèi)、以同樣的精力能認(rèn)識(shí)和理解比過(guò)去更多的話語(yǔ)文本案例,進(jìn)而提升研究的樣本量。即便是全程依賴研究者自行記錄、整理、閱讀話語(yǔ)資料并編碼數(shù)據(jù)的國(guó)際關(guān)系文本研究,樣本量也能增至數(shù)百甚至上千,遑論量化研究者使用當(dāng)今普通的家用電腦便可瞬間處理數(shù)十億字節(jié)的文本數(shù)據(jù)。更大的樣本量能使文本中的離群值或特殊案例變得不顯著,在應(yīng)用大數(shù)據(jù)技術(shù)后,國(guó)際關(guān)系文本研究更有可能實(shí)現(xiàn)全樣本分析,避免數(shù)據(jù)抽樣帶來(lái)的弊端。概要地說(shuō),在確保數(shù)據(jù)質(zhì)量的情況下,研究者使用數(shù)據(jù)化文本資料可克服小樣本分析的局限,在研究操作中極大地降低選擇性偏差的概率?;诖?,國(guó)際關(guān)系研究者分析數(shù)據(jù)化的文本資料能讓研究在統(tǒng)計(jì)意義上能得出更全面的結(jié)論,進(jìn)而能更好地監(jiān)測(cè)和預(yù)判國(guó)際事件的緣起和發(fā)展,為國(guó)家提供風(fēng)險(xiǎn)更低更準(zhǔn)確的政策建議。 三、文本資料數(shù)據(jù)化在國(guó)際關(guān)系研究中的局限及其解決途徑 受限于自然語(yǔ)言處理技術(shù)的水平,加上數(shù)據(jù)化會(huì)剔除文本意義和背景信息,文本資料的數(shù)據(jù)化在短期內(nèi)對(duì)國(guó)際關(guān)系研究難免存在消極影響。第一,不利于思想意識(shí)領(lǐng)域的研究。國(guó)際行為體以話語(yǔ)進(jìn)行交流,其行為不是單純地逐利,它們往往都具有深刻的含義,能表現(xiàn)行為體的規(guī)范、價(jià)值觀和身份認(rèn)同,這些均是重要的國(guó)際關(guān)系研究對(duì)象。研究者須結(jié)合具體的歷史文化背景深入理解這些行為規(guī)范、價(jià)值觀和身份認(rèn)同,用翔實(shí)的語(yǔ)言對(duì)其詮釋,才能充分解釋國(guó)際行為體之間的現(xiàn)象和行為。然而,數(shù)據(jù)是意義單一、表述精練的符號(hào),無(wú)法描述深刻隱晦的含義和豐富的背景信息,研究者單憑數(shù)據(jù)無(wú)法深入詮釋每個(gè)案例下國(guó)際行為體的規(guī)范、價(jià)值觀和身份認(rèn)同。再者,當(dāng)下的人工智能技術(shù)亦未能完全準(zhǔn)確地詮釋話語(yǔ)中復(fù)雜、隱晦的含義。對(duì)于數(shù)據(jù)化的文本,研究者只能轉(zhuǎn)而采納實(shí)證主義的認(rèn)識(shí)論和方法論進(jìn)行分析。因?yàn)閷?shí)證主義的認(rèn)識(shí)論不要求研究者對(duì)話語(yǔ)和行為中的深刻含義進(jìn)行詮釋,而是讓研究者在分析過(guò)程中保持價(jià)值中立,強(qiáng)調(diào)引入自然科學(xué)的方法分析社會(huì)科學(xué)問(wèn)題。因此,數(shù)據(jù)化的趨勢(shì)讓量化方法成為學(xué)者學(xué)習(xí)和引進(jìn)的重點(diǎn)。比較之下,基于主觀詮釋進(jìn)行操作的質(zhì)性研究方法在國(guó)內(nèi)外均得不到重視,也讓規(guī)范、價(jià)值觀和身份認(rèn)同時(shí)常成為國(guó)際關(guān)系科學(xué)研究的規(guī)避對(duì)象,令話語(yǔ)意義中這些無(wú)法量化的研究對(duì)象得不到足夠的關(guān)注,而規(guī)范、價(jià)值觀和身份認(rèn)同往往是國(guó)際現(xiàn)象或行為的重要?jiǎng)右?,缺乏這方面的研究不利于國(guó)際關(guān)系科學(xué)的整體發(fā)展。 第二,可能讓研究產(chǎn)生內(nèi)在邏輯矛盾。系統(tǒng)、嚴(yán)謹(jǐn)?shù)难芯繎?yīng)講究存在論和認(rèn)識(shí)論的邏輯連貫。換言之,研究者不可以客觀標(biāo)準(zhǔn)計(jì)算、衡量沒(méi)有物質(zhì)形態(tài)的思維觀念,亦不能通過(guò)話語(yǔ)感受和詮釋并無(wú)深刻含義的客觀事物,否則在研究前提上便已產(chǎn)生內(nèi)在矛盾。文本記錄的是國(guó)際關(guān)系行為體之間的狀態(tài)、話語(yǔ)或行為。國(guó)家和國(guó)際組織本身并不純粹由物質(zhì)構(gòu)成,國(guó)際現(xiàn)象或行為并不都是可以直接觀察(比如美國(guó)通過(guò)世界銀行推廣“華盛頓共識(shí)”)的,而是常常無(wú)法加以充分衡量。數(shù)據(jù)化后的文本資料不再是研究者理解和感受的對(duì)象,而僅作為操作的研究對(duì)象,因此,數(shù)據(jù)化也是一個(gè)將主客體進(jìn)行分離的過(guò)程,數(shù)據(jù)化后的文本資料成為研究者處理的“客體”,而研究者成為處理文本的主體,換言之,數(shù)據(jù)化是讓基于文本開(kāi)展的國(guó)際研究自然進(jìn)入笛卡爾式主體-客體二元對(duì)立的邏輯前提。事實(shí)上,這種前提假設(shè)正被不假思索地全盤(pán)引入至國(guó)際關(guān)系研究中。隨著文本信息數(shù)據(jù)化的發(fā)展,記錄國(guó)際關(guān)系事件中的任何文本都在逐漸數(shù)據(jù)化,像“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”這樣的大型數(shù)據(jù)庫(kù)甚至將國(guó)際事件中人們的喜怒哀樂(lè)皆量化成為數(shù)據(jù)供研究者分析。此類研究對(duì)象并沒(méi)有物質(zhì)形態(tài),無(wú)法進(jìn)行計(jì)算。文本中的思維觀念與情感本應(yīng)加以詮釋、解讀,若研究者將其強(qiáng)行數(shù)據(jù)化并使其變得客觀,容易形成存在論與認(rèn)識(shí)論之間的脫節(jié)甚或矛盾,即研究得出了具體的結(jié)論,卻無(wú)法解釋結(jié)論具體到底是什么,因而降低了研究的科學(xué)價(jià)值。 第三,數(shù)據(jù)化的過(guò)程無(wú)法根除文本內(nèi)容中的個(gè)人偏見(jiàn)。許多記錄國(guó)際事件的數(shù)據(jù)庫(kù)材料都來(lái)源于國(guó)際新聞、歷史材料等,這些材料經(jīng)過(guò)記者或者檔案人員處理后在內(nèi)容中難免帶有個(gè)人偏見(jiàn)。比如在“戰(zhàn)爭(zhēng)相關(guān)指數(shù)”數(shù)據(jù)庫(kù)中,關(guān)于戰(zhàn)爭(zhēng)的性質(zhì)的分類型變量本身就是研究者的主觀判斷。若研究者不能通過(guò)意義詮釋排除偏見(jiàn),即便研究的數(shù)據(jù)量再大,模型的擬合程度再高,分析的結(jié)果再顯著,檢測(cè)得到的信度再高,也無(wú)法確保最終結(jié)論完全可靠。這種偏見(jiàn)時(shí)常不易被察覺(jué),因?yàn)閿?shù)據(jù)化文本資料容易獲取,諸多國(guó)際關(guān)系研究者并不是通過(guò)親身實(shí)踐或調(diào)查獲取文本資料。研究者在得到具體的數(shù)據(jù)后,受限于有限的時(shí)間和精力,通常很難與獲得第一手資料的記者或檔案人員建立直接聯(lián)系,無(wú)法感受這些資料收集者在觀察和記錄國(guó)際關(guān)系現(xiàn)象或行為時(shí)產(chǎn)生的思想與情感,更無(wú)法排除數(shù)據(jù)中的個(gè)人偏見(jiàn)。即便機(jī)器已開(kāi)始代替研究者成為分析主體,且當(dāng)下的自然語(yǔ)言處理技術(shù)也取得重要進(jìn)展,仍然無(wú)法真正還原人的思想情感,機(jī)器及其應(yīng)用技術(shù)的便捷性反而助推國(guó)際關(guān)系研究者更多地坐到計(jì)算機(jī)前,遠(yuǎn)離真實(shí)的場(chǎng)景與感受,包含在數(shù)據(jù)中的偏見(jiàn)更難根除,而是“客觀地”呈現(xiàn)在分析結(jié)果中,導(dǎo)致研究結(jié)論不可避免有所偏頗。 由于存在以上的局限性,許多基于這種數(shù)據(jù)庫(kù)的研究并不能得到政府的認(rèn)可。即便是美國(guó)政府和軍方資助的“整合性沖突早期預(yù)警系統(tǒng)”(theIntegratedConflictEarlyWarningSystem)也不能做到準(zhǔn)確分析國(guó)際事件形勢(shì)變化,效果未如理想。因此,國(guó)際關(guān)系研究者應(yīng)反思如何處理和應(yīng)用文本資料,而不是隨波逐流,盲目地一味將文本資料數(shù)據(jù)化,更要從多方面下功夫解決數(shù)據(jù)化的局限問(wèn)題。 第一,重視發(fā)展后實(shí)證主義方法論。研究者將話語(yǔ)文本數(shù)據(jù)化的目的是創(chuàng)造智慧,但數(shù)據(jù)化并不是創(chuàng)造智慧的唯一途徑。在國(guó)際規(guī)范、價(jià)值觀和身份認(rèn)同等思維觀念領(lǐng)域,后實(shí)證主義的分析路徑能為研究者提供巨大支持。詮釋學(xué)和現(xiàn)象學(xué)是此類分析陣營(yíng)中的典型代表,總體而言,詮釋學(xué)是一門(mén)對(duì)文本的意義進(jìn)行理解和解釋的技藝,遵循這種分析路徑的研究者不但要理解文本的語(yǔ)言意義,也要結(jié)合具體的歷史環(huán)境理解研究對(duì)象的主觀世界。而現(xiàn)象學(xué)則是一種激進(jìn)的、反傳統(tǒng)的哲學(xué)思潮,強(qiáng)調(diào)研究者要借助自身的意識(shí)和體驗(yàn)全面地感受現(xiàn)象并描述現(xiàn)象,進(jìn)而去理解世間真相。無(wú)論是采用現(xiàn)象學(xué)的先驗(yàn)、體驗(yàn)、或是解釋學(xué)的路徑進(jìn)行研究,后實(shí)證主義研究始終與數(shù)據(jù)化保持距離,重視保留完整的背景信息和話語(yǔ)中深刻、隱晦的內(nèi)涵。這種范式亦可包容研究資料中的偏見(jiàn),鼓勵(lì)研究者帶著個(gè)人偏見(jiàn)去理解各種現(xiàn)象和行為,借助真實(shí)的社會(huì)場(chǎng)景解釋各種現(xiàn)象和行為。研究者循此路徑分析將耗費(fèi)更多時(shí)間在研究田野中而不是計(jì)算機(jī)前,重視采用訪談甚至以直接參與活動(dòng)的方式與研究對(duì)象進(jìn)行交流,觀察和感受研究對(duì)象的行為模式和思想觀念,用靈動(dòng)的語(yǔ)言記錄最為真實(shí)的場(chǎng)景進(jìn)行論證。事實(shí)上,歐洲學(xué)界已意識(shí)到這點(diǎn),荷蘭萊頓大學(xué)“和平情報(bào)實(shí)驗(yàn)室”項(xiàng)目明確指出,國(guó)際關(guān)系大數(shù)據(jù)分析不能脫離基于具體社會(huì)環(huán)境進(jìn)行主觀詮釋。歐盟的“歐洲晴雨表”系列數(shù)據(jù)自1987年起便已公開(kāi)未經(jīng)數(shù)據(jù)化處理的訪談資料,方便研究者使用原始文本資料詮釋話語(yǔ)中隱含的意義。研究者通過(guò)這種方式創(chuàng)造的知識(shí)和智慧可避免數(shù)據(jù)語(yǔ)言意義單一帶來(lái)的局限,能更好地探索蘊(yùn)藏在國(guó)際關(guān)系文本中的思想觀念?;诖耍瑢W(xué)者應(yīng)深入地開(kāi)發(fā)詮釋學(xué)、現(xiàn)象學(xué)此類方法論在國(guó)際關(guān)系研究中的應(yīng)用途徑,讓規(guī)范、價(jià)值觀、身份認(rèn)同等思維要素不再是國(guó)際關(guān)系科學(xué)研究的規(guī)避對(duì)象,促進(jìn)國(guó)際關(guān)系學(xué)科的全面發(fā)展。 第二,強(qiáng)化串聯(lián)研究的存在論和認(rèn)識(shí)論意識(shí)。研究背后的哲學(xué)邏輯是研究的前提和根基,而數(shù)據(jù)化本身只是處理研究資料的一種方法,屬于研究設(shè)計(jì)的末枝。文本資料數(shù)據(jù)化對(duì)于國(guó)際關(guān)系研究的科學(xué)貢獻(xiàn)須建立在存在論與認(rèn)識(shí)論連貫一致的基礎(chǔ)上,否則再精妙、高效的數(shù)據(jù)處理與分析技巧只會(huì)讓研究顯得金玉其外、敗絮其中。為了避免研究出現(xiàn)存在論與認(rèn)識(shí)論不連貫一致的情況,研究者在搜集資料時(shí)應(yīng)清楚了解研究對(duì)象是什么以及最不可劃分的層次會(huì)是什么。具體而言,若研究對(duì)象本身并不具有深層次的意義或是理性逐利行為(比如純粹的貿(mào)易往來(lái)),研究者大可遵循實(shí)證主義的認(rèn)識(shí)論,構(gòu)建嚴(yán)謹(jǐn)縝密的數(shù)學(xué)模型,對(duì)數(shù)據(jù)進(jìn)行分析,得到更精確的分析結(jié)果。倘若研究對(duì)象是沒(méi)有物質(zhì)形態(tài)且無(wú)法加以直接觀察的心理現(xiàn)象或意識(shí)觀念(比如民族認(rèn)同感),研究者要小心處理數(shù)據(jù)化的文本資料,謹(jǐn)慎使用實(shí)證主義的分析路徑開(kāi)展研究,此時(shí)若研究者能重視感受和理解研究對(duì)象的心理狀態(tài),則更容易實(shí)現(xiàn)存在論和認(rèn)識(shí)論層面的連貫一致,進(jìn)而提高研究的科學(xué)價(jià)值。也就是說(shuō),只有在研究的內(nèi)在邏輯連貫的基礎(chǔ)上,研究者才可選擇適當(dāng)?shù)姆椒?、設(shè)計(jì)合理的流程進(jìn)行分析。 選自《現(xiàn)代國(guó)際關(guān)系》2018年第5期,文章有刪減,詳見(jiàn)原文 篩選:晞?wù)?nbsp; 編輯:小宜 |
|
來(lái)自: 國(guó)政學(xué)人 > 《待分類》