近代以來(lái),人文學(xué)研究一直為科學(xué)的發(fā)展所左右。數(shù)十年來(lái),已經(jīng)開(kāi)始深刻影響其演進(jìn)走向的,是日新月異的計(jì)算機(jī)信息技術(shù)。據(jù)說(shuō),目前我們已經(jīng)處于一個(gè)被稱(chēng)之為“數(shù)字人文”的時(shí)代。 史學(xué)研究也不例外。學(xué)界已經(jīng)為歷史資料數(shù)據(jù)庫(kù)的建設(shè),投入了巨大的人力和物力。也有一些敏感的商界人士,將此視為攫取商業(yè)利潤(rùn)的新場(chǎng)域,投入巨資,開(kāi)疆拓土。各方面先后建立起來(lái)的各種類(lèi)型的歷史資料數(shù)據(jù)庫(kù),不勝枚舉。例如在中國(guó)古代歷史研究領(lǐng)域,具有標(biāo)志性意義的,先是有香港迪志文化出版有限公司在1999年推出了文淵閣四庫(kù)全書(shū)全文檢索數(shù)據(jù)庫(kù),后更有北京愛(ài)如生數(shù)字化技術(shù)研究中心開(kāi)發(fā)制作、于2005年推出的“中國(guó)基本古籍庫(kù)”。這些數(shù)據(jù)庫(kù),已經(jīng)將中國(guó)存世古籍的絕大多數(shù)收錄其中。與中國(guó)古代歷史研究直接相關(guān)的當(dāng)代學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫(kù),執(zhí)其牛耳者則非中國(guó)知網(wǎng)莫屬。盡管因其明顯地輕視學(xué)者個(gè)人著作權(quán)益而多受詬病,然而這個(gè)始建于1999年,集期刊、碩博士學(xué)位論文、會(huì)議論文、報(bào)紙、工具書(shū)、年鑒、專(zhuān)利、標(biāo)準(zhǔn)、海外文獻(xiàn)資源為一體的巨無(wú)霸式的網(wǎng)絡(luò)出版平臺(tái),已經(jīng)成為學(xué)者從事史學(xué)研究工作須臾不可離開(kāi)的幫手。而資本對(duì)于高額回報(bào)的期待,也開(kāi)始對(duì)學(xué)術(shù)機(jī)構(gòu)產(chǎn)生越來(lái)越沉重的經(jīng)費(fèi)壓力。 在差不多每一個(gè)從業(yè)人員都感受到了新技術(shù)無(wú)所不在的影響的同時(shí),歷史學(xué)作為人文學(xué)的重要組成部分,其在數(shù)字人文時(shí)代的境遇,也引起不少學(xué)者的關(guān)注與討論。多數(shù)意見(jiàn),是竭力稱(chēng)頌新技術(shù)將給歷史學(xué)帶來(lái)全新的發(fā)展機(jī)遇,出現(xiàn)了“大數(shù)據(jù)時(shí)代似乎給史學(xué)研究帶來(lái)了前所未有的興奮”的現(xiàn)象。例如有學(xué)者認(rèn)為,“大數(shù)據(jù)使歷史資料利用產(chǎn)生革命性變革”。在研究方法層面,有學(xué)者歸納出了關(guān)于利用信息技術(shù)的所謂“e-考據(jù)時(shí)代”的概念,認(rèn)為“e-考據(jù)”“已使文史學(xué)界的研究環(huán)境與方法面臨千年巨變”。更有人將“傳統(tǒng)史學(xué)”與數(shù)字人文時(shí)代的“新史學(xué)”直接對(duì)立了起來(lái),甚至提出了“信息技術(shù)革命會(huì)‘終結(jié)’人文學(xué)科嗎”這樣聳人聽(tīng)聞的問(wèn)題。但也有學(xué)者持冷靜遲疑的立場(chǎng),從近年來(lái)數(shù)字化技術(shù)在史學(xué)研究中的實(shí)際應(yīng)用情況出發(fā)作觀察,指出,“當(dāng)我們以數(shù)字化的方式在一定范圍內(nèi)窮盡史料之后,我們所期待的‘史料大發(fā)現(xiàn)’的時(shí)代卻并沒(méi)有到來(lái),我們依舊要在那幾部最基本史著的字里行間尋求突破。技術(shù)手段的更新,也并沒(méi)有帶來(lái)終極意義上的學(xué)術(shù)思維革命”。 可以說(shuō),相關(guān)議題已經(jīng)展開(kāi)了比較充分的討論,各位論者所言,基本也可以自成其說(shuō)。只不過(guò),對(duì)于涉及領(lǐng)域極為寬泛的歷史學(xué)研究,論者常常僅就其所熟悉且相對(duì)有利的部分來(lái)舉例論證,涵蓋面常有不足,不免難以周全;與此同時(shí),不少看法則明顯是陳述多于論證,屬于“愿景”而已。 因此,本人謹(jǐn)以自己具體研究的心得為例,在中國(guó)古代史研究領(lǐng)域的范圍之內(nèi),對(duì)論者的討論提出幾點(diǎn)補(bǔ)充,以期有助于“數(shù)字史學(xué)”的發(fā)展——如果可以如此來(lái)稱(chēng)呼它的話。 一 檢索資料 在實(shí)際史學(xué)研究工作中,近年來(lái)計(jì)算機(jī)數(shù)據(jù)庫(kù)的發(fā)展真正產(chǎn)生廣泛影響的,是多數(shù)學(xué)者已經(jīng)習(xí)慣利用歷史文獻(xiàn)數(shù)據(jù)庫(kù)來(lái)搜尋資料。這也是我們首先應(yīng)該討論的。 新技術(shù)在給研究工作帶來(lái)極大便利的同時(shí),也帶來(lái)了一些前所未有的新問(wèn)題,值得注意。 利用數(shù)據(jù)庫(kù)來(lái)搜尋資料這一方法的廣泛應(yīng)用,所帶來(lái)的第一個(gè)結(jié)果,無(wú)疑是從中得到的搜索結(jié)果的數(shù)量大增,正如黃一農(nóng)所指出的,“隨著出版業(yè)的蓬勃以及圖書(shū)館的現(xiàn)代化,再加上網(wǎng)際網(wǎng)路和數(shù)位資料庫(kù)的普及,一位文史工作者往往有機(jī)會(huì)掌握前人未曾寓目的材料,并在較短時(shí)間內(nèi)透過(guò)邏輯推理的布局,填補(bǔ)探究歷史細(xì)節(jié)時(shí)的隙縫”。正由于學(xué)者們“有機(jī)會(huì)在很短時(shí)間內(nèi)就掌握前人未曾寓目的材料”,就可以經(jīng)分析研究,得出新的結(jié)論。這也正是他“深感史學(xué)研究已晉入一前人所無(wú)法想象的新局”的原因,也是他提出“e-考據(jù)”說(shuō)的依據(jù)所在。 盡管這種檢索的結(jié)果可能極大地?cái)U(kuò)展了學(xué)者們搜尋資料的范圍與數(shù)量,并幫助他們?cè)诓煌?lèi)型的資料之間建立起聯(lián)系,推進(jìn)分析思考,不過(guò)這種搜尋資料的路徑,本來(lái)就是“傳統(tǒng)”考據(jù)學(xué)所要求的,只不過(guò)學(xué)者們常受條件之限,不太容易做到而已。因此就其本質(zhì)而言,從傳統(tǒng)考據(jù)到“e-考據(jù)”,仍屬量變而非質(zhì)變。這也是為什么有論者以為“e-考據(jù)作為一種考據(jù)方法的創(chuàng)新,并未改變考據(jù)學(xué)的性質(zhì)”之故。此外,黃一農(nóng)所實(shí)踐的兩個(gè)案例,無(wú)論是關(guān)于第一代天主教徒,還是關(guān)于曹振彥的生平事跡,都發(fā)生在明末清初,其存世的歷史文獻(xiàn)相比于前代要豐富得多,有例如“明人文集資料庫(kù)”那樣信息量十分豐富的數(shù)據(jù)庫(kù),其所能夠提供的幫助就十分顯著。如果事涉更早一些的歷史時(shí)期,情況也許會(huì)有所不同。 第二個(gè)結(jié)果,這也是本人在日常研究工作中常常感到困惑之處,那就是對(duì)于某一史事,常常難以確定哪些詞匯應(yīng)該被納入檢索字串的范圍,而且檢索出來(lái)的成百上千條的結(jié)果,常常絕大多數(shù)與研究主題并不相關(guān),對(duì)檢索結(jié)果一條條地分析閱讀,徒然增加了工作量。因此,有學(xué)者感嘆數(shù)據(jù)庫(kù)檢索并未使得搜尋資料變得容易,反而是更難了。 這就反映了文史類(lèi)數(shù)據(jù)庫(kù)建設(shè)所面臨的一大難題:中國(guó)傳統(tǒng)歷史文獻(xiàn)絕大多數(shù)是出于文人之手的描述性文本,其中最大量的是文學(xué)作品,到了數(shù)字人文時(shí)代,不管是“細(xì)讀”還是“遠(yuǎn)讀”,計(jì)算機(jī)的閱讀,只可能落實(shí)于文字表面,將數(shù)據(jù)信息與檢索字串機(jī)械地一一對(duì)應(yīng)。至少在目前的條件下,還不太可能應(yīng)對(duì)傳統(tǒng)文人士大夫筆下常見(jiàn)的各種看似“詞不達(dá)意”的、靈活多變的表述方式。簡(jiǎn)言之,當(dāng)文本未能在字面上直接反映歷史信息時(shí),我們?cè)撛趺崔k? 這里又可以分為三種不同的層次。 其一,一個(gè)對(duì)象物,文獻(xiàn)中可能用不同的詞匯來(lái)指稱(chēng)它,研究者非遍覽史籍,則難以知曉,不太可能僅依靠檢索數(shù)據(jù)庫(kù)來(lái)完成資料的收集。黃一農(nóng)在討論曹振彥生平時(shí),就曾以“瞿汝稷”為例指出,在資料庫(kù)中可以發(fā)現(xiàn)其人共有十?dāng)?shù)種稱(chēng)謂。他一共舉出了諸如“瞿元立”“瞿洞觀”等17種不同的稱(chēng)謂。一個(gè)歷史人物有他的姓名、表字、雅號(hào)、別名、官職、籍貫等等,這當(dāng)然是常見(jiàn)的現(xiàn)象。有的時(shí)候,厘清歷史人物的雅號(hào)別名就已經(jīng)是一項(xiàng)并不輕松的研究議題。例如關(guān)于宋代名相王安石的表字,吳曾《能改齋漫錄》卷十四曾載:“(王)荊公少字介卿,后易介甫?!苯袢藢?duì)此有專(zhuān)文討論,但莫衷一是。更麻煩的是,相比于同名同姓的案例,一個(gè)字號(hào)為多人所共享的情況則更為普遍。例如僅據(jù)《宋人傳記資料索引》,一些典雅的字號(hào),往往相同者眾多。例如“子文”,相同者有王聎等26人;“子正”,相同者則多至33人。即便如“希文”這樣相對(duì)冷僻的字號(hào),也有范仲淹等相同者5人。 不僅是歷史人物,制度、事物等也常見(jiàn)一事多名的現(xiàn)象。例如南宋時(shí)期有一個(gè)中央向地方征調(diào)財(cái)賦的重要項(xiàng)目,叫月樁錢(qián),文獻(xiàn)所載,又稱(chēng)月給錢(qián)、月解錢(qián)、月樁大軍錢(qián)等等,甚至簡(jiǎn)稱(chēng)“大軍錢(qián)”。而“大軍錢(qián)”一詞,當(dāng)時(shí)還指另外的財(cái)政項(xiàng)目,相互間的辨別,全憑研究者細(xì)讀文獻(xiàn)上下文才能做出判斷。 這樣一來(lái),在具體的研究過(guò)程中,以往依靠通讀文獻(xiàn),細(xì)細(xì)品味,遺漏、返工的情況相對(duì)較少?,F(xiàn)在如果主要依靠數(shù)據(jù)庫(kù)檢索來(lái)搜尋資料,則往往需要每發(fā)現(xiàn)一個(gè)新的與研究議題相關(guān)的關(guān)鍵詞,就返工再做一次檢索,最后卻仍無(wú)法保證是否已經(jīng)將相關(guān)記載搜尋無(wú)遺。這無(wú)疑會(huì)給研究工作帶來(lái)不小的困惑。也許,技術(shù)專(zhuān)家會(huì)告訴我們,現(xiàn)今大數(shù)據(jù)技術(shù)的發(fā)展,已經(jīng)完全可以由研究者歸納出其中的規(guī)律,設(shè)置必要的前提條件,讓計(jì)算機(jī)經(jīng)過(guò)學(xué)習(xí),掌握相關(guān)的分辨、判斷技術(shù),再讓它將相關(guān)記載的文本“挖掘”出來(lái)。這樣的設(shè)想是否適合于中國(guó)古代歷史資料的搜尋,筆者尚無(wú)法判斷。不過(guò)比較明確的是,歸納詞頻規(guī)律與為檢索設(shè)置必要的前提條件,當(dāng)然是只有史學(xué)工作者才能夠勝任的一項(xiàng)工作。而這樣一來(lái),實(shí)際上研究過(guò)程恐怕已經(jīng)完成,無(wú)須再煩勞機(jī)器了;同時(shí)其可能需要的人力、物力投入,也多半會(huì)得不償失。 其二,在中國(guó)古代歷史文獻(xiàn)的記載中,文本字面含義與史實(shí)之間常常存在錯(cuò)位,這就使得事情變得更為復(fù)雜了。筆者近年從事的兩個(gè)專(zhuān)題研究,有一定的示范意義。 討論宋代鄉(xiāng)村基層管理組織,存世的宋元地方志是核心文獻(xiàn)。從宋到元,存在著一個(gè)從鄉(xiāng)里、鄉(xiāng)管到鄉(xiāng)都的制度演變過(guò)程,這是公認(rèn)的史實(shí)。但是數(shù)十種存世宋元方志關(guān)于鄉(xiāng)村基層管理組織的描述,從南宋至元代,在“鄉(xiāng)”之下,超過(guò)80%卻仍記載著已經(jīng)退出歷史舞臺(tái)的“里”,至于當(dāng)時(shí)實(shí)際運(yùn)行之中的“都”與“保”,則甚少記載。如果完全依賴數(shù)據(jù)庫(kù)的檢索統(tǒng)計(jì),就可能使人誤以為當(dāng)時(shí)的鄉(xiāng)村基層管理組織,仍是以“鄉(xiāng)”與“里”為核心來(lái)建構(gòu)的,這就反而遠(yuǎn)離了史實(shí)。實(shí)際上這些“里”,看似鄉(xiāng)村基層管理組織,卻不過(guò)是經(jīng)過(guò)演變的某種地理單元而已。這樣的認(rèn)識(shí),僅憑數(shù)據(jù)庫(kù)的檢索閱讀,當(dāng)然是無(wú)法達(dá)到的。 又關(guān)于宋代城市的城區(qū)布局與管理,存世地方志的記載無(wú)不以“坊”為中心,無(wú)論是“坊巷”“坊市”或者“坊陌”,都是如此。多數(shù)地方志幾乎不記載關(guān)于街巷的情況。即便有的地方志,如《嘉泰會(huì)稽志》,設(shè)有“衢巷”之目,看似專(zhuān)為街巷而立,實(shí)際記載的內(nèi)容,卻僅有坊而無(wú)巷。這就給了讀者一個(gè)直觀的印象,似乎當(dāng)時(shí)的城區(qū)一切都以“坊”為中心來(lái)展開(kāi)。實(shí)際上,“坊”在宋元方志的文本中有多重含義,既可能是城市管理組織“坊區(qū)”,又多指聳立于街巷兩端的兼具裝飾與實(shí)用功能的坊額坊表,同時(shí)也有可能是純粹作為紀(jì)念性建筑物的牌坊,如各地常見(jiàn)的狀元坊、功德坊之類(lèi)的東西。但是宋元地方志對(duì)于其間的區(qū)別幾乎都不做說(shuō)明,只是將它們混雜在一起記載了下來(lái)。究其原因,就是因?yàn)榈胤街揪幾胝邆儭皻v史書(shū)寫(xiě)”的用心所在,是要凸顯各地城區(qū)坊額的“為美名以志”,即其某種“為邑之壯觀”。同時(shí),對(duì)于在民眾日常生活中扮演著主角的街巷,他們卻嫌其名稱(chēng)“出于俚俗”,“多非馴雅”,不屑于記述了。這種在歷史書(shū)寫(xiě)中畸輕畸重的失真現(xiàn)象,長(zhǎng)期誤導(dǎo)了人們對(duì)于當(dāng)時(shí)城市制度的認(rèn)識(shí)。如果僅僅依靠數(shù)據(jù)庫(kù)對(duì)歷史文本的統(tǒng)計(jì)分析,無(wú)疑也會(huì)得出坊主巷從的結(jié)論,難以解開(kāi)這個(gè)歷史的謎團(tuán)。 其三,更進(jìn)一步,文人士大夫行文遣墨,筆下常見(jiàn)的隱語(yǔ)、反諷、比擬、轉(zhuǎn)喻等手法,使得有時(shí)文本與史實(shí)之間隔著好幾層關(guān)系,史家常常不得不依靠自己對(duì)史事大背景的掌握以及上下文的邏輯聯(lián)系,有時(shí)甚至還得依靠揣摸作者行文的語(yǔ)氣與心態(tài),來(lái)做出判斷。這就使得事情更加復(fù)雜了。 例如,古人書(shū)信中,常以“某氏”“某丈”之類(lèi)簡(jiǎn)稱(chēng),類(lèi)似于今人所言“老張”“老李”之類(lèi)的泛稱(chēng),來(lái)指稱(chēng)通信雙方都熟悉的某位人物,如南宋理學(xué)家呂祖謙(1137—1181),在其與朱熹(1130—1200)的信函中,經(jīng)常提到一位“張丈”,熟悉南宋理學(xué)史的學(xué)者很容易判斷,這應(yīng)該是指當(dāng)時(shí)另一位著名的理學(xué)家張軾(1133—1180)。但是僅憑類(lèi)似于今人“老張”這一泛稱(chēng),想要請(qǐng)計(jì)算機(jī)通過(guò)數(shù)據(jù)檢索來(lái)追索到具體是哪一位老張,無(wú)疑太過(guò)難為機(jī)器了。 又如,古人還常有以兄弟排行來(lái)指稱(chēng)人物的書(shū)寫(xiě)方法,類(lèi)似于今人稱(chēng)某人為老大、老二等等。若無(wú)其他更為明確的信息,計(jì)算機(jī)恐怕也是難以做出判斷的。如北宋末年權(quán)臣蔡京(1047—1126)的小兒子蔡眥,因與長(zhǎng)兄蔡攸(1077—1126)不諧,在其于南宋初年所撰筆記《鐵圍山叢談》中,概以“伯氏”一詞指稱(chēng)之,其他信息全無(wú),依靠數(shù)據(jù)庫(kù)檢索,恐怕也是難以從此書(shū)中把關(guān)于蔡攸的記載挖掘出來(lái)的。 本文作者包偉民 古人又多以官職、籍貫來(lái)指稱(chēng)人物,如杜工部(杜甫)、康南海(康有為)之類(lèi)就是顯例。黃一農(nóng)就曾提到,瞿汝稷還有“瞿黃州”“瞿太虛運(yùn)使”等別稱(chēng)。但如果這類(lèi)指稱(chēng)連姓氏都被省略,學(xué)者有時(shí)不免得考索一番,才弄得清究竟所指為何人。數(shù)據(jù)庫(kù)看來(lái)是無(wú)能為力的。例如北宋后期宰臣曾布(1036—1107)的《曾公遺錄》,因?qū)儆谒饺巳沼浶再|(zhì),指稱(chēng)人物的用詞就相當(dāng)簡(jiǎn)單。如“元符二年三月丁卯日”條載:“是日,夔、轄不入?!边@里被簡(jiǎn)略至僅一個(gè)字的“夔”與“轄”所指何人,就頗費(fèi)思量。據(jù)同書(shū)卷九“元符三年正月己卯日”條載,宋哲宗駕崩之后,向太后與宰執(zhí)們商量帝位繼任大事。“章惇厲聲云:‘依禮典律令,簡(jiǎn)王乃母弟之親,當(dāng)立?!嚆等晃醇皩?duì),太后云……余即應(yīng)聲云:‘章惇并不曾與眾商量,皇太后圣諭極允當(dāng)?!瘫逡嘣疲骸诨侍笫ブ?。’許將亦唯唯,夔遂默然?!笨芍百纭奔礊闀r(shí)任宰相、尚書(shū)左仆射兼門(mén)下侍郎的章惇(1035—1105)。然而此“夔”字,既非章惇的表字,更非其雅號(hào),顯然是曾布因與其政見(jiàn)不合、在自己的私記中為其所取帶有鄙意的別稱(chēng)。至于“轄”,文中也多見(jiàn)有“兩轄”一詞,當(dāng)指“左轄”與“右轄”,即尚書(shū)左丞與尚書(shū)右丞的別稱(chēng)。時(shí)任尚書(shū)左丞是蔡卞(1048—1117),尚書(shū)右丞為黃履(1030—1101)。從人名到其官職,又從官職到別稱(chēng),更將別稱(chēng)簡(jiǎn)化,這中間幾重轉(zhuǎn)折的線索,檢索工具怕是接不上的。 又如南宋乾道八年(1172年),朱熹致信呂祖謙:“熹自泉、福間得侍郎中丈教誨,蒙以契舊之故,愛(ài)予甚厚?!边@里提到的“郎中丈”究系何人,就有點(diǎn)沒(méi)頭沒(méi)腦。查呂祖謙年譜及其他相關(guān)資料,才得以明了原來(lái)指的是呂祖謙之父呂大器。紹興二十五年(1155年)呂大器任福建提刑司干官,當(dāng)時(shí)朱熹應(yīng)該拜見(jiàn)過(guò)他,因此才說(shuō)自己在泉、福間得其教誨。呂大器于乾道八年二月初七日過(guò)世,朱熹得知此消息后,致信好友表示慰問(wèn)。呂大器官至右朝散郎,所以朱熹以“郎中丈”尊稱(chēng)之。但是,我們?nèi)粢懻搮未笃鬟@樣的歷史人物,應(yīng)該是不會(huì)想到將其曾任之右朝散郎之簡(jiǎn)略詞“郎”等詞匯列為檢索字串的。即便檢索字串的設(shè)置周全得無(wú)以復(fù)加,能夠?qū)⑵淞腥?,那么不管是某氏某丈、伯氏季氏,還是夔、轄、郎之類(lèi),利用“中國(guó)基本古籍庫(kù)”那樣的數(shù)據(jù)庫(kù),當(dāng)然都能很快地將它們?nèi)繖z索出來(lái),羅列無(wú)遺,但是每一字串所得到的起碼數(shù)千及至十?dāng)?shù)萬(wàn)個(gè)檢索結(jié)果,在實(shí)際的研究工作中顯然也是沒(méi)有任何利用價(jià)值的。 所以說(shuō),僅就全文檢索這一層面而言,對(duì)于以上這幾類(lèi)現(xiàn)象,計(jì)算機(jī)數(shù)據(jù)庫(kù)看來(lái)仍然是無(wú)能為力。如果僅僅依靠數(shù)據(jù)庫(kù)來(lái)搜尋歷史資料,至少在目前的技術(shù)水平下,仍有其明顯不足,難以將資料搜尋完備。黃一農(nóng)曾指出:“當(dāng)然,別忘了,‘e-考據(jù)’的研究方法,不僅得熟悉網(wǎng)絡(luò)或電子資源,還必須建立在深厚的史學(xué)基礎(chǔ)之上。而清晰的問(wèn)題意識(shí)與靈活的搜尋技巧,亦將是考據(jù)功力的深淺所系?!蔽覀兓蛟S還可以對(duì)此稍做補(bǔ)充,在清晰的問(wèn)題意識(shí)與靈活的搜尋技巧之外,對(duì)于一些基本歷史文獻(xiàn),認(rèn)真通讀,細(xì)心體會(huì),仍然是中國(guó)古代歷史研究必不可少的一道“工序”。 二 提出議題 當(dāng)然,正如不少論者所指出的,全文檢索遠(yuǎn)未發(fā)揮出計(jì)算機(jī)數(shù)據(jù)庫(kù)的所有功能,其所強(qiáng)調(diào)較多的,還有提出議題與統(tǒng)計(jì)分析兩個(gè)方面。 議題是史學(xué)研究的起點(diǎn)。人們觀察歷史,不免站在當(dāng)今的立場(chǎng)上來(lái)提出議題,以求了解過(guò)去。但如何提出有意義、得以真正展開(kāi)討論的議題,還有賴于我們對(duì)歷史社會(huì)的認(rèn)識(shí),去發(fā)現(xiàn)那些有意義的歷史現(xiàn)象。正是在這一意義上,歷史資料數(shù)據(jù)庫(kù)的發(fā)展,給我們展示了新的可能,也帶來(lái)了新的困惑。 由于數(shù)據(jù)庫(kù)能夠幫助研究者比以前更加方便地搜集資料,并據(jù)以展開(kāi)分析討論,因此有論者特別強(qiáng)調(diào)“量化研究的一個(gè)重要優(yōu)勢(shì)是,能夠發(fā)現(xiàn)靠傳統(tǒng)文獻(xiàn)閱讀無(wú)法發(fā)現(xiàn)的隱藏在歷史資料堆中的史實(shí)”,甚至更進(jìn)一步,可以經(jīng)過(guò)“同時(shí)比對(duì)上千條數(shù)據(jù),辨識(shí)其中模式”,也就是認(rèn)為利用數(shù)據(jù)庫(kù)的分析,可以在復(fù)雜的歷史現(xiàn)象中發(fā)現(xiàn)傳統(tǒng)研究方法難以覺(jué)察到的問(wèn)題。這樣的推論,在邏輯上自然順理成章。不過(guò),更為周全的觀察還提醒著我們,這一推論的適應(yīng)面存在著明顯的局限性。除非我們能夠滿足它所有必要的前提條件,否則推論的結(jié)果難以達(dá)到。那就是:第一,相關(guān)研究領(lǐng)域保存有豐富的檔案文獻(xiàn),可以構(gòu)建起信息量足夠的數(shù)據(jù)庫(kù);第二,利用計(jì)算機(jī)來(lái)閱讀歷史資料,如前文所論,至少在目前,還停留在詞義直接對(duì)應(yīng)的水平,這就要求歷史文本的字面含義與它所可能蘊(yùn)含的歷史信息完全對(duì)應(yīng),否則機(jī)器閱讀就無(wú)能為力。但是這在中國(guó)古代史研究領(lǐng)域,條件似乎尚欠充分。 人類(lèi)歷史內(nèi)容極其廣泛,不同領(lǐng)域存世的歷史資料差別明顯。不少學(xué)者在討論中經(jīng)常舉為論據(jù)的“大數(shù)據(jù)”,大多需要以豐富的存世檔案文獻(xiàn)為基礎(chǔ),在中國(guó)古代歷史領(lǐng)域,卻基本不存在這樣的條件。在印刷術(shù)未能普及應(yīng)用之前的那些歷史階段,更是如此。所以信息技術(shù)在中國(guó)古代史研究領(lǐng)域的應(yīng)用,可能與近現(xiàn)代史領(lǐng)域有一些不同,不應(yīng)忽視。 因此,在意見(jiàn)的另一方面,常被論者提及的則是王國(guó)維的“讀書(shū)得間”之論:“宜由細(xì)心苦讀以發(fā)現(xiàn)問(wèn)題,不宜懸問(wèn)題以覓材料?!睆?qiáng)調(diào)從細(xì)心閱讀歷史文獻(xiàn)之中來(lái)發(fā)現(xiàn)問(wèn)題。 所謂經(jīng)過(guò)大數(shù)據(jù)分析比較來(lái)發(fā)現(xiàn)問(wèn)題,不可能將史學(xué)分析完全交給計(jì)算機(jī)自發(fā)地操作,而必須由研究者設(shè)置一定的前提條件。也就是說(shuō),其實(shí)是由研究者事先提出研究目的或者目的范圍,也就是“懸問(wèn)題以覓材料”。這些問(wèn)題當(dāng)然不可能憑空得來(lái),必然有其依據(jù)。除了研究者對(duì)特定歷史社會(huì)的認(rèn)識(shí)之外,比較直接的應(yīng)該就是現(xiàn)代社會(huì)科學(xué)一些范式的指引。這就難免會(huì)與作為研究對(duì)象的歷史社會(huì)之間存在一定的隔閡。這樣一來(lái),豈非坐實(shí)了關(guān)于“實(shí)際情況則是研究者預(yù)先設(shè)定的思路往往成為搜尋和篩選數(shù)據(jù)的藩籬而不自知”的批評(píng)? 而所謂“讀書(shū)得間”之論,“由細(xì)心苦讀以發(fā)現(xiàn)問(wèn)題”,強(qiáng)調(diào)的是要通過(guò)分析存世歷史文本、在字里行間的細(xì)節(jié)中發(fā)現(xiàn)前人所忽略的問(wèn)題。其與前者的差別,主要體現(xiàn)在立足點(diǎn)之不同,即立足于客體(歷史社會(huì)),從深入觀察之中來(lái)發(fā)現(xiàn)問(wèn)題,還是立足于主體(研究者),根據(jù)今人的主觀目標(biāo)來(lái)設(shè)定問(wèn)題。盡管這兩者之間還存在著相當(dāng)復(fù)雜的聯(lián)系,但立場(chǎng)的區(qū)別是明顯的。 史學(xué)研究的目的是為了理解歷史。所謂一代人有一代人的歷史,指的是每一代人都會(huì)對(duì)歷史有與前人不同的理解。因此在史學(xué)研究中,主體與客體常常相互影響。相對(duì)而言,強(qiáng)調(diào)主體,在于其研究目的,即從今人理解歷史、使之服務(wù)于當(dāng)今的目的出發(fā)來(lái)提出問(wèn)題;立足于客體,則是強(qiáng)調(diào)從研究對(duì)象本身的實(shí)際情況出發(fā),來(lái)發(fā)現(xiàn)問(wèn)題、提出問(wèn)題。也就是所謂的要“貼近史實(shí)”。筆者的理解,這里可以包含兩層意思:一是要在總體上把握研究對(duì)象的全',二是要充分發(fā)掘歷史的細(xì)節(jié)。 具體到筆者相對(duì)熟悉的宋代史研究領(lǐng)域而言,其中相較于其他歷史時(shí)期一些突顯的現(xiàn)象,是任何觀察者都不能忽視的,一直為人們所重視。如多民族政權(quán)并存、趙宋政權(quán)文官制度的發(fā)達(dá)與武功之不振、經(jīng)濟(jì)與技術(shù)的突破性發(fā)展、思想文化領(lǐng)域新氣象的形成、南方地區(qū)的開(kāi)發(fā)以及隨之帶來(lái)的地域格局的變化、城市新面貌的形成等等,是任何觀察者都不能忽視的。論題雖舊,其命彌新。只有在基本把握了全'的前提下,再將各方面的歷史現(xiàn)象聯(lián)系起來(lái)觀察,以研究者獨(dú)到與深邃的眼光,才有可能從歷史文本的字里行間發(fā)現(xiàn)隱藏于其中的一些重要?dú)v史現(xiàn)象,找出可以深入討論的問(wèn)題。也就是從中去尋找某一歷史現(xiàn)象可能蘊(yùn)含的意義,來(lái)解答它的“為什么”,即所謂“得間”。更為重要的是,也才有可能使得對(duì)問(wèn)題的討論契合于歷史發(fā)展的大趨勢(shì),將局部與總體有機(jī)地結(jié)合起來(lái)。 正是在這一意義上,目前學(xué)界多所批評(píng)的所謂“檢索體”類(lèi)文章,即主要依靠數(shù)據(jù)庫(kù)檢索來(lái)完成資料搜尋工作,或者依靠機(jī)器閱讀來(lái)確立討論議題的,可能正在于它們既不能把握住特定歷史社會(huì)的基本脈絡(luò),對(duì)于引為論據(jù)的歷史文本又常常割裂其與上下文之間的有機(jī)聯(lián)系,更割裂了其與歷史大背景之間的聯(lián)系,在典型地“尋章摘句”之余,更以今人之心揣古人之腹,可以說(shuō)在其所提出的議題與其對(duì)議題的論證兩方面都脫離了歷史實(shí)際。 也正因此,能否通過(guò)大數(shù)據(jù)分析來(lái)發(fā)現(xiàn)史事中的問(wèn)題,其前提仍在于研究者對(duì)于歷史社會(huì)基本脈絡(luò)及其細(xì)節(jié)的掌握是否充分?!白x書(shū)得間”,尤其在史學(xué)訓(xùn)練的初級(jí)階段,不可跨越。 三 統(tǒng)計(jì)分析 不少論者都曾指出,數(shù)字人文的發(fā)展,早已從簡(jiǎn)單的全文檢索進(jìn)化到了“關(guān)系型”數(shù)據(jù)庫(kù)——比較著名的如中國(guó)歷代人物傳記項(xiàng)目(CBDB)與Markus古籍半自動(dòng)標(biāo)記平臺(tái)等等,它們能將各種要素有機(jī)地聯(lián)系起來(lái),來(lái)做統(tǒng)計(jì)分析,以得出個(gè)體研究者不容易達(dá)到的結(jié)論,甚至做到所謂“精準(zhǔn)型研究”??墒?,這些數(shù)據(jù)庫(kù)在處理歷史文本時(shí),如前文所說(shuō)的當(dāng)文本未能在字面上直接反映歷史信息時(shí)研究者該怎么辦的困窘依然存在。另外,在充分意識(shí)到這種關(guān)系型數(shù)據(jù)庫(kù)的潛能以及有時(shí)抱怨它們的用戶界面大多不夠友好的同時(shí),筆者不免得隴望蜀,期待它能夠發(fā)揮更大的作用。因此還有幾點(diǎn)困惑之處,提出來(lái)討論。 首先,如何應(yīng)對(duì)存世記載零散、數(shù)據(jù)庫(kù)的統(tǒng)計(jì)分析難以保證結(jié)論的普遍性的問(wèn)題。在中國(guó)古代史領(lǐng)域,存世記載大多零散,具有明顯的偶然性與或然性,很難具有系統(tǒng)性,這與近現(xiàn)代史領(lǐng)域存在著相當(dāng)大的差別。在“傳統(tǒng)”的以全文閱讀為基礎(chǔ)的研究中,成熟的學(xué)者往往可以通過(guò)對(duì)不同案例的全面考量,判斷其典型性,才舉為例證。這一過(guò)程盡管看似主觀,事實(shí)上可能反而更接近史實(shí)。但是根據(jù)這些記載建立起來(lái)的數(shù)據(jù)庫(kù),看似精確,實(shí)際是只能將復(fù)雜、立體的描述性歷史文本轉(zhuǎn)化成平面的數(shù)據(jù),抹殺了它們相互間的差異性,這樣一來(lái),數(shù)據(jù)庫(kù)統(tǒng)計(jì)還能夠在多大程度上反映歷史現(xiàn)象的普遍性,不免令人存疑。例如以歷史人物研究為例,坦率地說(shuō),近年來(lái)學(xué)界為建設(shè)關(guān)系型數(shù)據(jù)庫(kù),投入了大量的人力和物力,但學(xué)者們?cè)诟髯缘难芯抗ぷ髦姓嬲眠@些數(shù)據(jù)庫(kù)并做出有影響的學(xué)術(shù)成果的,則極為有限。筆者曾見(jiàn)有論者利用CBDB數(shù)據(jù)庫(kù),來(lái)研究宋代處州的家族群體,還補(bǔ)充以其他一些碑銘資料,共發(fā)現(xiàn)了35個(gè)符合“有影響力”條件的家族,其中麗水縣10個(gè),縉云縣7個(gè),松陽(yáng)縣5個(gè),青田縣5個(gè),龍泉縣5個(gè),遂昌縣與慶元縣各2個(gè)。作者據(jù)此得出結(jié)論,認(rèn)為在宋代處州地區(qū),除了政治中心麗水有影響力的家族數(shù)量較多外,其他各縣分布較為均勻,縣域之間的差別較小。同時(shí)這些家族及其區(qū)域的發(fā)展有著明顯的“內(nèi)生性”特點(diǎn)。查考作者所列出的這35個(gè)家庭的資料出處,坦率地說(shuō),基本不出文史研究者目力可及的范圍。而且,以每縣僅僅個(gè)位數(shù)的例證,來(lái)論證300年時(shí)間跨度之中“家族群體”的特征,不能不說(shuō)是太過(guò)試探性的了。更重要的是,處州的這35個(gè)家族雖然按一定條件都可以被認(rèn)定為具有“影響力”,在數(shù)據(jù)庫(kù)的資料處理方式中,他們都變成了一個(gè)簡(jiǎn)單的計(jì)數(shù)單位,在每個(gè)“1”的背后,不同家族間可能存在的各種差異——豪族與寒士、顯宦與下僚,全都被忽略、抹平了。其與史實(shí)之間究竟存在多少距離,就令人不得而知了。 其次,與此相類(lèi)似,在人物研究領(lǐng)域,以CBDB為代表的關(guān)系型數(shù)據(jù)庫(kù),在將本質(zhì)上屬于描述性的文獻(xiàn)轉(zhuǎn)化為可供統(tǒng)計(jì)的量化數(shù)據(jù)的過(guò)程中,經(jīng)過(guò)一定的條件界定,難免會(huì)篩選、過(guò)濾歷史信息,造成信息的衰減。例如關(guān)于宋末入元士人對(duì)新朝的態(tài)度問(wèn)題,學(xué)界曾有一些研究。觀察的視角之一,是統(tǒng)計(jì)這些士人入元后是否入仕新朝。經(jīng)過(guò)“是”與“否”的統(tǒng)計(jì),得出不同地區(qū)、不同群體之間的不同數(shù)據(jù)。應(yīng)該說(shuō),在將描述性文獻(xiàn)轉(zhuǎn)化為量化數(shù)據(jù)的處理中,這一個(gè)“是”與“否”的統(tǒng)計(jì),當(dāng)屬于邏輯關(guān)系比較明晰、信息衰減相對(duì)較少的類(lèi)型,卻仍然不能保證其結(jié)論不偏離于史實(shí)。數(shù)年前,筆者曾以明州(慶元府)入元士人為例,來(lái)校正這類(lèi)數(shù)據(jù),發(fā)現(xiàn)實(shí)際情形遠(yuǎn)比“入仕”或“未入仕”這樣兩大簡(jiǎn)單的歸類(lèi)更為復(fù)雜。入仕者,其與新朝可以有親與疏,或者自愿與無(wú)奈之異;未入仕者,也可能存在著不愿仕與不得仕之別。特定的入仕者與未入仕者之間對(duì)于新朝的情感立場(chǎng),相比同一類(lèi)別內(nèi)部之間,甚至有可能更為接近。但是非此即彼的統(tǒng)計(jì)歸類(lèi),只能摘取文本所反映的豐富歷史信息中的一個(gè)節(jié)點(diǎn)而已,完全忽略了這些重要內(nèi)容。人們的社會(huì)活動(dòng)是復(fù)雜多樣的,數(shù)據(jù)庫(kù)式的歷史資料處理方式,將本來(lái)豐富多彩的社會(huì)活動(dòng)簡(jiǎn)單地轉(zhuǎn)化成了是與否、0與1,在資料統(tǒng)計(jì)追求全面、可視、多樣化的同時(shí),有時(shí)無(wú)疑也存在著簡(jiǎn)單化、反而背離了史實(shí)的情形。 再次,偶然存世、零散殘缺與每一單篇都頗具個(gè)性色彩的古代歷史文本,在被統(tǒng)合到數(shù)據(jù)庫(kù)后,或者被分解開(kāi)來(lái)以其局部與其他資料相聯(lián)系、對(duì)比、分析,或者以其一部或整體與其他資料相加、統(tǒng)計(jì)、核算,都會(huì)存在一個(gè)損失其個(gè)性、脫離其歷史背景的問(wèn)題。典型案例,可舉存世的一些財(cái)政數(shù)據(jù)來(lái)做說(shuō)明。目前保存在正史、政書(shū)、地志、文集等文獻(xiàn)中的一些古代財(cái)政數(shù)據(jù),即便是相對(duì)全面的那些記載,也無(wú)不存在著統(tǒng)計(jì)口徑不一、計(jì)量單位各異等復(fù)雜問(wèn)題,非經(jīng)對(duì)每一個(gè)案認(rèn)真解讀、換算,不易解讀。數(shù)據(jù)庫(kù)的處理,如果僅僅因?yàn)槠浔砻婵磥?lái)財(cái)政項(xiàng)目相同,就簡(jiǎn)單展開(kāi)統(tǒng)計(jì)分析,難免不會(huì)出現(xiàn)失之毫厘謬以千里之誤。例如馬端臨《文獻(xiàn)通考》卷二三《國(guó)用考一》載有宣和元年(1119年)“諸路上供錢(qián)物之?dāng)?shù)”,涉及17個(gè)路分,合計(jì)1532萬(wàn)貫匹兩,其中數(shù)額高者如兩浙路,達(dá)443萬(wàn)余貫匹兩,占諸路總額的29%,而四川地區(qū)的成都、利州、潼川、夔州四路合計(jì)起來(lái)僅14萬(wàn)有奇,不到諸路總額的0.9%。根據(jù)當(dāng)時(shí)四川地區(qū)的經(jīng)濟(jì)地位,其上供財(cái)賦絕不可能如此之少,這說(shuō)明《文獻(xiàn)通考》所載宣和元年“諸路上供錢(qián)物之?dāng)?shù)”并非當(dāng)?shù)氐纳瞎┰~,應(yīng)該只是供送到京師開(kāi)封府的那部分,四川上供財(cái)物絕大部分估計(jì)已被截留于陜西了。但是這樣的認(rèn)識(shí),非經(jīng)對(duì)北宋后期國(guó)家財(cái)政調(diào)撥體系做出全局性分析之后,不可能得出。可知宣和元年這一“上供錢(qián)物之?dāng)?shù)”的記載,與存世的當(dāng)時(shí)其他一些關(guān)于四川地區(qū)的財(cái)政數(shù)據(jù)出于不同的統(tǒng)計(jì)口徑。數(shù)據(jù)庫(kù)的統(tǒng)計(jì),如何綜合這些分析性的認(rèn)知,避免簡(jiǎn)單化地加加減減呢?其他大量的更為個(gè)性化的記載,如何避免在數(shù)據(jù)庫(kù)統(tǒng)計(jì)過(guò)程中損失背后的歷史信息,將立體的文本偏平化了呢?這些都是我們?cè)趯?shù)字化技術(shù)應(yīng)用到中國(guó)古代歷史研究領(lǐng)域時(shí)不得不面對(duì)的問(wèn)題。 上述例子說(shuō)明,史家讀書(shū),除了某一詞句與其上下文的邏輯關(guān)系外,還得關(guān)心通篇文本與其時(shí)代背景之間的復(fù)雜關(guān)系。在數(shù)字人文時(shí)代,若將讀書(shū)的任務(wù)完全交給計(jì)算機(jī)來(lái)完成,是否會(huì)恰好顯露出文史類(lèi)資料與現(xiàn)代信息技術(shù)之間某種程度的方枘圓鑿呢? 四 余論 回到本文的標(biāo)題,所謂在數(shù)字人文時(shí)代歷史學(xué)遇到的新挑戰(zhàn),當(dāng)然并非如某些論者所言,“傳統(tǒng)史學(xué)”將被“具體、細(xì)致和精確”的“新史學(xué)”所取替,而是指如何在符合學(xué)科特點(diǎn)的基礎(chǔ)之上,更有效地利用信息技術(shù),以推動(dòng)歷史學(xué)研究的深化發(fā)展,對(duì)史學(xué)從業(yè)人員來(lái)說(shuō),的確是一個(gè)新課題、新挑戰(zhàn)。在這里,歷史學(xué)與計(jì)算機(jī)學(xué)科等領(lǐng)域的攜手合作非常重要。本文所談到的這些困惑,正是希望“具體、細(xì)致和精確”地指出在應(yīng)用數(shù)字技術(shù)來(lái)分析歷史信息時(shí)可能產(chǎn)生的一些BUG,既提醒史學(xué)界同仁,我們應(yīng)該將數(shù)據(jù)技術(shù)放到一個(gè)更為恰當(dāng)?shù)奈恢茫诟玫乩盟耐瑫r(shí),避開(kāi)它可能帶來(lái)的一些弊病;同時(shí),更試圖為計(jì)算機(jī)等學(xué)科提供參考意見(jiàn),期待有關(guān)學(xué)者改進(jìn)技術(shù),幫助史學(xué)研究更好地融入數(shù)字化時(shí)代。 總之,正如王家范先生所指出的,“世界上有一種職業(yè)是任何再先進(jìn)的機(jī)器人也無(wú)法替代,那就是歷史學(xué)家”。對(duì)于史學(xué)研究來(lái)說(shuō),“大數(shù)據(jù)”只不過(guò)是一種新的更加有效的工具而已,它當(dāng)然不可能取代學(xué)術(shù)研究的主體——?dú)v史學(xué)家。 end 作者為中國(guó)人民大學(xué)歷史學(xué)院教授; 原文載《史學(xué)月刊》2018年第9期,注釋從略。 據(jù)反映和編輯部發(fā)現(xiàn):近期有不法機(jī)構(gòu)和個(gè)人盜用《史學(xué)月刊》編輯部名義,向作者發(fā)放稿件錄用證明文件,并收取相關(guān)費(fèi)用等。在此鄭重聲明:本刊嚴(yán)格按照國(guó)家有關(guān)政策法規(guī)進(jìn)行出版,發(fā)表文章不收取任何費(fèi)用,凡以我刊名義收費(fèi)者,均系假冒詐騙行為。再次提醒作者,謹(jǐn)防上當(dāng)受騙。 另,作者來(lái)稿,請(qǐng)采用打印稿和電子文本同時(shí)寄送的辦法。具體請(qǐng)參照本刊投稿須知(本刊官網(wǎng)與“shixueyuekan”公眾號(hào)有詳細(xì)說(shuō)明)。 敬請(qǐng)廣大讀者和作者相互轉(zhuǎn)告周知,感謝您的支持和厚愛(ài)。 《史學(xué)月刊》編輯部 2018年9月 |
|
來(lái)自: 東泰山人 > 《歷史學(xué)》