乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      國(guó)學(xué)大數(shù)據(jù)時(shí)代來(lái)了

       老周老師 2013-09-16

      國(guó)學(xué)大數(shù)據(jù)時(shí)代來(lái)了

      《 光明日?qǐng)?bào) 》( 2013年09月16日   15 版)

          訪(fǎng)談嘉賓:趙敏俐:首都師范大學(xué)文學(xué)院教授、中國(guó)詩(shī)歌研究中心主任      

       

          孫茂松:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)      

       

          張 濤:北京師范大學(xué)易學(xué)文化研究院教授、院長(zhǎng)      

       

          尹小林:首都師范大學(xué)電子文獻(xiàn)研究所所長(zhǎng)

       

          特邀主持人:杜曉勤(北京大學(xué)中文系教授、中國(guó)古代詩(shī)歌研究中心副主任)

       

          主持人:21世紀(jì)進(jìn)入第二個(gè)十年,信息技術(shù)得到突飛猛進(jìn)的發(fā)展。我們正在進(jìn)入一個(gè)全方位的“大數(shù)據(jù)時(shí)代”,呈現(xiàn)出從“云計(jì)算”到“大數(shù)據(jù)”的發(fā)展趨勢(shì)。這個(gè)發(fā)展趨勢(shì)不是虛空的,而是正在對(duì)社會(huì)生活和學(xué)術(shù)研究產(chǎn)生著實(shí)實(shí)在在的重大影響。今天在座的都是中國(guó)古籍?dāng)?shù)字化事業(yè)的參與者和見(jiàn)證人。我們希望通過(guò)這樣一個(gè)小型的討論,與廣大讀者一起分享各位關(guān)于古籍整理與國(guó)學(xué)研究如何應(yīng)對(duì)“大數(shù)據(jù)時(shí)代”問(wèn)題的思考。

       

       

          趙敏俐:“大數(shù)據(jù)時(shí)代”已經(jīng)降臨了。它表現(xiàn)在各個(gè)領(lǐng)域,不僅僅是生產(chǎn)領(lǐng)域,還包括知識(shí)領(lǐng)域?!按髷?shù)據(jù)時(shí)代”是一場(chǎng)革命,它不僅會(huì)促進(jìn)經(jīng)濟(jì)發(fā)展、科技進(jìn)步,在文化領(lǐng)域也會(huì)起到巨大的作用。十七屆六中全會(huì)《關(guān)于深化文化體制改革、推動(dòng)社會(huì)主義文化大發(fā)展大繁榮若干重大問(wèn)題的決定》明確提出:“要加強(qiáng)文化典籍整理和出版工作,推進(jìn)文化典籍資源數(shù)字化建設(shè)?!蔽覀儜?yīng)站在“大數(shù)據(jù)時(shí)代”這樣一個(gè)新的高度,來(lái)理解和認(rèn)識(shí)中央推進(jìn)古籍?dāng)?shù)據(jù)化事業(yè)的戰(zhàn)略意義。

       

          主持人:趙敏俐教授,您是倡導(dǎo)古籍?dāng)?shù)字化的重要學(xué)者,而且已經(jīng)主持研制了一些古籍?dāng)?shù)據(jù)庫(kù)。請(qǐng)問(wèn)您對(duì)“大數(shù)據(jù)時(shí)代”之“大”是如何理解的?

       

          趙敏俐:我想,“大”應(yīng)該包括兩個(gè)方面的內(nèi)容。首先是規(guī)模上的“大”。按尹小林的提法,幾百萬(wàn)到一千萬(wàn)字的數(shù)據(jù)庫(kù)算是小型數(shù)據(jù)庫(kù);幾千萬(wàn)到一億字的數(shù)據(jù)庫(kù)算是中型數(shù)據(jù)庫(kù);從一億字到十億字算是大型數(shù)據(jù)庫(kù),超過(guò)十億字以上的應(yīng)該算是超大型數(shù)據(jù)庫(kù)。

       

          另一方面是功能上的“大”。功能的強(qiáng)大是超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)很重要的標(biāo)志。怎樣才能算功能的強(qiáng)大?到目前為止,我們雖然已經(jīng)做了很多古籍?dāng)?shù)字化的工作,比如把古籍做了一般的簡(jiǎn)單掃描,入庫(kù)后也可以進(jìn)行一般的查找,實(shí)現(xiàn)了一部分功能,但這個(gè)功能和我們想做的超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)還有差距。按照我的理解,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)應(yīng)該有這樣幾方面的特點(diǎn):第一,因?yàn)樗谐笠?guī)模的數(shù)據(jù)量,其中文獻(xiàn)種類(lèi)和內(nèi)容都非常豐富,有更大的包容性。和過(guò)去中小規(guī)模數(shù)據(jù)庫(kù)只是某一個(gè)類(lèi)別、某一個(gè)專(zhuān)題的內(nèi)容相比,通過(guò)這樣的數(shù)據(jù)庫(kù)進(jìn)行綜合整理之后,可以把更多更豐富的信息匯集在一起,可以獲得更多、更全面、更準(zhǔn)確的資料,為研究者提供更多的便利。第二,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè)因?yàn)橛懈嗉夹g(shù)層面的支持,所以能夠?qū)崿F(xiàn)更多的功能,如對(duì)古籍的自動(dòng)識(shí)別、自動(dòng)標(biāo)點(diǎn)、自動(dòng)排版、智能檢索、智能分析,可實(shí)現(xiàn)多種數(shù)據(jù)格式的轉(zhuǎn)換和輸出,可以滿(mǎn)足文、史、哲、經(jīng)各學(xué)科研究所提出的各種特殊需要,更能適應(yīng)跨學(xué)科綜合研究的高級(jí)需要。只有具備了這樣兩個(gè)特點(diǎn),才能稱(chēng)之為超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)。

       

          為什么“大”就會(huì)帶來(lái)一些功能上的突破呢?比如說(shuō),關(guān)于“中國(guó)古代詩(shī)詞韻律的發(fā)展?fàn)顩r”這一研究課題。一直以來(lái),我們的理想是把先秦、兩漢、魏晉南北朝到唐宋時(shí)代每一首詩(shī)、每一首詞的每一個(gè)字的讀音、聲調(diào)、韻部等全都統(tǒng)計(jì)出來(lái),由此再考察中國(guó)古代詩(shī)歌聲律的發(fā)展,弄清它們之間的變化。這在過(guò)去是不可能做到的?,F(xiàn)在有了中國(guó)古代詩(shī)歌文本和古代漢語(yǔ)音韻數(shù)據(jù)庫(kù),這樣的工作就可以做了。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè),可以使得學(xué)者們從那種非常繁重的翻檢古書(shū)的勞動(dòng)當(dāng)中騰出更多的時(shí)間,發(fā)現(xiàn)前人未能發(fā)現(xiàn)的課題,或者前人雖已發(fā)現(xiàn)但囿于精力和技術(shù)條件未能研究的課題,進(jìn)行更多的創(chuàng)造性勞動(dòng)。將人文社會(huì)科學(xué)的研究和現(xiàn)代科學(xué)技術(shù)手段完美結(jié)合起來(lái),是未來(lái)的發(fā)展方向。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)所帶來(lái)的功能是不可比擬的,對(duì)于學(xué)術(shù)的發(fā)展和人文學(xué)科的建設(shè)的推動(dòng)都是巨大的。

       

          再比如,《二十四史》的標(biāo)點(diǎn)。這項(xiàng)工作從上世紀(jì)五十年代末開(kāi)始,先后參與的專(zhuān)家學(xué)者上百人,歷時(shí)20年才得以完成。如果用同樣的傳統(tǒng)人工方式,來(lái)標(biāo)點(diǎn)總字?jǐn)?shù)是《二十四史》25倍的《四庫(kù)全書(shū)》,同樣人力需要工作500年時(shí)間,這顯然是不現(xiàn)實(shí)的。今天就不一樣了,借助于現(xiàn)代技術(shù)手段來(lái)標(biāo)點(diǎn),效率可以提高50倍以上。也就是說(shuō),最多10年就可以完成《四庫(kù)全書(shū)》的標(biāo)點(diǎn)整理工作。而且在這期間,技術(shù)還會(huì)不斷進(jìn)步,時(shí)間因此還會(huì)縮短。我們預(yù)計(jì),用5到8年把這個(gè)工作完成,是有相當(dāng)把握的。

       

          孫茂松:利用現(xiàn)代信息技術(shù),將傳統(tǒng)文化典籍以數(shù)字化“大數(shù)據(jù)”的形式保留下來(lái),并且發(fā)揚(yáng)光大,正在日益引起許多國(guó)家,特別是發(fā)達(dá)國(guó)家的重視。一個(gè)典型的例子是,由哈佛大學(xué)、麻省理工學(xué)院、Google和大英百科全書(shū)的專(zhuān)家學(xué)者組成的一個(gè)研究小組,2011年1月在著名的《科學(xué)》雜志發(fā)表了一篇題為《基于數(shù)以百萬(wàn)計(jì)數(shù)字化圖書(shū)的文化定量分析》的文章。該項(xiàng)工作利用Google Books中數(shù)字化質(zhì)量比較高的超過(guò)500萬(wàn)種圖書(shū),時(shí)間跨度從公元1500年到公元2000年,規(guī)??傆?jì)5000億詞,其中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞,以及希伯來(lái)文20億詞(據(jù)估計(jì),占人類(lèi)有史以來(lái)出版圖書(shū)總種數(shù)的4%),借鑒基因組學(xué)(Genomics)的思路,對(duì)這些圖書(shū)組成的“大數(shù)據(jù)”進(jìn)行分析,如發(fā)現(xiàn)單詞或人名在歷史文獻(xiàn)中隨時(shí)間變化的頻率,由此推導(dǎo)出人類(lèi)文化的發(fā)展趨勢(shì)和演變規(guī)律。他們把這個(gè)全新的研究領(lǐng)域稱(chēng)為“文化組學(xué)”(Culturomics)。這個(gè)例子表現(xiàn)了歷史文獻(xiàn)“大數(shù)據(jù)”建設(shè)與高水平研究的成功結(jié)合。值得注意的是,Google Books中的中文圖書(shū)其實(shí)已經(jīng)具有相當(dāng)規(guī)模了,這顯然對(duì)我們形成了一種巨大壓力。還需要指出的一點(diǎn),與現(xiàn)實(shí)世界中源源不斷產(chǎn)生的科研大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、企業(yè)大數(shù)據(jù)、感知大數(shù)據(jù)相比,歷史文獻(xiàn)大數(shù)據(jù)的總量規(guī)模要小得多,并且基本上已經(jīng)“固化”了,原則上不會(huì)產(chǎn)生新的數(shù)據(jù),數(shù)字化一點(diǎn)就離目標(biāo)近一點(diǎn),只要我們本著“愚公移山”的精神,就一定可以完成中國(guó)古籍?dāng)?shù)字化的歷史重任。

       

       

          主持人:標(biāo)點(diǎn)整理《四庫(kù)全書(shū)》的藍(lán)圖真是令人振奮。我在想,如果把它作為我們國(guó)家應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn),一個(gè)率先建設(shè)的超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù),一個(gè)文化強(qiáng)國(guó)的龍頭工程,諸位專(zhuān)家認(rèn)為會(huì)有怎樣的文化意義和社會(huì)影響?

       

          張 濤:《四庫(kù)全書(shū)》的整理是一個(gè)意義非凡的大型項(xiàng)目。如何更好地閱讀和使用《四庫(kù)全書(shū)》,怎樣進(jìn)一步挖掘其在各個(gè)方面的價(jià)值,實(shí)際上也是我們古典文獻(xiàn)學(xué)、歷史文獻(xiàn)學(xué),特別是新興的數(shù)字文獻(xiàn)學(xué)學(xué)科建設(shè)和學(xué)術(shù)發(fā)展需要面對(duì)的一個(gè)重要課題。

       

          根據(jù)我對(duì)古籍的認(rèn)識(shí),《四庫(kù)全書(shū)》的版本,也就是庫(kù)本,其文獻(xiàn)價(jià)值不容低估。有許多重要典籍,庫(kù)本是最好的。而要深度挖掘和廣泛應(yīng)用庫(kù)本在學(xué)術(shù)研究、文化推廣、社會(huì)影響等方面的價(jià)值,就需要超大規(guī)模數(shù)據(jù)庫(kù)的建設(shè)。

       

          《易經(jīng)》是群經(jīng)之首。我們最近幾年一直在做易學(xué)典籍的整理研究工作,其中一個(gè)重要項(xiàng)目就是與首都師范大學(xué)電子文獻(xiàn)研究所合作研發(fā)《中華易學(xué)全書(shū)》。這是一次大型專(zhuān)題數(shù)據(jù)庫(kù)建設(shè),是古籍?dāng)?shù)字化的一個(gè)很好的示范項(xiàng)目,也是我們進(jìn)一步深刻認(rèn)識(shí)數(shù)字文獻(xiàn)學(xué)之價(jià)值和意義的一個(gè)重要切入點(diǎn)。

       

          《四庫(kù)》經(jīng)部易類(lèi)圖書(shū)共有158種,1757卷,2400多萬(wàn)字,可謂集大成,都是經(jīng)典中的經(jīng)典。這說(shuō)明四庫(kù)館臣的學(xué)術(shù)眼光、文化修養(yǎng)和研究水平是值得景仰和稱(chēng)道的,而數(shù)據(jù)庫(kù)的建設(shè)又凸顯了這些易學(xué)典籍的價(jià)值。尤其現(xiàn)在是一個(gè)讀圖時(shí)代,需要有高清晰度的易圖。以前出書(shū)的時(shí)候,光易卦符號(hào)和易圖就很難弄好,現(xiàn)在首都師范大學(xué)電子文獻(xiàn)研究所把這個(gè)問(wèn)題解決了。有了高清晰度的易圖,對(duì)易學(xué)研究者來(lái)說(shuō)是一個(gè)大大的驚喜,其中的學(xué)術(shù)價(jià)值自然也是毋庸置疑的。

       

          另外我認(rèn)為,雖然《四庫(kù)全書(shū)》的紙質(zhì)版印了這么多,但翻閱、查找極其不便。盡管現(xiàn)在已有可以檢索的電子版,但沒(méi)有標(biāo)點(diǎn)整理,存在不少問(wèn)題。因此,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè),先選擇《四庫(kù)全書(shū)》作為一個(gè)切入點(diǎn),以后再選擇更多的文化經(jīng)典,這是切實(shí)可行、簡(jiǎn)捷高效的工作思路,也符合學(xué)術(shù)研究的發(fā)展規(guī)律。

       

          國(guó)家要求中華文化應(yīng)以更大的步伐走出去,并不斷擴(kuò)大在世界文明對(duì)話(huà)中的話(huà)語(yǔ)權(quán),大規(guī)模古籍?dāng)?shù)據(jù)化正順應(yīng)了這一要求,將大大助力中華文化的對(duì)外傳播,助力更好地搭建中外文明對(duì)話(huà)的橋梁,推動(dòng)人類(lèi)文明進(jìn)一步向前發(fā)展。

       

          孫茂松:可以預(yù)期,這個(gè)古籍?dāng)?shù)據(jù)庫(kù)一旦建成,將對(duì)推動(dòng)我國(guó)的文化傳承事業(yè)發(fā)揮重要作用,尤其是為相關(guān)研究的開(kāi)展提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。我在前面講過(guò),國(guó)際上基于歷史文獻(xiàn)數(shù)據(jù)庫(kù)開(kāi)展的研究是成果眾多的。如哈佛大學(xué)和麻省理工學(xué)院的學(xué)者2007年10月在著名的《自然》雜志上發(fā)表的文章《語(yǔ)言演化動(dòng)力學(xué)的定量化》,利用一個(gè)規(guī)模近1800萬(wàn)詞、跨度長(zhǎng)達(dá)1200年的英語(yǔ)歷時(shí)語(yǔ)料庫(kù)CELEX,通過(guò)定量分析揭示了英語(yǔ)不規(guī)則動(dòng)詞向規(guī)則動(dòng)詞的演化規(guī)律。再如,多倫多大學(xué)的學(xué)者最近借助計(jì)算機(jī)統(tǒng)計(jì)技術(shù)對(duì)大約100多萬(wàn)份中世紀(jì)英國(guó)的契據(jù)(其中大多數(shù)契據(jù)都沒(méi)有標(biāo)明年代)進(jìn)行斷代:他們使用1萬(wàn)份署有年代的契據(jù),考察所使用的語(yǔ)言隨時(shí)間的變化情況,以此來(lái)確定其他契據(jù)的年代,取得了有價(jià)值的實(shí)驗(yàn)結(jié)果。此外,從2007年開(kāi)始,歐洲每年都舉辦“文化遺產(chǎn)、社會(huì)科學(xué)和人類(lèi)學(xué)中的語(yǔ)言技術(shù)論壇”(LaTeCH),研討的話(huà)題包括:文化遺產(chǎn)、社會(huì)科學(xué)和人類(lèi)學(xué)中的知識(shí)表示、知識(shí)發(fā)現(xiàn)和文本挖掘、本體、數(shù)據(jù)模型和層級(jí)體系的自動(dòng)構(gòu)建和標(biāo)準(zhǔn)化、語(yǔ)篇分析、不同來(lái)源、載體信息的鏈接和檢索等。我國(guó)在這方面的研究實(shí)際上是落后了,需要奮起直追。依托“超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)”,可做的事情有很多,如計(jì)算機(jī)自動(dòng)作詩(shī)和集句、歷史文獻(xiàn)斷代和作者推斷、中國(guó)歷史典籍和古典文學(xué)作品的詞匯層語(yǔ)言加工、中國(guó)傳統(tǒng)文化本體體系和知識(shí)圖譜構(gòu)建、中國(guó)傳統(tǒng)文化基因在現(xiàn)代生活中使用狀況大規(guī)模量化調(diào)查等,囿于時(shí)間關(guān)系,我在這里就不展開(kāi)談了。

       

       

          主持人:尹所長(zhǎng),就目前你們所掌握的技術(shù)而言,對(duì)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè)的支撐性到底如何,你們能夠建成一個(gè)怎樣規(guī)模的大數(shù)據(jù)庫(kù)?

       

          尹小林:超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè)專(zhuān)業(yè)性很強(qiáng),難度非常大,除了需要計(jì)算機(jī)硬件、軟件、網(wǎng)絡(luò)等現(xiàn)代信息技術(shù)外,還涉及到文字、版本、目錄、訓(xùn)詁、音韻等多個(gè)學(xué)科。只有打通這些專(zhuān)業(yè)領(lǐng)域,才能將時(shí)間跨度上千年、不同地域的存世文獻(xiàn)整合在一個(gè)大系統(tǒng)下。為什么我們今天能夠提出這個(gè)問(wèn)題?因?yàn)槲覀冊(cè)诮ㄔO(shè)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的核心技術(shù)方面,已經(jīng)取得重大突破。以前的一個(gè)數(shù)據(jù)庫(kù)為什么大多只有幾百萬(wàn)字、幾千萬(wàn)字,至多一兩億字?原因就在于技術(shù)上缺少一個(gè)環(huán)節(jié),缺少對(duì)超大規(guī)模數(shù)據(jù)進(jìn)行加工整合的能力。

       

          具體需要哪些技術(shù)呢?首先需要一個(gè)龐大的字庫(kù),這個(gè)字庫(kù)必須能夠把所有數(shù)據(jù)文獻(xiàn)中所用的不同的字在同一個(gè)平臺(tái)上顯示?,F(xiàn)在的計(jì)算機(jī)字庫(kù)已有很大的改觀,Unicode有7萬(wàn)多字,再加上一些造字,漢語(yǔ)存世古籍的字庫(kù)問(wèn)題基本上解決了。

       

          第二個(gè)問(wèn)題是數(shù)據(jù)加工。過(guò)去十年,我國(guó)處理轉(zhuǎn)換的古籍大概已經(jīng)有數(shù)十億字,如《四庫(kù)全書(shū)》有7億字,《中國(guó)基本古籍庫(kù)》有20億字,這些古籍都已經(jīng)完成了掃描識(shí)別轉(zhuǎn)換。但文字的數(shù)據(jù)化轉(zhuǎn)換,只是數(shù)據(jù)庫(kù)建設(shè)的第一步。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)不僅僅是數(shù)據(jù)量大,而且數(shù)據(jù)整理和軟件功能也需要達(dá)到一個(gè)標(biāo)準(zhǔn)。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)中的古籍文獻(xiàn)必須是經(jīng)過(guò)標(biāo)點(diǎn)整理并進(jìn)行正確標(biāo)引的結(jié)構(gòu)數(shù)據(jù),這一環(huán)節(jié)的難度和工程量都非常大。傳統(tǒng)的人工古籍標(biāo)點(diǎn)的工作量十分巨大,而且只有經(jīng)過(guò)訓(xùn)練的專(zhuān)業(yè)人員才能做。按一個(gè)專(zhuān)家一年標(biāo)點(diǎn)50萬(wàn)字的工作量計(jì)算,如果建設(shè)一個(gè)10億字的超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù),需要100個(gè)專(zhuān)家連續(xù)工作20年。首都師范大學(xué)電子文獻(xiàn)研究所經(jīng)過(guò)多年的潛心研究,在古籍自動(dòng)標(biāo)點(diǎn)技術(shù)上取得了突破,成功開(kāi)發(fā)了一套自動(dòng)標(biāo)點(diǎn)軟件。去年在二十四史和唐宋詩(shī)文集上做了成功的嘗試,完成了上億字古代文獻(xiàn)的自動(dòng)標(biāo)點(diǎn),正確率達(dá)90%以上,具有很高的實(shí)用價(jià)值。

       

          主持人:你們開(kāi)發(fā)這一技術(shù)大致用了多長(zhǎng)時(shí)間?

       

          尹小林:研制時(shí)間很長(zhǎng),從2003年算起,用了將近10年時(shí)間。今年年初開(kāi)始投入試用。經(jīng)過(guò)測(cè)試,如果前期數(shù)據(jù)準(zhǔn)備工作做好了,每天可以標(biāo)點(diǎn)500萬(wàn)字。

       

          除了自動(dòng)標(biāo)點(diǎn),我們還開(kāi)發(fā)完成了自動(dòng)比對(duì)、自動(dòng)排版軟件。這些技術(shù)的推廣使用,可以大幅度提高古籍整理的質(zhì)量和速度,整體上降低出版成本。自動(dòng)排版軟件還可應(yīng)用于網(wǎng)絡(luò)出版和個(gè)性化出版。

       

          需要100年才能完成的事情,我們很難規(guī)劃;如果是5~8年就能完成的事,我們就可以計(jì)劃立項(xiàng)。中國(guó)歷史上有名的文化工程《四庫(kù)全書(shū)》的編撰,前后歷時(shí)十多年。除去收集圖書(shū)、編寫(xiě)目錄和確定版本的時(shí)間,僅正式抄寫(xiě)一項(xiàng),最多時(shí)就用了2000人,花了5年多時(shí)間?!端膸?kù)全書(shū)》收書(shū)達(dá)3400多種,都是中國(guó)文化史上的重要文獻(xiàn),全部標(biāo)點(diǎn)整理后,總規(guī)模將超過(guò)10億字。如果正式立項(xiàng),標(biāo)點(diǎn)整理可在5至8年內(nèi)完成。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)不僅可在互聯(lián)網(wǎng)平臺(tái)上運(yùn)行,還可廣泛應(yīng)用于各種移動(dòng)終端。特別值得一提的是:超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)投入使用,將進(jìn)一步提高古籍整理出版的創(chuàng)新能力和水平,為現(xiàn)代個(gè)性化出版、網(wǎng)絡(luò)出版提供強(qiáng)大支撐。

       

          主持人:孫教授,從技術(shù)的角度,您對(duì)首都師范大學(xué)研發(fā)的古籍自動(dòng)標(biāo)點(diǎn)、自動(dòng)比對(duì)、自動(dòng)排版三項(xiàng)技術(shù)有什么評(píng)價(jià)呢?

       

          孫茂松:無(wú)疑,這三項(xiàng)技術(shù)對(duì)建設(shè)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)都非常重要。分析起來(lái),其技術(shù)難度是有所區(qū)別的。相比較而言,自動(dòng)比對(duì)技術(shù)難度相對(duì)較小,但也很好地利用了計(jì)算機(jī)能夠?qū)A课谋具M(jìn)行快速查找、匹配的“天然”能力,而這一點(diǎn)恰恰是人類(lèi)能力之所短,因而可以十分顯著地提升比對(duì)效率;自動(dòng)排版難度更大,需要將古籍排版知識(shí)引入到計(jì)算機(jī)算法中,可以認(rèn)為是一個(gè)基于“排版知識(shí)”的古籍排版專(zhuān)家系統(tǒng);自動(dòng)標(biāo)點(diǎn)最難,這需要在專(zhuān)家標(biāo)點(diǎn)過(guò)的大規(guī)模古籍語(yǔ)料庫(kù)的支持下,設(shè)計(jì)相應(yīng)的計(jì)算機(jī)算法,才有可能實(shí)現(xiàn)。其工作過(guò)程大體上是:計(jì)算機(jī)算法從標(biāo)點(diǎn)過(guò)的大規(guī)模古籍語(yǔ)料庫(kù)中學(xué)習(xí)有關(guān)標(biāo)點(diǎn)(句讀)的知識(shí),據(jù)之對(duì)新的古籍語(yǔ)料進(jìn)行標(biāo)點(diǎn),經(jīng)過(guò)專(zhuān)家校對(duì)后的帶有標(biāo)點(diǎn)的語(yǔ)料再補(bǔ)充到這個(gè)語(yǔ)料庫(kù)中,由計(jì)算機(jī)算法再行學(xué)習(xí)。經(jīng)過(guò)這一次“輪回”,自動(dòng)標(biāo)點(diǎn)的性能會(huì)得到提升。上述過(guò)程多次迭代,便有望使得自動(dòng)標(biāo)點(diǎn)技術(shù)漸趨完善。錢(qián)鐘書(shū)先生在他修改過(guò)的一篇文章《電腦里的唐詩(shī)》中曾經(jīng)講過(guò)一句非常深刻的話(huà):“能夠幫助人的電腦,需要人的更多幫助。”自動(dòng)標(biāo)點(diǎn)技術(shù)在一定程度上“呼應(yīng)”了錢(qián)先生的這個(gè)想法。應(yīng)該說(shuō),自動(dòng)標(biāo)點(diǎn)技術(shù)較為充分地反映了“大數(shù)據(jù)”的特點(diǎn),即:經(jīng)過(guò)標(biāo)點(diǎn)加工的數(shù)據(jù)規(guī)模越大,自動(dòng)標(biāo)點(diǎn)的性能便越好,于是乎對(duì)大數(shù)據(jù)的標(biāo)點(diǎn)效率就越高,其結(jié)果是人工標(biāo)點(diǎn)數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大,構(gòu)成了正反饋。

       

          主持人:這三大核心技術(shù),讓首都師大電子文獻(xiàn)研究所在中國(guó)古籍?dāng)?shù)字化的道路上有了獨(dú)領(lǐng)風(fēng)騷的能力與實(shí)力。這一點(diǎn)令人欽佩。

       

          趙敏俐:首都師范大學(xué)早在2002年就開(kāi)始了古籍?dāng)?shù)字化的建設(shè)過(guò)程,2003年成立了電子文獻(xiàn)研究所,2007年又成立了國(guó)學(xué)傳播中心。為了適應(yīng)古籍?dāng)?shù)字化建設(shè)發(fā)展的需要,2013年,我們將國(guó)學(xué)傳播中心擴(kuò)建為國(guó)學(xué)傳播研究院。在近十余年的時(shí)間內(nèi),首都師范大學(xué)在古籍?dāng)?shù)字化方面做了一系列的工作,取得了有目共睹的成績(jī)。第一項(xiàng)工作是國(guó)學(xué)網(wǎng)的建設(shè)。國(guó)學(xué)網(wǎng)建于2000年,現(xiàn)在已經(jīng)發(fā)展成世界知名的中國(guó)文化網(wǎng)站,在國(guó)內(nèi)外的人文社會(huì)科學(xué)研究領(lǐng)域里具有廣泛的影響。國(guó)學(xué)網(wǎng)的成功建設(shè),顯示了數(shù)字化技術(shù)下的網(wǎng)絡(luò)文化傳播的巨大潛力與功效。第二項(xiàng)工作是數(shù)據(jù)庫(kù)的建設(shè)。我們開(kāi)發(fā)研制的《國(guó)學(xué)寶典》,從一開(kāi)始就探索與國(guó)內(nèi)相關(guān)研發(fā)機(jī)構(gòu)不同的古籍?dāng)?shù)字化方式。其核心是將浩如煙海的古籍一部一部、一字一字地錄入計(jì)算機(jī)系統(tǒng),為今后日益先進(jìn)的古籍?dāng)?shù)字化技術(shù)提供堅(jiān)實(shí)的基礎(chǔ),走可持續(xù)發(fā)展之路。在此基礎(chǔ)上,我們從2002年開(kāi)始,聯(lián)合國(guó)內(nèi)四所高校開(kāi)發(fā)了具有多種功能的《中國(guó)古代文學(xué)電子史料庫(kù)》,匯集了將近2億字左右的文獻(xiàn)資料。第三項(xiàng)工作是學(xué)科建設(shè)。我們從2007年開(kāi)始,在國(guó)內(nèi)高校設(shè)立了第一個(gè)以古籍?dāng)?shù)字化為研究對(duì)象的交叉學(xué)科——數(shù)字文獻(xiàn)學(xué),獲得了北京市教委的支持,被列為北京市重點(diǎn)學(xué)科。這是北京市所建設(shè)的第一個(gè)人文科學(xué)和自然科學(xué)的重點(diǎn)交叉學(xué)科。2013年9月,第一屆數(shù)字文獻(xiàn)學(xué)研究生入校,這在國(guó)內(nèi)也開(kāi)了先例。人才的培養(yǎng),必將為“大數(shù)據(jù)庫(kù)時(shí)代”的中國(guó)傳統(tǒng)文化建設(shè)提供長(zhǎng)久的、堅(jiān)實(shí)的支持。

       

          我們的努力得到了國(guó)務(wù)院有關(guān)領(lǐng)導(dǎo)的高度肯定,教育部領(lǐng)導(dǎo)指示首都師范大學(xué)在以往取得成果的基礎(chǔ)上,聯(lián)合全國(guó)高等院校、各大圖書(shū)館,在大數(shù)據(jù)庫(kù)的建設(shè)方面做出新的成績(jī),要在全國(guó)起引領(lǐng)作用。我們?yōu)榇松钍芄奈?,今后將進(jìn)一步加快大數(shù)據(jù)庫(kù)的建設(shè),以適應(yīng)世界范圍“大數(shù)據(jù)時(shí)代”已經(jīng)到來(lái)的形勢(shì),為全國(guó)的人文社會(huì)科學(xué)發(fā)展,繁榮社會(huì)主義文化作出應(yīng)有的貢獻(xiàn)。

       

       

          主持人:各位專(zhuān)家的發(fā)言,使我們對(duì)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè)充滿(mǎn)信心。當(dāng)然,這一工程是浩大的,面臨很多現(xiàn)實(shí)的困難。那么,還有哪些問(wèn)題需要得到解決呢?

       

          尹小林:如果這個(gè)項(xiàng)目能變成一個(gè)國(guó)家工程,動(dòng)員全國(guó)高校的古籍整理力量,有充足的經(jīng)費(fèi)保障,完成這個(gè)項(xiàng)目則指日可待??偟膩?lái)說(shuō),需要三個(gè)方面的條件:第一,要有觀念上的突破。堅(jiān)決打破古籍?dāng)?shù)據(jù)庫(kù)建設(shè)“小、散、亂”,各自為政的模式,形成學(xué)術(shù)共識(shí)。第二,要有體制上的變革。單純的商業(yè)模式或完全的政府立項(xiàng),都難以完成這一巨大的文化工程。沒(méi)有高校和學(xué)術(shù)界的支持,這項(xiàng)工程無(wú)法達(dá)到所需的質(zhì)量;沒(méi)有企業(yè)高效率的管理模式,成果難于推廣,無(wú)法發(fā)揮持續(xù)的影響力。政企結(jié)合,是一個(gè)高效合理的模式。第三,要有政策上的支撐。大型古籍?dāng)?shù)據(jù)庫(kù)建設(shè)涉及到許多新情況、新問(wèn)題,如何處理國(guó)家和個(gè)人、局部與全局、保護(hù)與創(chuàng)新的關(guān)系,需要有關(guān)部門(mén)制訂相應(yīng)政策,扶持和鼓勵(lì)這一產(chǎn)業(yè)的健康發(fā)展。我們正處于一個(gè)偉大的時(shí)代,需要產(chǎn)生偉大的作品,創(chuàng)造偉大的成果。

       

          主持人:這也就是說(shuō),比起技術(shù)手段來(lái),現(xiàn)在更需要決策者的決心。這項(xiàng)工程單純依靠一個(gè)高校的一個(gè)學(xué)術(shù)機(jī)構(gòu)確實(shí)是難以完成的,需要多學(xué)科多個(gè)相關(guān)單位的通力合作,古代文史研究界和計(jì)算機(jī)信息化處理相關(guān)領(lǐng)域的合作,以及國(guó)家政策的配套,科研基金項(xiàng)目的支持等等,這樣的一些條件如果都具備了,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè)就能夠開(kāi)展得比較順利。

       

          尹小林:的確,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè)是一個(gè)大型文化工程,非一己之力、一家之力、一時(shí)之力可以完成。像《中華大典》《清史》《儒藏》都動(dòng)員了全國(guó)的專(zhuān)家學(xué)者,這個(gè)項(xiàng)目規(guī)模比《儒藏》《子藏》都要大得多,將來(lái)出來(lái)的成果也會(huì)大得多。

       

      國(guó)學(xué)大數(shù)據(jù)時(shí)代來(lái)了

      《 光明日?qǐng)?bào) 》( 2013年09月16日   15 版)

          訪(fǎng)談嘉賓:趙敏俐:首都師范大學(xué)文學(xué)院教授、中國(guó)詩(shī)歌研究中心主任      

       

          孫茂松:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)      

       

          張 濤:北京師范大學(xué)易學(xué)文化研究院教授、院長(zhǎng)      

       

          尹小林:首都師范大學(xué)電子文獻(xiàn)研究所所長(zhǎng)

       

          特邀主持人:杜曉勤(北京大學(xué)中文系教授、中國(guó)古代詩(shī)歌研究中心副主任)

       

          主持人:21世紀(jì)進(jìn)入第二個(gè)十年,信息技術(shù)得到突飛猛進(jìn)的發(fā)展。我們正在進(jìn)入一個(gè)全方位的“大數(shù)據(jù)時(shí)代”,呈現(xiàn)出從“云計(jì)算”到“大數(shù)據(jù)”的發(fā)展趨勢(shì)。這個(gè)發(fā)展趨勢(shì)不是虛空的,而是正在對(duì)社會(huì)生活和學(xué)術(shù)研究產(chǎn)生著實(shí)實(shí)在在的重大影響。今天在座的都是中國(guó)古籍?dāng)?shù)字化事業(yè)的參與者和見(jiàn)證人。我們希望通過(guò)這樣一個(gè)小型的討論,與廣大讀者一起分享各位關(guān)于古籍整理與國(guó)學(xué)研究如何應(yīng)對(duì)“大數(shù)據(jù)時(shí)代”問(wèn)題的思考。

       

       

          趙敏俐:“大數(shù)據(jù)時(shí)代”已經(jīng)降臨了。它表現(xiàn)在各個(gè)領(lǐng)域,不僅僅是生產(chǎn)領(lǐng)域,還包括知識(shí)領(lǐng)域?!按髷?shù)據(jù)時(shí)代”是一場(chǎng)革命,它不僅會(huì)促進(jìn)經(jīng)濟(jì)發(fā)展、科技進(jìn)步,在文化領(lǐng)域也會(huì)起到巨大的作用。十七屆六中全會(huì)《關(guān)于深化文化體制改革、推動(dòng)社會(huì)主義文化大發(fā)展大繁榮若干重大問(wèn)題的決定》明確提出:“要加強(qiáng)文化典籍整理和出版工作,推進(jìn)文化典籍資源數(shù)字化建設(shè)?!蔽覀儜?yīng)站在“大數(shù)據(jù)時(shí)代”這樣一個(gè)新的高度,來(lái)理解和認(rèn)識(shí)中央推進(jìn)古籍?dāng)?shù)據(jù)化事業(yè)的戰(zhàn)略意義。

       

          主持人:趙敏俐教授,您是倡導(dǎo)古籍?dāng)?shù)字化的重要學(xué)者,而且已經(jīng)主持研制了一些古籍?dāng)?shù)據(jù)庫(kù)。請(qǐng)問(wèn)您對(duì)“大數(shù)據(jù)時(shí)代”之“大”是如何理解的?

       

          趙敏俐:我想,“大”應(yīng)該包括兩個(gè)方面的內(nèi)容。首先是規(guī)模上的“大”。按尹小林的提法,幾百萬(wàn)到一千萬(wàn)字的數(shù)據(jù)庫(kù)算是小型數(shù)據(jù)庫(kù);幾千萬(wàn)到一億字的數(shù)據(jù)庫(kù)算是中型數(shù)據(jù)庫(kù);從一億字到十億字算是大型數(shù)據(jù)庫(kù),超過(guò)十億字以上的應(yīng)該算是超大型數(shù)據(jù)庫(kù)。

       

          另一方面是功能上的“大”。功能的強(qiáng)大是超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)很重要的標(biāo)志。怎樣才能算功能的強(qiáng)大?到目前為止,我們雖然已經(jīng)做了很多古籍?dāng)?shù)字化的工作,比如把古籍做了一般的簡(jiǎn)單掃描,入庫(kù)后也可以進(jìn)行一般的查找,實(shí)現(xiàn)了一部分功能,但這個(gè)功能和我們想做的超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)還有差距。按照我的理解,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)應(yīng)該有這樣幾方面的特點(diǎn):第一,因?yàn)樗谐笠?guī)模的數(shù)據(jù)量,其中文獻(xiàn)種類(lèi)和內(nèi)容都非常豐富,有更大的包容性。和過(guò)去中小規(guī)模數(shù)據(jù)庫(kù)只是某一個(gè)類(lèi)別、某一個(gè)專(zhuān)題的內(nèi)容相比,通過(guò)這樣的數(shù)據(jù)庫(kù)進(jìn)行綜合整理之后,可以把更多更豐富的信息匯集在一起,可以獲得更多、更全面、更準(zhǔn)確的資料,為研究者提供更多的便利。第二,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè)因?yàn)橛懈嗉夹g(shù)層面的支持,所以能夠?qū)崿F(xiàn)更多的功能,如對(duì)古籍的自動(dòng)識(shí)別、自動(dòng)標(biāo)點(diǎn)、自動(dòng)排版、智能檢索、智能分析,可實(shí)現(xiàn)多種數(shù)據(jù)格式的轉(zhuǎn)換和輸出,可以滿(mǎn)足文、史、哲、經(jīng)各學(xué)科研究所提出的各種特殊需要,更能適應(yīng)跨學(xué)科綜合研究的高級(jí)需要。只有具備了這樣兩個(gè)特點(diǎn),才能稱(chēng)之為超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)。

       

          為什么“大”就會(huì)帶來(lái)一些功能上的突破呢?比如說(shuō),關(guān)于“中國(guó)古代詩(shī)詞韻律的發(fā)展?fàn)顩r”這一研究課題。一直以來(lái),我們的理想是把先秦、兩漢、魏晉南北朝到唐宋時(shí)代每一首詩(shī)、每一首詞的每一個(gè)字的讀音、聲調(diào)、韻部等全都統(tǒng)計(jì)出來(lái),由此再考察中國(guó)古代詩(shī)歌聲律的發(fā)展,弄清它們之間的變化。這在過(guò)去是不可能做到的?,F(xiàn)在有了中國(guó)古代詩(shī)歌文本和古代漢語(yǔ)音韻數(shù)據(jù)庫(kù),這樣的工作就可以做了。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè),可以使得學(xué)者們從那種非常繁重的翻檢古書(shū)的勞動(dòng)當(dāng)中騰出更多的時(shí)間,發(fā)現(xiàn)前人未能發(fā)現(xiàn)的課題,或者前人雖已發(fā)現(xiàn)但囿于精力和技術(shù)條件未能研究的課題,進(jìn)行更多的創(chuàng)造性勞動(dòng)。將人文社會(huì)科學(xué)的研究和現(xiàn)代科學(xué)技術(shù)手段完美結(jié)合起來(lái),是未來(lái)的發(fā)展方向。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)所帶來(lái)的功能是不可比擬的,對(duì)于學(xué)術(shù)的發(fā)展和人文學(xué)科的建設(shè)的推動(dòng)都是巨大的。

       

          再比如,《二十四史》的標(biāo)點(diǎn)。這項(xiàng)工作從上世紀(jì)五十年代末開(kāi)始,先后參與的專(zhuān)家學(xué)者上百人,歷時(shí)20年才得以完成。如果用同樣的傳統(tǒng)人工方式,來(lái)標(biāo)點(diǎn)總字?jǐn)?shù)是《二十四史》25倍的《四庫(kù)全書(shū)》,同樣人力需要工作500年時(shí)間,這顯然是不現(xiàn)實(shí)的。今天就不一樣了,借助于現(xiàn)代技術(shù)手段來(lái)標(biāo)點(diǎn),效率可以提高50倍以上。也就是說(shuō),最多10年就可以完成《四庫(kù)全書(shū)》的標(biāo)點(diǎn)整理工作。而且在這期間,技術(shù)還會(huì)不斷進(jìn)步,時(shí)間因此還會(huì)縮短。我們預(yù)計(jì),用5到8年把這個(gè)工作完成,是有相當(dāng)把握的。

       

          孫茂松:利用現(xiàn)代信息技術(shù),將傳統(tǒng)文化典籍以數(shù)字化“大數(shù)據(jù)”的形式保留下來(lái),并且發(fā)揚(yáng)光大,正在日益引起許多國(guó)家,特別是發(fā)達(dá)國(guó)家的重視。一個(gè)典型的例子是,由哈佛大學(xué)、麻省理工學(xué)院、Google和大英百科全書(shū)的專(zhuān)家學(xué)者組成的一個(gè)研究小組,2011年1月在著名的《科學(xué)》雜志發(fā)表了一篇題為《基于數(shù)以百萬(wàn)計(jì)數(shù)字化圖書(shū)的文化定量分析》的文章。該項(xiàng)工作利用Google Books中數(shù)字化質(zhì)量比較高的超過(guò)500萬(wàn)種圖書(shū),時(shí)間跨度從公元1500年到公元2000年,規(guī)模總計(jì)5000億詞,其中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞,以及希伯來(lái)文20億詞(據(jù)估計(jì),占人類(lèi)有史以來(lái)出版圖書(shū)總種數(shù)的4%),借鑒基因組學(xué)(Genomics)的思路,對(duì)這些圖書(shū)組成的“大數(shù)據(jù)”進(jìn)行分析,如發(fā)現(xiàn)單詞或人名在歷史文獻(xiàn)中隨時(shí)間變化的頻率,由此推導(dǎo)出人類(lèi)文化的發(fā)展趨勢(shì)和演變規(guī)律。他們把這個(gè)全新的研究領(lǐng)域稱(chēng)為“文化組學(xué)”(Culturomics)。這個(gè)例子表現(xiàn)了歷史文獻(xiàn)“大數(shù)據(jù)”建設(shè)與高水平研究的成功結(jié)合。值得注意的是,Google Books中的中文圖書(shū)其實(shí)已經(jīng)具有相當(dāng)規(guī)模了,這顯然對(duì)我們形成了一種巨大壓力。還需要指出的一點(diǎn),與現(xiàn)實(shí)世界中源源不斷產(chǎn)生的科研大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、企業(yè)大數(shù)據(jù)、感知大數(shù)據(jù)相比,歷史文獻(xiàn)大數(shù)據(jù)的總量規(guī)模要小得多,并且基本上已經(jīng)“固化”了,原則上不會(huì)產(chǎn)生新的數(shù)據(jù),數(shù)字化一點(diǎn)就離目標(biāo)近一點(diǎn),只要我們本著“愚公移山”的精神,就一定可以完成中國(guó)古籍?dāng)?shù)字化的歷史重任。

       

       

          主持人:標(biāo)點(diǎn)整理《四庫(kù)全書(shū)》的藍(lán)圖真是令人振奮。我在想,如果把它作為我們國(guó)家應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn),一個(gè)率先建設(shè)的超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù),一個(gè)文化強(qiáng)國(guó)的龍頭工程,諸位專(zhuān)家認(rèn)為會(huì)有怎樣的文化意義和社會(huì)影響?

       

          張 濤:《四庫(kù)全書(shū)》的整理是一個(gè)意義非凡的大型項(xiàng)目。如何更好地閱讀和使用《四庫(kù)全書(shū)》,怎樣進(jìn)一步挖掘其在各個(gè)方面的價(jià)值,實(shí)際上也是我們古典文獻(xiàn)學(xué)、歷史文獻(xiàn)學(xué),特別是新興的數(shù)字文獻(xiàn)學(xué)學(xué)科建設(shè)和學(xué)術(shù)發(fā)展需要面對(duì)的一個(gè)重要課題。

       

          根據(jù)我對(duì)古籍的認(rèn)識(shí),《四庫(kù)全書(shū)》的版本,也就是庫(kù)本,其文獻(xiàn)價(jià)值不容低估。有許多重要典籍,庫(kù)本是最好的。而要深度挖掘和廣泛應(yīng)用庫(kù)本在學(xué)術(shù)研究、文化推廣、社會(huì)影響等方面的價(jià)值,就需要超大規(guī)模數(shù)據(jù)庫(kù)的建設(shè)。

       

          《易經(jīng)》是群經(jīng)之首。我們最近幾年一直在做易學(xué)典籍的整理研究工作,其中一個(gè)重要項(xiàng)目就是與首都師范大學(xué)電子文獻(xiàn)研究所合作研發(fā)《中華易學(xué)全書(shū)》。這是一次大型專(zhuān)題數(shù)據(jù)庫(kù)建設(shè),是古籍?dāng)?shù)字化的一個(gè)很好的示范項(xiàng)目,也是我們進(jìn)一步深刻認(rèn)識(shí)數(shù)字文獻(xiàn)學(xué)之價(jià)值和意義的一個(gè)重要切入點(diǎn)。

       

          《四庫(kù)》經(jīng)部易類(lèi)圖書(shū)共有158種,1757卷,2400多萬(wàn)字,可謂集大成,都是經(jīng)典中的經(jīng)典。這說(shuō)明四庫(kù)館臣的學(xué)術(shù)眼光、文化修養(yǎng)和研究水平是值得景仰和稱(chēng)道的,而數(shù)據(jù)庫(kù)的建設(shè)又凸顯了這些易學(xué)典籍的價(jià)值。尤其現(xiàn)在是一個(gè)讀圖時(shí)代,需要有高清晰度的易圖。以前出書(shū)的時(shí)候,光易卦符號(hào)和易圖就很難弄好,現(xiàn)在首都師范大學(xué)電子文獻(xiàn)研究所把這個(gè)問(wèn)題解決了。有了高清晰度的易圖,對(duì)易學(xué)研究者來(lái)說(shuō)是一個(gè)大大的驚喜,其中的學(xué)術(shù)價(jià)值自然也是毋庸置疑的。

       

          另外我認(rèn)為,雖然《四庫(kù)全書(shū)》的紙質(zhì)版印了這么多,但翻閱、查找極其不便。盡管現(xiàn)在已有可以檢索的電子版,但沒(méi)有標(biāo)點(diǎn)整理,存在不少問(wèn)題。因此,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè),先選擇《四庫(kù)全書(shū)》作為一個(gè)切入點(diǎn),以后再選擇更多的文化經(jīng)典,這是切實(shí)可行、簡(jiǎn)捷高效的工作思路,也符合學(xué)術(shù)研究的發(fā)展規(guī)律。

       

          國(guó)家要求中華文化應(yīng)以更大的步伐走出去,并不斷擴(kuò)大在世界文明對(duì)話(huà)中的話(huà)語(yǔ)權(quán),大規(guī)模古籍?dāng)?shù)據(jù)化正順應(yīng)了這一要求,將大大助力中華文化的對(duì)外傳播,助力更好地搭建中外文明對(duì)話(huà)的橋梁,推動(dòng)人類(lèi)文明進(jìn)一步向前發(fā)展。

       

          孫茂松:可以預(yù)期,這個(gè)古籍?dāng)?shù)據(jù)庫(kù)一旦建成,將對(duì)推動(dòng)我國(guó)的文化傳承事業(yè)發(fā)揮重要作用,尤其是為相關(guān)研究的開(kāi)展提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。我在前面講過(guò),國(guó)際上基于歷史文獻(xiàn)數(shù)據(jù)庫(kù)開(kāi)展的研究是成果眾多的。如哈佛大學(xué)和麻省理工學(xué)院的學(xué)者2007年10月在著名的《自然》雜志上發(fā)表的文章《語(yǔ)言演化動(dòng)力學(xué)的定量化》,利用一個(gè)規(guī)模近1800萬(wàn)詞、跨度長(zhǎng)達(dá)1200年的英語(yǔ)歷時(shí)語(yǔ)料庫(kù)CELEX,通過(guò)定量分析揭示了英語(yǔ)不規(guī)則動(dòng)詞向規(guī)則動(dòng)詞的演化規(guī)律。再如,多倫多大學(xué)的學(xué)者最近借助計(jì)算機(jī)統(tǒng)計(jì)技術(shù)對(duì)大約100多萬(wàn)份中世紀(jì)英國(guó)的契據(jù)(其中大多數(shù)契據(jù)都沒(méi)有標(biāo)明年代)進(jìn)行斷代:他們使用1萬(wàn)份署有年代的契據(jù),考察所使用的語(yǔ)言隨時(shí)間的變化情況,以此來(lái)確定其他契據(jù)的年代,取得了有價(jià)值的實(shí)驗(yàn)結(jié)果。此外,從2007年開(kāi)始,歐洲每年都舉辦“文化遺產(chǎn)、社會(huì)科學(xué)和人類(lèi)學(xué)中的語(yǔ)言技術(shù)論壇”(LaTeCH),研討的話(huà)題包括:文化遺產(chǎn)、社會(huì)科學(xué)和人類(lèi)學(xué)中的知識(shí)表示、知識(shí)發(fā)現(xiàn)和文本挖掘、本體、數(shù)據(jù)模型和層級(jí)體系的自動(dòng)構(gòu)建和標(biāo)準(zhǔn)化、語(yǔ)篇分析、不同來(lái)源、載體信息的鏈接和檢索等。我國(guó)在這方面的研究實(shí)際上是落后了,需要奮起直追。依托“超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)”,可做的事情有很多,如計(jì)算機(jī)自動(dòng)作詩(shī)和集句、歷史文獻(xiàn)斷代和作者推斷、中國(guó)歷史典籍和古典文學(xué)作品的詞匯層語(yǔ)言加工、中國(guó)傳統(tǒng)文化本體體系和知識(shí)圖譜構(gòu)建、中國(guó)傳統(tǒng)文化基因在現(xiàn)代生活中使用狀況大規(guī)模量化調(diào)查等,囿于時(shí)間關(guān)系,我在這里就不展開(kāi)談了。

       

       

          主持人:尹所長(zhǎng),就目前你們所掌握的技術(shù)而言,對(duì)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè)的支撐性到底如何,你們能夠建成一個(gè)怎樣規(guī)模的大數(shù)據(jù)庫(kù)?

       

          尹小林:超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè)專(zhuān)業(yè)性很強(qiáng),難度非常大,除了需要計(jì)算機(jī)硬件、軟件、網(wǎng)絡(luò)等現(xiàn)代信息技術(shù)外,還涉及到文字、版本、目錄、訓(xùn)詁、音韻等多個(gè)學(xué)科。只有打通這些專(zhuān)業(yè)領(lǐng)域,才能將時(shí)間跨度上千年、不同地域的存世文獻(xiàn)整合在一個(gè)大系統(tǒng)下。為什么我們今天能夠提出這個(gè)問(wèn)題?因?yàn)槲覀冊(cè)诮ㄔO(shè)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的核心技術(shù)方面,已經(jīng)取得重大突破。以前的一個(gè)數(shù)據(jù)庫(kù)為什么大多只有幾百萬(wàn)字、幾千萬(wàn)字,至多一兩億字?原因就在于技術(shù)上缺少一個(gè)環(huán)節(jié),缺少對(duì)超大規(guī)模數(shù)據(jù)進(jìn)行加工整合的能力。

       

          具體需要哪些技術(shù)呢?首先需要一個(gè)龐大的字庫(kù),這個(gè)字庫(kù)必須能夠把所有數(shù)據(jù)文獻(xiàn)中所用的不同的字在同一個(gè)平臺(tái)上顯示?,F(xiàn)在的計(jì)算機(jī)字庫(kù)已有很大的改觀,Unicode有7萬(wàn)多字,再加上一些造字,漢語(yǔ)存世古籍的字庫(kù)問(wèn)題基本上解決了。

       

          第二個(gè)問(wèn)題是數(shù)據(jù)加工。過(guò)去十年,我國(guó)處理轉(zhuǎn)換的古籍大概已經(jīng)有數(shù)十億字,如《四庫(kù)全書(shū)》有7億字,《中國(guó)基本古籍庫(kù)》有20億字,這些古籍都已經(jīng)完成了掃描識(shí)別轉(zhuǎn)換。但文字的數(shù)據(jù)化轉(zhuǎn)換,只是數(shù)據(jù)庫(kù)建設(shè)的第一步。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)不僅僅是數(shù)據(jù)量大,而且數(shù)據(jù)整理和軟件功能也需要達(dá)到一個(gè)標(biāo)準(zhǔn)。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)中的古籍文獻(xiàn)必須是經(jīng)過(guò)標(biāo)點(diǎn)整理并進(jìn)行正確標(biāo)引的結(jié)構(gòu)數(shù)據(jù),這一環(huán)節(jié)的難度和工程量都非常大。傳統(tǒng)的人工古籍標(biāo)點(diǎn)的工作量十分巨大,而且只有經(jīng)過(guò)訓(xùn)練的專(zhuān)業(yè)人員才能做。按一個(gè)專(zhuān)家一年標(biāo)點(diǎn)50萬(wàn)字的工作量計(jì)算,如果建設(shè)一個(gè)10億字的超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù),需要100個(gè)專(zhuān)家連續(xù)工作20年。首都師范大學(xué)電子文獻(xiàn)研究所經(jīng)過(guò)多年的潛心研究,在古籍自動(dòng)標(biāo)點(diǎn)技術(shù)上取得了突破,成功開(kāi)發(fā)了一套自動(dòng)標(biāo)點(diǎn)軟件。去年在二十四史和唐宋詩(shī)文集上做了成功的嘗試,完成了上億字古代文獻(xiàn)的自動(dòng)標(biāo)點(diǎn),正確率達(dá)90%以上,具有很高的實(shí)用價(jià)值。

       

          主持人:你們開(kāi)發(fā)這一技術(shù)大致用了多長(zhǎng)時(shí)間?

       

          尹小林:研制時(shí)間很長(zhǎng),從2003年算起,用了將近10年時(shí)間。今年年初開(kāi)始投入試用。經(jīng)過(guò)測(cè)試,如果前期數(shù)據(jù)準(zhǔn)備工作做好了,每天可以標(biāo)點(diǎn)500萬(wàn)字。

       

          除了自動(dòng)標(biāo)點(diǎn),我們還開(kāi)發(fā)完成了自動(dòng)比對(duì)、自動(dòng)排版軟件。這些技術(shù)的推廣使用,可以大幅度提高古籍整理的質(zhì)量和速度,整體上降低出版成本。自動(dòng)排版軟件還可應(yīng)用于網(wǎng)絡(luò)出版和個(gè)性化出版。

       

          需要100年才能完成的事情,我們很難規(guī)劃;如果是5~8年就能完成的事,我們就可以計(jì)劃立項(xiàng)。中國(guó)歷史上有名的文化工程《四庫(kù)全書(shū)》的編撰,前后歷時(shí)十多年。除去收集圖書(shū)、編寫(xiě)目錄和確定版本的時(shí)間,僅正式抄寫(xiě)一項(xiàng),最多時(shí)就用了2000人,花了5年多時(shí)間?!端膸?kù)全書(shū)》收書(shū)達(dá)3400多種,都是中國(guó)文化史上的重要文獻(xiàn),全部標(biāo)點(diǎn)整理后,總規(guī)模將超過(guò)10億字。如果正式立項(xiàng),標(biāo)點(diǎn)整理可在5至8年內(nèi)完成。超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)不僅可在互聯(lián)網(wǎng)平臺(tái)上運(yùn)行,還可廣泛應(yīng)用于各種移動(dòng)終端。特別值得一提的是:超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)投入使用,將進(jìn)一步提高古籍整理出版的創(chuàng)新能力和水平,為現(xiàn)代個(gè)性化出版、網(wǎng)絡(luò)出版提供強(qiáng)大支撐。

       

          主持人:孫教授,從技術(shù)的角度,您對(duì)首都師范大學(xué)研發(fā)的古籍自動(dòng)標(biāo)點(diǎn)、自動(dòng)比對(duì)、自動(dòng)排版三項(xiàng)技術(shù)有什么評(píng)價(jià)呢?

       

          孫茂松:無(wú)疑,這三項(xiàng)技術(shù)對(duì)建設(shè)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)都非常重要。分析起來(lái),其技術(shù)難度是有所區(qū)別的。相比較而言,自動(dòng)比對(duì)技術(shù)難度相對(duì)較小,但也很好地利用了計(jì)算機(jī)能夠?qū)A课谋具M(jìn)行快速查找、匹配的“天然”能力,而這一點(diǎn)恰恰是人類(lèi)能力之所短,因而可以十分顯著地提升比對(duì)效率;自動(dòng)排版難度更大,需要將古籍排版知識(shí)引入到計(jì)算機(jī)算法中,可以認(rèn)為是一個(gè)基于“排版知識(shí)”的古籍排版專(zhuān)家系統(tǒng);自動(dòng)標(biāo)點(diǎn)最難,這需要在專(zhuān)家標(biāo)點(diǎn)過(guò)的大規(guī)模古籍語(yǔ)料庫(kù)的支持下,設(shè)計(jì)相應(yīng)的計(jì)算機(jī)算法,才有可能實(shí)現(xiàn)。其工作過(guò)程大體上是:計(jì)算機(jī)算法從標(biāo)點(diǎn)過(guò)的大規(guī)模古籍語(yǔ)料庫(kù)中學(xué)習(xí)有關(guān)標(biāo)點(diǎn)(句讀)的知識(shí),據(jù)之對(duì)新的古籍語(yǔ)料進(jìn)行標(biāo)點(diǎn),經(jīng)過(guò)專(zhuān)家校對(duì)后的帶有標(biāo)點(diǎn)的語(yǔ)料再補(bǔ)充到這個(gè)語(yǔ)料庫(kù)中,由計(jì)算機(jī)算法再行學(xué)習(xí)。經(jīng)過(guò)這一次“輪回”,自動(dòng)標(biāo)點(diǎn)的性能會(huì)得到提升。上述過(guò)程多次迭代,便有望使得自動(dòng)標(biāo)點(diǎn)技術(shù)漸趨完善。錢(qián)鐘書(shū)先生在他修改過(guò)的一篇文章《電腦里的唐詩(shī)》中曾經(jīng)講過(guò)一句非常深刻的話(huà):“能夠幫助人的電腦,需要人的更多幫助?!弊詣?dòng)標(biāo)點(diǎn)技術(shù)在一定程度上“呼應(yīng)”了錢(qián)先生的這個(gè)想法。應(yīng)該說(shuō),自動(dòng)標(biāo)點(diǎn)技術(shù)較為充分地反映了“大數(shù)據(jù)”的特點(diǎn),即:經(jīng)過(guò)標(biāo)點(diǎn)加工的數(shù)據(jù)規(guī)模越大,自動(dòng)標(biāo)點(diǎn)的性能便越好,于是乎對(duì)大數(shù)據(jù)的標(biāo)點(diǎn)效率就越高,其結(jié)果是人工標(biāo)點(diǎn)數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大,構(gòu)成了正反饋。

       

          主持人:這三大核心技術(shù),讓首都師大電子文獻(xiàn)研究所在中國(guó)古籍?dāng)?shù)字化的道路上有了獨(dú)領(lǐng)風(fēng)騷的能力與實(shí)力。這一點(diǎn)令人欽佩。

       

          趙敏俐:首都師范大學(xué)早在2002年就開(kāi)始了古籍?dāng)?shù)字化的建設(shè)過(guò)程,2003年成立了電子文獻(xiàn)研究所,2007年又成立了國(guó)學(xué)傳播中心。為了適應(yīng)古籍?dāng)?shù)字化建設(shè)發(fā)展的需要,2013年,我們將國(guó)學(xué)傳播中心擴(kuò)建為國(guó)學(xué)傳播研究院。在近十余年的時(shí)間內(nèi),首都師范大學(xué)在古籍?dāng)?shù)字化方面做了一系列的工作,取得了有目共睹的成績(jī)。第一項(xiàng)工作是國(guó)學(xué)網(wǎng)的建設(shè)。國(guó)學(xué)網(wǎng)建于2000年,現(xiàn)在已經(jīng)發(fā)展成世界知名的中國(guó)文化網(wǎng)站,在國(guó)內(nèi)外的人文社會(huì)科學(xué)研究領(lǐng)域里具有廣泛的影響。國(guó)學(xué)網(wǎng)的成功建設(shè),顯示了數(shù)字化技術(shù)下的網(wǎng)絡(luò)文化傳播的巨大潛力與功效。第二項(xiàng)工作是數(shù)據(jù)庫(kù)的建設(shè)。我們開(kāi)發(fā)研制的《國(guó)學(xué)寶典》,從一開(kāi)始就探索與國(guó)內(nèi)相關(guān)研發(fā)機(jī)構(gòu)不同的古籍?dāng)?shù)字化方式。其核心是將浩如煙海的古籍一部一部、一字一字地錄入計(jì)算機(jī)系統(tǒng),為今后日益先進(jìn)的古籍?dāng)?shù)字化技術(shù)提供堅(jiān)實(shí)的基礎(chǔ),走可持續(xù)發(fā)展之路。在此基礎(chǔ)上,我們從2002年開(kāi)始,聯(lián)合國(guó)內(nèi)四所高校開(kāi)發(fā)了具有多種功能的《中國(guó)古代文學(xué)電子史料庫(kù)》,匯集了將近2億字左右的文獻(xiàn)資料。第三項(xiàng)工作是學(xué)科建設(shè)。我們從2007年開(kāi)始,在國(guó)內(nèi)高校設(shè)立了第一個(gè)以古籍?dāng)?shù)字化為研究對(duì)象的交叉學(xué)科——數(shù)字文獻(xiàn)學(xué),獲得了北京市教委的支持,被列為北京市重點(diǎn)學(xué)科。這是北京市所建設(shè)的第一個(gè)人文科學(xué)和自然科學(xué)的重點(diǎn)交叉學(xué)科。2013年9月,第一屆數(shù)字文獻(xiàn)學(xué)研究生入校,這在國(guó)內(nèi)也開(kāi)了先例。人才的培養(yǎng),必將為“大數(shù)據(jù)庫(kù)時(shí)代”的中國(guó)傳統(tǒng)文化建設(shè)提供長(zhǎng)久的、堅(jiān)實(shí)的支持。

       

          我們的努力得到了國(guó)務(wù)院有關(guān)領(lǐng)導(dǎo)的高度肯定,教育部領(lǐng)導(dǎo)指示首都師范大學(xué)在以往取得成果的基礎(chǔ)上,聯(lián)合全國(guó)高等院校、各大圖書(shū)館,在大數(shù)據(jù)庫(kù)的建設(shè)方面做出新的成績(jī),要在全國(guó)起引領(lǐng)作用。我們?yōu)榇松钍芄奈瑁窈髮⑦M(jìn)一步加快大數(shù)據(jù)庫(kù)的建設(shè),以適應(yīng)世界范圍“大數(shù)據(jù)時(shí)代”已經(jīng)到來(lái)的形勢(shì),為全國(guó)的人文社會(huì)科學(xué)發(fā)展,繁榮社會(huì)主義文化作出應(yīng)有的貢獻(xiàn)。

       

       

          主持人:各位專(zhuān)家的發(fā)言,使我們對(duì)超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè)充滿(mǎn)信心。當(dāng)然,這一工程是浩大的,面臨很多現(xiàn)實(shí)的困難。那么,還有哪些問(wèn)題需要得到解決呢?

       

          尹小林:如果這個(gè)項(xiàng)目能變成一個(gè)國(guó)家工程,動(dòng)員全國(guó)高校的古籍整理力量,有充足的經(jīng)費(fèi)保障,完成這個(gè)項(xiàng)目則指日可待??偟膩?lái)說(shuō),需要三個(gè)方面的條件:第一,要有觀念上的突破。堅(jiān)決打破古籍?dāng)?shù)據(jù)庫(kù)建設(shè)“小、散、亂”,各自為政的模式,形成學(xué)術(shù)共識(shí)。第二,要有體制上的變革。單純的商業(yè)模式或完全的政府立項(xiàng),都難以完成這一巨大的文化工程。沒(méi)有高校和學(xué)術(shù)界的支持,這項(xiàng)工程無(wú)法達(dá)到所需的質(zhì)量;沒(méi)有企業(yè)高效率的管理模式,成果難于推廣,無(wú)法發(fā)揮持續(xù)的影響力。政企結(jié)合,是一個(gè)高效合理的模式。第三,要有政策上的支撐。大型古籍?dāng)?shù)據(jù)庫(kù)建設(shè)涉及到許多新情況、新問(wèn)題,如何處理國(guó)家和個(gè)人、局部與全局、保護(hù)與創(chuàng)新的關(guān)系,需要有關(guān)部門(mén)制訂相應(yīng)政策,扶持和鼓勵(lì)這一產(chǎn)業(yè)的健康發(fā)展。我們正處于一個(gè)偉大的時(shí)代,需要產(chǎn)生偉大的作品,創(chuàng)造偉大的成果。

       

          主持人:這也就是說(shuō),比起技術(shù)手段來(lái),現(xiàn)在更需要決策者的決心。這項(xiàng)工程單純依靠一個(gè)高校的一個(gè)學(xué)術(shù)機(jī)構(gòu)確實(shí)是難以完成的,需要多學(xué)科多個(gè)相關(guān)單位的通力合作,古代文史研究界和計(jì)算機(jī)信息化處理相關(guān)領(lǐng)域的合作,以及國(guó)家政策的配套,科研基金項(xiàng)目的支持等等,這樣的一些條件如果都具備了,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建設(shè)就能夠開(kāi)展得比較順利。

       

          尹小林:的確,超大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)建設(shè)是一個(gè)大型文化工程,非一己之力、一家之力、一時(shí)之力可以完成。像《中華大典》《清史》《儒藏》都動(dòng)員了全國(guó)的專(zhuān)家學(xué)者,這個(gè)項(xiàng)目規(guī)模比《儒藏》《子藏》都要大得多,將來(lái)出來(lái)的成果也會(huì)大得多。

       

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多