原文作者:Priyanka Pulla 一個巨大的數(shù)據(jù)庫正在印度悄無聲息地建立,有望讓免費(fèi)的論文挖掘成為可能——但是,這合法么? Carl Malamud正在發(fā)起一場運(yùn)動,他要解放被付費(fèi)墻封鎖住的信息,而且已經(jīng)取得了初步勝利。此前幾十年,他致力于公開那些受版權(quán)保護(hù)的法律文件,無論是建筑規(guī)范還是庭審記錄。他認(rèn)為這些文檔代表了公有領(lǐng)域的法律,理應(yīng)讓所有公眾在線獲取。有些情況下他會勝訴。現(xiàn)在,這位60歲的美國技術(shù)專家又將目光轉(zhuǎn)向了另一個目標(biāo):以合法途徑解放付費(fèi)墻背后的科學(xué)文獻(xiàn)。 來源:Smita Sharma 過去的一年里,Malamud在沒有告知出版商的情況下,與一些印度的研究者聯(lián)合建立了一個巨大的文本圖片庫,其中包括了從1847年至今的7300萬篇期刊文章。這一仍在創(chuàng)建的文檔庫將被保存在印度尼赫魯大學(xué)(JNU)一個576T的存儲器里。Malamud說:“我們收集的文章可能不是全部,但絕對不算少?!逼湟?guī)模與Web of Science數(shù)據(jù)庫的核心合集不相上下。Malamud和他在JNU的合作者、生物信息學(xué)家Andrew Lynn將他們的存儲器稱為“JNU數(shù)據(jù)倉庫”。 從文檔庫里閱讀或下載論文是不被允許的,因?yàn)檫@會侵犯出版商的版權(quán)。按照Malamud的設(shè)想,研究者可以使用計算機(jī)軟件抓取其中文本和數(shù)據(jù),在不閱讀文字的情況下掃描全世界的科學(xué)文獻(xiàn),提取他們想要的信息。 這一前所未有的項目讓許多人為之激動,因?yàn)檫@是第一次在文獻(xiàn)付費(fèi)墻上開了一大條口子,讓它們能被用于簡單的程序分析。目前,已經(jīng)有幾十個研究組從事著類似的數(shù)據(jù)挖掘工作,并在此基礎(chǔ)上構(gòu)建了基因和化學(xué)物質(zhì)的數(shù)據(jù)庫、尋找蛋白質(zhì)與疾病之間的關(guān)聯(lián)、生成有意義的科學(xué)假設(shè)。但是,出版商通常會對這類挖掘的速度和范圍加以限制,只允許挖掘摘要部分,而非全文。為此,印度、美國和英國的研究人員正計劃改用JNU數(shù)據(jù)倉庫。Malamud和Lynn會去印度各個政府實(shí)驗(yàn)室和大學(xué)舉辦講座,解釋他們的想法。Malamud說:“我們會請一些教授來聽我們的計劃,他們聽了之后都很激動,說‘天啊,這太贊了’?!?/p> 不過,數(shù)據(jù)倉庫的合法性尚待明確。在建造倉庫前,Malamud聯(lián)系過幾位知識產(chǎn)權(quán)律師,希望能避開不必要的官司。他說:“我們的立場是,這種做法完全合法?!蹦壳埃拿恳徊蕉歼~得小心翼翼——他為JNU數(shù)據(jù)倉庫加了物理網(wǎng)閘,讓數(shù)據(jù)庫無法通過因特網(wǎng)訪問。用戶必須親身前往數(shù)據(jù)倉庫,而且只有進(jìn)行非商業(yè)數(shù)據(jù)挖掘的研究者才能獲準(zhǔn)進(jìn)入。Malamud的團(tuán)隊打算將來支持遠(yuǎn)程訪問?!暗覀兿M苈七M(jìn)這個項目,而不是立刻對外開放。” 挖掘技術(shù)哪家強(qiáng) 數(shù)據(jù)倉庫的建立可以為研究論文的軟件分析掃清障礙,加州大學(xué)圣克魯茲分校(UCSC)的生物信息學(xué)家Max H?ussler說,“如今對學(xué)術(shù)論文進(jìn)行文本挖掘幾乎不可能?!奔词故窍袼@樣能夠通過學(xué)校獲得付費(fèi)文章的人也辦不到。 自2009年以來,H?ussler和他的同事們就開始構(gòu)建在線的UCSC“基因組瀏覽器”,將人類基因組DNA序列直接鏈到提及該序列的論文段落。起初,研究者聯(lián)系了超過40家出版商,請求允許使用軟件來篩查提到DNA的具體論文。但有15家出版商不是沒有回應(yīng)就是拒絕了他們的請求。H?ussler自己也不確定在無授權(quán)情況下的數(shù)據(jù)挖掘是否違法,不敢輕易嘗試。過去,曾有出版商發(fā)現(xiàn)他用軟件爬數(shù)據(jù)庫后封鎖了他的訪問?!拔?0%的時間都在聯(lián)系出版商,或是寫程序來下載論文?!盚?ussler說。 在柏林QUEST轉(zhuǎn)化生物醫(yī)學(xué)研究中心兼任職務(wù)的統(tǒng)計學(xué)家Chris Hartgerink現(xiàn)在只在允許開放獲取的出版商那里做文本挖掘,因?yàn)椤昂筒婚_放的出版商打交道太麻煩了”。幾年前,當(dāng)Hartgerlink還在荷蘭讀博時,他試過批量下載論文來做挖掘,隨后被三家出版商取消了訪問權(quán)。 一些國家已經(jīng)修訂了法律,確保非商業(yè)項目的研究人員可以在沒有著作權(quán)人許可的情況下,對他們能合法獲取的任何內(nèi)容進(jìn)行挖掘。英國在2014年就通過了這類法案,歐盟也在今年投票通過了類似條款。但這無助于落后國家的狀況,那里的學(xué)術(shù)人員根本無法以合法的形式獲取論文。即使在英國,出版商依然有權(quán)施加一些“合理”限制,例如以確保服務(wù)器不擁堵為由,讓研究人員使用出版商專用界面并限制搜索和批量下載的速度。曼徹斯特大學(xué)國家文本挖掘中心副主任John McNaught認(rèn)為這種限制是個很大的問題:“每5秒下一篇文章,對人來說好像挺快的,但是對機(jī)器來說就慢得要命。下載600萬篇論文需要一整年的時間,單單下載生物醫(yī)藥的所有已發(fā)表論文就要整整五年。 McNaught說,不差錢的醫(yī)藥公司通常會多付一筆錢來獲取專門的文本挖掘訪問權(quán)限,因?yàn)樗麄兊墓ぷ魇浅鲇谏虡I(yè)目的。一位來自醫(yī)藥公司的研究員(由于無權(quán)接受媒體采訪,該研究人員拒絕透露身份)說,有些情況下,出版商會允許這些公司批量下載論文,以避開此類速度限制。但是,高校研究人員常常只能從PubMed一類的數(shù)據(jù)庫里對文章摘要進(jìn)行挖掘。摘要確實(shí)能提供一些信息,但遠(yuǎn)不及全文來得有用。2018年,丹麥技術(shù)大學(xué)計算生物學(xué)家S?ren Brunak的團(tuán)隊指出,搜索全文比搜索摘要能找到更多基因與疾病的聯(lián)系 (D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。 來源:Smita Sharma 挖掘論文還有不得不克服的一些技術(shù)壁壘。由于不同出版商使用不同的排版方式,從中提取文字本身就是一項挑戰(zhàn),而JNU團(tuán)隊就遇到了這個問題。例如,從PDF轉(zhuǎn)換成純文本的工具常常無法區(qū)分段落、腳注和圖片。不過,只要JNU團(tuán)隊解決了這個難題,后人就可以“乘涼”了。Malamud說,團(tuán)隊從7300萬篇論文中的首輪提取工作已經(jīng)接近完成,但下一步還要檢查錯誤。他預(yù)計數(shù)據(jù)庫最快也要到今年年底才能建成。 打開無限可能 JNU數(shù)據(jù)倉庫的擁護(hù)者早已迫不及待了,其中包括印度國家植物基因組研究所的計算生物學(xué)家、劍橋大學(xué)的講師Gitanjali Yadav。2006年,Yadav帶領(lǐng)研究所的團(tuán)隊,為植物分泌的化學(xué)物質(zhì)構(gòu)建了一個數(shù)據(jù)庫——EssOilDB。如今,從藥物開發(fā)團(tuán)隊到香水制造商都在從這個數(shù)據(jù)庫中尋覓線索。即將建成的“Carl的百科全書”——用Yadav的話講,可以讓她的數(shù)據(jù)庫更上一層樓。 構(gòu)建EssOilDB的時候,Yadav的團(tuán)隊需要從PubMed和谷歌學(xué)術(shù)(Google Scholar)上細(xì)篩相關(guān)論文,盡可能從全文中提取數(shù)據(jù)。如果這些還不夠,他們就要實(shí)地拜訪圖書館,從罕見的期刊中把圖表摘抄下來。Yadav認(rèn)為數(shù)據(jù)倉庫可以快進(jìn)這項工作,她的團(tuán)隊正在為將來的數(shù)據(jù)挖掘編寫查詢語句。 印度基因組學(xué)與綜合生物學(xué)研究所的生物信息學(xué)研究員Srinivasan Ramachandran對Malamud的計劃也很激動。他的團(tuán)隊有一個2型糖尿病相關(guān)基因的數(shù)據(jù)庫,并一直通過爬PubMed的摘要來尋找論文。他希望數(shù)據(jù)倉庫可以拓寬他的挖掘網(wǎng)。 麻省理工學(xué)院的“知識未來小組”(Knowledge Futures Group)想藉由挖掘數(shù)據(jù)倉庫,研究學(xué)術(shù)論文的發(fā)表形式隨時間的演變。團(tuán)隊成員之一、MIT媒體實(shí)驗(yàn)室的博士生James Weis說,團(tuán)隊希望能預(yù)測即將出現(xiàn)的新研究領(lǐng)域,并找出衡量研究影響力的替代方法。 解鎖版權(quán)的一生 Malamud不久之前才萌生了將他的解鎖版權(quán)運(yùn)動擴(kuò)大到學(xué)術(shù)出版界的想法。Malamud是加州一個非營利組織“公共資源”(Public Resource)的創(chuàng)始人,該組織會買下政府所有的法律文件并公開發(fā)表,其中包括佐治亞州的注解法典、歐洲的玩具安全標(biāo)準(zhǔn),以及從建筑、殺蟲劑到手術(shù)設(shè)備在內(nèi)的逾1.9萬項印度標(biāo)準(zhǔn)。 由于這些文件常常是政府機(jī)構(gòu)的收入來源,一些機(jī)構(gòu)因此將Malamud告上了法庭。而他的辯護(hù)理由是:具有法律效力的文件不應(yīng)受到著作權(quán)的限制。在2018年對佐治亞州注解法典的判決中,美國上訴法院認(rèn)定Malamud不存在侵權(quán)行為,但是州政府之后再次向最高法院上訴。與此同時,德國法院于2017年判定“公共資源”發(fā)布玩具標(biāo)準(zhǔn)的行為屬于違法,包括一項嬰兒奶嘴標(biāo)準(zhǔn)。 不過,Malamud也勝訴過。2013年,他向美國聯(lián)邦法院起訴美國國家稅務(wù)局,要求稅務(wù)局公開稅務(wù)豁免的非營利組織的稅表——這些數(shù)據(jù)可以用來追究這些組織的責(zé)任。這一次,法院判Malamud勝訴,并要求美國國稅局將數(shù)千個非營利組織的財務(wù)報表以機(jī)器可讀的形式公開。 2017年初,在倡導(dǎo)開放獲取的倫敦慈善組織阿卡迪亞基金(Arcadia Fund)的協(xié)助下,Malamud將目光轉(zhuǎn)向了科研論文。根據(jù)美國法律,美國聯(lián)邦政府雇員的研究不受版權(quán)保護(hù),而“公共資源”找到了數(shù)十萬篇由美國政府發(fā)表的學(xué)術(shù)文章都違反了這條規(guī)定。Malamud要求取消對這些文章的版權(quán)保護(hù),但法院究竟會如何判決仍然未知。他已經(jīng)將初步結(jié)果發(fā)布到了網(wǎng)上,但決定暫緩進(jìn)一步的宣傳計劃,因?yàn)?strong>這件事讓他想到了一個更大的使命:開放所有科學(xué)論文的訪問權(quán)。 印度的機(jī)遇 這項使命源于2016年德里高等法院的一項裁決。那次案件的中心是德里大學(xué)的Rameshwari復(fù)印店。多年來,這家復(fù)印店一直在為學(xué)生復(fù)印昂貴的課本作為教材。這些課本的價格從500到19000盧比(合人民幣50-1860元)不等,對很多學(xué)生來說是無法接受的高價。 2012年,牛津大學(xué)出版社、劍橋大學(xué)出版社和泰勒-弗朗西斯出版集團(tuán)(Taylor&Francis)聯(lián)合起訴了這所大學(xué),要求它為每份復(fù)制的書籍購買許可。但德里高等法院駁回了訴訟請求。在判決書中,法院援引印度1957年《版權(quán)法》第52節(jié),其中允許以教育為目的復(fù)制有著作權(quán)的作品,同一節(jié)的另一條款還允許出于研究目的的復(fù)制行為。 Malamud與印度的淵源很深:他早在1980年代就以游客的身份拜訪過印度,并在斯利那加的船屋中寫下了一本關(guān)于數(shù)據(jù)庫設(shè)計的書,是他的早期作品之一。當(dāng)聽說Rameshwari復(fù)印店一事時,他剛剛獲得了(他拒絕透露詳情)8個裝有Sci-Hub數(shù)百萬篇期刊文章的硬盤。Sci-Hub是一個將付費(fèi)論文免費(fèi)向所有人開放的盜版網(wǎng)站。Sci-Hub曾因侵權(quán)問題被出版社告上美國法院,并在兩起訴訟中敗訴;盡管如此,它的一些域名至今依然有效。 于是,Malamud開始思索是否能以合法的途徑使用這些Sci-Hub的硬盤,為印度學(xué)生做些什么。在他2018年與印度技術(shù)企業(yè)家Sam Pitroda合寫的關(guān)于他工作的《自治法典》(Code Swaraj)一書中,他想象自己駕駛一輛類似美式快餐車的汽車空降印度校園,把論文分發(fā)給需要它們的學(xué)生。 最終,他把想法定格在了JNU數(shù)據(jù)倉庫。(Malamud還在幫助德里的印度理工學(xué)院建立另一個挖掘中心,其中包含了250T的數(shù)據(jù),但尚未啟用。)不過,他對數(shù)據(jù)倉庫的論文來源卻諱莫如深。當(dāng)被問及數(shù)據(jù)倉庫中的有些論文是否來自Sci-Hub時,他不愿置評,只透露了可供免費(fèi)下載論文的平臺(如PubMed Central和一個叫“Unpaywall”的工具)。但他坦言并未與出版商就數(shù)據(jù)倉庫的論文訪問權(quán)簽訂合同。 合法嗎? 在Malamud看來,論文的來源并不重要。他認(rèn)為這種數(shù)據(jù)挖掘?qū)儆诜窍M(fèi)型——該術(shù)語意味著研究者不能閱讀或展示他們所分析文章的大部分內(nèi)容。他說:“你是不能用DOI[論文索引號]搜索文章的?!盡alamud認(rèn)為在美國等一些國家,對有著作權(quán)的內(nèi)容進(jìn)行挖掘是法律許可的。例如,2015年,美國法院判定“谷歌圖書”(Google Books)沒有違反著作權(quán),而谷歌的做法與JNU數(shù)據(jù)倉庫類似:在沒有額外購買許可的情況下對上千本有著作權(quán)的書籍進(jìn)行掃描,并在搜索服務(wù)中提供這些書籍的摘錄,但是不允許用戶全文下載或閱讀。 舊金山律所Durie Tangri的知識產(chǎn)權(quán)律師Joseph Gratz是谷歌圖書一案的辯護(hù)律師,并曾代表公共資源出庭。在他看來,谷歌圖書一案是對非消費(fèi)型數(shù)據(jù)挖掘的一個試驗(yàn)。雖然谷歌會提供部分預(yù)覽,但法院判定片段展示的文本過少,不構(gòu)成侵權(quán)。谷歌的確沒有獲得許可,但它掃描的是已獲授權(quán)的圖書(多來自圖書館)。Gratz說,著作權(quán)人可能會辯稱,如果JNU數(shù)據(jù)倉庫是從Sci-Hub等未獲授權(quán)的途徑獲得論文,情況就和谷歌不同。但是,美國法院歷史上從未審理過涉及非授權(quán)來源的案件,因此結(jié)果如何很難說?!半m然來源不重要的理由很充足,但推翻這種論證也不是不可能?!?/p> 又或者,數(shù)據(jù)倉庫在美國是否合法根本無關(guān)緊要,因?yàn)檫@些內(nèi)容全部來自位于印度的數(shù)據(jù)庫——即使可以遠(yuǎn)程訪問。美利堅大學(xué)華盛頓法學(xué)院的教授Michael W. Carroll因此認(rèn)為,這個數(shù)據(jù)庫是否合法,可能還得印度法律說了算。 而在印度,法律很有可能對Malamud有利——這也是他把數(shù)據(jù)庫設(shè)在新德里的另一個原因。第52節(jié)允許的研究豁免讓JNU數(shù)據(jù)倉庫不會觸犯印度法律,德里國家法律大學(xué)的助理教授Arul George Scaria說。但是,不是所有人都同意這種解讀。第52節(jié)允許研究者復(fù)制期刊文章做個人使用,但不一定允許JNU數(shù)據(jù)倉庫的大批量復(fù)制,Vidhi法律政策中心的法學(xué)研究員T. Prashant Reddy說。不讓用戶訪問全文確實(shí)會讓數(shù)據(jù)庫相對有利,但是通過批量復(fù)制論文來構(gòu)建數(shù)據(jù)庫的做法卻會使其陷入“法律灰色地帶”,Reddy說。 高風(fēng)險行業(yè) 《自然》就JNU數(shù)據(jù)倉庫的問題聯(lián)系了15家出版商,其中6家給出了回應(yīng),并說自己是第一次聽說這個項目,不愿在沒有進(jìn)一步信息的情況下評論其合法性。但是,這6家出版社——愛思唯爾、BMJ、美國化學(xué)學(xué)會、施普林格·自然、美國科學(xué)促進(jìn)會和美國國家科學(xué)院——都說對他們的論文進(jìn)行數(shù)據(jù)挖掘需要獲得他們的許可。(施普林格·自然是《自然》的出版商;《自然》新聞團(tuán)隊與其出版商是編輯獨(dú)立的。) Malamud深知這個項目背后的風(fēng)險,但他認(rèn)為這么做在“道義上至關(guān)重要”,特別是對印度來說。他說,印度大學(xué)和政府實(shí)驗(yàn)室花費(fèi)巨資訂閱各種期刊,但仍然無法獲取所有需要的論文。來自Sci-Hub的數(shù)據(jù)表明,印度是該網(wǎng)站最大的用戶來源國,這意味著大學(xué)購買的權(quán)限還遠(yuǎn)遠(yuǎn)不夠。Malamud說,雖然美國和歐洲的開放獲取運(yùn)動難能可貴,但印度要在解放科學(xué)知識的道路上先行一步,“我們不能等歐洲和美國來解決這個問題,印度的需求太迫切了。” 原文以 The plan to mine the world’s research papers為標(biāo)題 發(fā)布在 2019年 7月 17日《自然》新聞特寫上 ? Nature|doi: 10.1038/d41586-019-02142-1 版權(quán)聲明: |
|