傳統(tǒng)的關(guān)鍵詞檢索論文,浩如煙海的結(jié)果讓你無(wú)所適從?試試人工智能檢索引擎。根據(jù)你的研究興趣和偏好,便捷而靠譜幫你找論文。 ![]() image 煩惱進(jìn)入一個(gè)新領(lǐng)域,讀論文是必然途徑。 讀者一般會(huì)遇到2個(gè)問題:
在信息匱乏時(shí)代,第一個(gè)問題就會(huì)難倒許多人。 好在近年來(lái),人們有了獲取全文的更多渠道。 例如在物理、數(shù)學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域,絕大多數(shù)新研究成果,都會(huì)首先發(fā)在arXiv這個(gè)預(yù)印本平臺(tái)上。 ![]() image 解釋一下,預(yù)印本是指你的論文寫好,可以先發(fā)上來(lái),然后再投給會(huì)議或者期刊。 在同行評(píng)議過程完成之前(這個(gè)時(shí)間段長(zhǎng)短不一,真的有按年計(jì)算的),別人可以搶鮮讀到你的工作成果,同時(shí)你上傳預(yù)印本的行為也申明了自己的知識(shí)產(chǎn)權(quán)。 這樣一來(lái),人們就更關(guān)注第二個(gè)問題了: 如何找到自己需要的論文? 這個(gè)問題越來(lái)越難以解決。 因?yàn)檎撐?strong>太多了。 發(fā)展較快的領(lǐng)域,尤其如此。 例如人工智能領(lǐng)域,自從深度學(xué)習(xí)(Deep Learning)成為了顯學(xué),大批量的研究者就涌了進(jìn)來(lái)。一時(shí)間好不熱鬧。 ![]() image 這么多的論文里,你該讀哪些?以什么順序來(lái)閱讀? 要圓滿解決這些問題,你可能需要擁有一張完整的領(lǐng)域知識(shí)地圖。 ![]() image 可惜,人類的閱讀速度,都跟不上新論文的發(fā)表速度了。幾乎沒有哪個(gè)人能擁有這張知識(shí)地圖(而且還恰好愿意為你提供咨詢服務(wù))。 這給初學(xué)者造成了非常嚴(yán)重的困擾。 有人會(huì)告訴你:多讀。 讀到你不再是初學(xué)者,就好了。 這個(gè)建議放在今天,恐怕還是要被信息的洪流淹沒。 正如莊子說(shuō)的那樣:
幸好,恰恰是人工智能技術(shù)的發(fā)展,使得人們有了更加強(qiáng)大的武器,來(lái)應(yīng)對(duì)海量論文奔涌而來(lái)的困局。 本文為你介紹一款基于人工智能的arXiv論文檢索與推薦引擎,來(lái)幫助你處理論文查找和篩選問題。 檢索我為你推薦的這個(gè)論文檢索引擎,叫做arXiv-sanity。 這是首頁(yè)的樣子。 ![]() image 第一次使用的時(shí)候,建議你點(diǎn)擊這個(gè)鏈接(https:///S2GY3gh6qC8)查看介紹視頻。 ![]() image 為了使用這個(gè)檢索引擎,你需要?jiǎng)?chuàng)建一個(gè)賬戶。 別怕麻煩,10幾秒鐘就能完成。只是你需要把密碼記錄下來(lái),以免下次忘記。 這是我賬戶創(chuàng)建完畢的樣子。 ![]() image 我們來(lái)對(duì)比一下,arXiv和arXiv-sanity中,依據(jù)關(guān)鍵詞檢索論文的結(jié)果有什么差異。 在arXiv里面,搜索“keras”,結(jié)果是這個(gè)樣子的。 ![]() image 看著中規(guī)中矩,對(duì)吧? 而在arXiv-sanity中搜索同樣的關(guān)鍵詞,結(jié)果是這樣的: ![]() image arXiv-sanity的搜索結(jié)果以更加可視化的形式呈現(xiàn)。你不僅可以看到標(biāo)題、作者等信息,而且還可以直觀看到其中正文的預(yù)覽圖。 這樣一來(lái),一眼掃過去,你就可以觀其大略,發(fā)現(xiàn)某篇論文是否符合你的口味。 我的研究生應(yīng)該會(huì)比較喜歡這個(gè)功能。這樣他們尋找候選翻譯論文的時(shí)候,就能盡量避開公式太多的了。 基于關(guān)鍵詞的檢索是最為基本的功能。 我們來(lái)看看其他服務(wù)。 群體一篇論文寫得如何?其他用戶可能會(huì)有評(píng)論。 點(diǎn)擊“Discussions”按鈕,你就能查看評(píng)論,從而了解他人眼里,論文的優(yōu)點(diǎn)與不足了。 ![]() image 如果你暫時(shí)還沒有確立自己的研究方向與興趣,也沒有關(guān)系。 這套論文檢索系統(tǒng)充分利用了人類用戶的群體智慧(crowd wisdom),即觀察和分析他人的行為,來(lái)幫你找到可能感興趣的論文。 嘗試一下,點(diǎn)擊屏幕上方的“top recent”按鈕。 ![]() image 系統(tǒng)會(huì)根據(jù)他人在文獻(xiàn)庫(kù)收藏的情況,為你推薦一周內(nèi)最受歡迎的論文。 當(dāng)然你也可以自己選擇時(shí)間尺度。我們來(lái)嘗試一下“All Time”(全部時(shí)間段)。 ![]() image 深度學(xué)習(xí)領(lǐng)域大牛Ian Goodfellow的論文NIPS 2016 Tutorial(發(fā)表于2017年)排在第一位。 但是使用這個(gè)檢索系統(tǒng)的人畢竟還有限。少數(shù)人的關(guān)注,可能不足以說(shuō)明問題。 沒關(guān)系,這個(gè)系統(tǒng)還和社交媒體平臺(tái)Twitter鏈接了起來(lái)。 點(diǎn)擊屏幕上方的“top hype”按鈕,你會(huì)看到以下界面。 ![]() image 你可以試試把鼠標(biāo)滑動(dòng)到某個(gè)Twitter用戶頭像上,直接看TA說(shuō)了什么。 ![]() image 當(dāng)然,社交媒體平臺(tái)上的數(shù)據(jù),也并非完全相關(guān)與可靠。但是對(duì)于科研內(nèi)容的評(píng)價(jià)和傳播來(lái)說(shuō),社交媒體數(shù)據(jù)(評(píng)論、轉(zhuǎn)發(fā)等)還是比較有參考價(jià)值的。 畢竟,愿意研究論文的人,大致上還是有一定的學(xué)術(shù)基礎(chǔ),并且比較珍視自己的名譽(yù),因此胡亂評(píng)價(jià)的概率較低。 將檢索平臺(tái)自身的收藏?cái)?shù)量和社交媒體推薦相互印證,你就不難找到一些引領(lǐng)趨勢(shì)的研究成果。 可是,這些成果雖然代表了流行程度和受關(guān)注度,卻未必符合你的胃口。 這就該人工智能上場(chǎng)了。 智能你可以通過文章內(nèi)容的相似性尋找符合口味的論文。 回到我們剛剛檢索“Keras”的第一個(gè)結(jié)果下,點(diǎn)擊“show similar”,就能看見以下分析結(jié)果。 ![]() image 系統(tǒng)通過自然語(yǔ)言處理后,認(rèn)為與該研究相關(guān)的文章都被列出來(lái)了。 我們檢索的Keras是一種深度學(xué)習(xí)框架,結(jié)果標(biāo)題中出現(xiàn)Theano也是。看來(lái)機(jī)器幫我們找的相似性還是比較靠譜的。 比起人工推薦同類研究論文,arXiv-sanity這樣的計(jì)算機(jī)系統(tǒng)可以不知疲倦地隨時(shí)監(jiān)測(cè),實(shí)時(shí)發(fā)現(xiàn)新的結(jié)果,并且及時(shí)通知用戶。 這樣一來(lái),你做文獻(xiàn)綜述的時(shí)候,心里就會(huì)更有底了。 我們來(lái)看看更智能的應(yīng)用——論文推薦。 如果說(shuō)相似結(jié)果查找還不過是照貓畫虎,論文推薦可就是見微知著了。 在檢索結(jié)果中,咱們選擇一些感興趣的論文,將它們存入到自己的獨(dú)立文獻(xiàn)庫(kù)(Library)中。點(diǎn)擊那個(gè)軟盤模樣的存盤按鈕就可以。 ![]() image 被收藏的文章,存盤按鈕變成了藍(lán)色。 進(jìn)到我們的文獻(xiàn)庫(kù)里看看。 ![]() image 你的檢索、閱讀和保存等動(dòng)作都在給arXiv-sanity系統(tǒng)傳遞信號(hào)。 依據(jù)這些信息,以及其他用戶的使用習(xí)慣和偏好數(shù)據(jù),平臺(tái)就可以分析你的研究興趣,并且可以推薦文章給你了。 ![]() image 推薦的論文,也可以選擇時(shí)間范圍。這樣不管你是希望找到經(jīng)典文獻(xiàn),還是“喜新厭舊”,都可以各取所需。 推薦結(jié)果的準(zhǔn)確度,與你傳遞給平臺(tái)的信息,以及其他用戶的行為數(shù)據(jù)積累,都是相關(guān)的。一般來(lái)說(shuō),你用得越多,文獻(xiàn)庫(kù)中積累的論文越多,推薦結(jié)果就會(huì)越精準(zhǔn)。 限制嘗試一段時(shí)間后,你可能注意到了,arXiv的首頁(yè)上,左上角有些白色文字。 ![]() image 因?yàn)榈咨?,可能看不太清楚,這里我給你清晰列出:
后面那些奇怪的代碼,是什么意思呢? 它們其實(shí)是arXiv這個(gè)預(yù)印本平臺(tái)上的論文分類編號(hào)。 具體來(lái)說(shuō),它們的含義如下:
這樣,你大體就能了解arXiv-sanity平臺(tái)上包含的論文類別了。 本文寫作時(shí),該平臺(tái)檢索論文的范圍為41211篇。 你可能對(duì)這里論文的數(shù)量嗤之以鼻——也太少了吧! 確實(shí)不多。 但是近年來(lái)相關(guān)論文數(shù)量增長(zhǎng)趨勢(shì)明顯。 ![]() image 目前人工智能領(lǐng)域的最優(yōu)秀作者,論文寫作后首發(fā)平臺(tái)都是arXiv。這樣一來(lái),arXiv-sanity便可以立即檢索到這篇文章。 如果你研究相關(guān)領(lǐng)域,可以在有魚的地方釣魚,不輕易放過好文獻(xiàn)。 但這些智慧功能,僅能局限在arXiv人工智能領(lǐng)域文章推薦嗎? 不是。 點(diǎn)擊首頁(yè)右上角的“Fork me on Github”按鈕,你可以看到arXiv-sanity的Github源代碼。 ![]() image 作者Andrej Karpathy說(shuō)得非常清楚: ![]() image 你可以用他提供的源碼,對(duì)任意的arXiv文章子集進(jìn)行智能化檢索服務(wù)。 你可以把服務(wù)搭建在自己的電腦上,也可以部署在亞馬遜AWS這樣的云平臺(tái)上面。 回過頭去,看看arXiv論文都包含哪些學(xué)科,我知道你一定很不滿足。 ![]() image 你的專業(yè),有可能不在arXiv涵蓋的范圍內(nèi)。 這樣的論文能不能用arXiv-sanity的服務(wù)呢? 很遺憾。答案在目前還是否定的。 因?yàn)閍rXiv-sanity的智能,是建立在全文可獲取的前提下的。 可是,目前世界上很多的論文版權(quán),還牢牢地掌握在幾大出版商手中。 下載論文全文并用來(lái)提供公眾服務(wù),是挑戰(zhàn)他們底線的行為,往往會(huì)遭到嚴(yán)厲的打擊。 天才少年Aaron Swartz的人生悲劇,就是這樣釀成的。 ![]() image 但是至少,我們看到了一種未來(lái)發(fā)展的可能性。 英雄作為附加內(nèi)容,我給你介紹一下:我是怎么發(fā)現(xiàn)arXiv-sanity這個(gè)好用的論文檢索服務(wù)的。 畢竟授人以魚,不如授人以漁嘛。 原因很簡(jiǎn)單,我看到資料介紹,說(shuō)它的創(chuàng)建者是Andrej Karpathy。 ![]() image 我立即確認(rèn),這個(gè)檢索工具一定很靠譜。 因?yàn)锳ndrej Karpathy是個(gè)深度學(xué)習(xí)領(lǐng)域的達(dá)人。 Andrew Ng的課程中,有過對(duì)他的專訪,放在了“深度學(xué)習(xí)英雄”(Heroes of Deep Learning)系列中。 你可以點(diǎn)擊這個(gè)鏈接(http:///fn96)查看這段訪談。 ![]() image 在我自己的課程中,也曾經(jīng)介紹過他開發(fā)的char-rnn模型(https://github.com/karpathy/char-rnn)。 ![]() image 這個(gè)模型能干什么呢? 很多。 其中之一是,制作游戲關(guān)卡,哄人類玩家玩兒。 在學(xué)習(xí)了《超級(jí)馬里奧兄弟》的32個(gè)關(guān)卡后,機(jī)器自動(dòng)生成了下面這個(gè)場(chǎng)景構(gòu)建: ![]() image 玩兒起來(lái)的效果如何?你可以點(diǎn)擊這段視頻的鏈接(https:///_-Gc6diodcY),自己評(píng)判一番。 ![]() image 正因?yàn)锳ndrej Karpathy這種超強(qiáng)技術(shù)實(shí)力,和長(zhǎng)期不斷的內(nèi)容輸出,人們對(duì)他開發(fā)的論文智能檢索系統(tǒng),才會(huì)有如此高的信任度。 討論你之前是如何檢索文獻(xiàn)的?使用過哪些好工具?有沒有查找自己感興趣論文的小竅門呢?歡迎留言,把你的經(jīng)驗(yàn)和思考分享給大家,我們一起交流討論。 如果你對(duì)我的文章感興趣,歡迎點(diǎn)贊,并且關(guān)注我的專欄,以便收到后續(xù)作品更新通知。 如果本文可能對(duì)你身邊的親友有幫助,也歡迎你把本文通過微博或朋友圈分享給他們。讓他們一起參與到我們的討論中來(lái)。 |
|
來(lái)自: budaozheli > 《如何高效讀論文》