今天介紹一個(gè)用于追蹤arxiv.org平臺(tái)上最新論文的工具arxiv-sanity。 作者&編輯 | vivian&言有三 1 什么是arxiv-sanity 我們都知道arxiv.org是一個(gè)非常大的預(yù)印本資源庫(kù),里面有大量的最新的論文,但缺點(diǎn)是瀏覽、搜索和排序不是很方便。這個(gè)庫(kù)每天會(huì)更新大量的論文,如果只是通過(guò)手動(dòng)搜索和瀏覽效率就太低了。 這樣特別容易讓人和一些優(yōu)秀的有趣兒的論文擦肩而過(guò),這些論文可能是和你的研究領(lǐng)域相關(guān)的。所以接下來(lái)你可能就能猜到這個(gè)arxiv-sanity是干什么用的了。 網(wǎng)址為:http://www./ 2 arxiv-sanity的基本功能 1、便捷的預(yù)覽 首先,arxiv-sanity在展示最新更新的文獻(xiàn)時(shí),提供了可讀性更強(qiáng)的縮略圖預(yù)覽模式方便讀者來(lái)快速預(yù)覽,并在縮略圖下方的綠色區(qū)域顯示文獻(xiàn)的abstract 。 2.感興趣相關(guān)度排序 更重要的是,它可以讓你根據(jù)自己的閱讀興趣對(duì)文獻(xiàn)進(jìn)行重新排序。比如這里有一篇關(guān)于對(duì)人體姿態(tài)估計(jì)的文獻(xiàn)是你感興趣的,點(diǎn)擊右上角的' rank by tf-idf similarity to this',文獻(xiàn)列表會(huì)按照與這篇文章的相關(guān)度進(jìn)行排序,接下來(lái)我們會(huì)看到arxiv上所有關(guān)于人體姿態(tài)識(shí)別的論文。這個(gè)功能是基于TF-DF算法來(lái)實(shí)現(xiàn)的,效果很好。(一種文檔特征提取法,它是由Salton在1988 年提出。其中TF稱為詞頻, IDF稱為反文檔頻率, 感興趣的可以自己百度。) 3.個(gè)人圖書(shū)館 如果你是注冊(cè)用戶,在登錄賬戶之后,還可以把自己感興趣的文獻(xiàn)收藏到你的個(gè)人圖書(shū)館。比如,我喜歡上圖的這篇人體姿態(tài)估計(jì)的文獻(xiàn),點(diǎn)擊右上角存盤圖標(biāo),(看到了嗎?就在' rank by tf-idf similarity to this'下面),點(diǎn)擊之后就把這篇文獻(xiàn)存在我自己的library里面了。 這時(shí),剛剛黑色的圖標(biāo)變成了藍(lán)色,點(diǎn)擊上面的library標(biāo)簽,可以看到它出現(xiàn)在了最上方。你可以像這樣收藏很多自己感興趣的文獻(xiàn)。想刪除的時(shí)候,在自己的library里面再次點(diǎn)擊那個(gè)圖標(biāo)就可以刪除了。 4.感興趣推薦系統(tǒng) 另外,library不光是用來(lái)收藏和跟進(jìn)自己領(lǐng)域的論文更新進(jìn)度,arxiv-sanity可以通過(guò)你收藏的內(nèi)容給你推薦你也許會(huì)感興趣的論文。具體怎么實(shí)現(xiàn)的呢?library內(nèi)部的論文會(huì)被標(biāo)記為positive,Library之外的論文標(biāo)記為negative,然后arxiv-sanity基于bigram文本特征提取來(lái)訓(xùn)練你的personal SVM,然后在reconmmended 標(biāo)簽里推薦給你。點(diǎn)擊recommended標(biāo)簽?zāi)憔涂梢钥吹阶罱鼉芍躠rxiv-sanity認(rèn)為你會(huì)感興趣的文獻(xiàn)。當(dāng)然,你也可以通過(guò)設(shè)置時(shí)間來(lái)自己篩選,如去年,上個(gè)月,上周,昨天和全部,看看自己有沒(méi)有錯(cuò)過(guò)什么文獻(xiàn)。 5.看看大家都在看什么 最后,再介紹一下“top recent”標(biāo)簽。這里面展示的是arxiv-sanity上被用戶收藏最多的文獻(xiàn)。這些文獻(xiàn)也可以按照時(shí)間來(lái)篩選。即使你不是注冊(cè)用戶,你也可以瀏覽到大家都在收藏的文獻(xiàn)。 6.網(wǎng)站代碼開(kāi)源 在頁(yè)面上方可以看到,arxiv-sanity只展示machine learning的論文,如CV,CL等ML的分支領(lǐng)域,因?yàn)檫@是arxiv-sanity作者自己的研究領(lǐng)域。(對(duì),這是人家閑暇時(shí)間寫的)。作者已經(jīng)把a(bǔ)rxiv-sanity開(kāi)源了,所以如果你想根據(jù)自己的研究領(lǐng)域新建自己的arxiv-sanity,可以去GitHub自己fork。GitHub搜索 karpathy/arxiv-sanity-preserver。 各分支領(lǐng)域縮寫翻譯如下: cs.CV: Computer Vision and Pattern Recognition 計(jì)算機(jī)視覺(jué)與模式識(shí)別; cs.CL:Computation and Language 計(jì)算語(yǔ)言學(xué); cs.LG:Learning 機(jī)器學(xué)習(xí)(計(jì)算機(jī)科學(xué)); cs.AI:Artificial Intelligence 人工智能; cs.NE:Neural and Evolutionary Computing 神經(jīng)與演化計(jì)算; stat.ML:Machine Learning 機(jī)器學(xué)習(xí)(統(tǒng)計(jì)學(xué))。 好了,就是這樣,趕快用起來(lái)吧。 能夠及時(shí)地找到自己感興趣領(lǐng)域里最新最全的資料,本身就是一種學(xué)習(xí)能力,如果你有更好的推薦方法和建議,不妨來(lái)有三AI分享,一起成長(zhǎng)吧。 轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系 侵權(quán)必究 |
|