轉(zhuǎn)載自 | AI科技評(píng)論 作者| 陳大鑫 近日,有位外國網(wǎng)友在Reddit上發(fā)帖稱利用metacurate.io持續(xù)讀取了2020年度arxiv上有關(guān)AI、機(jī)器學(xué)習(xí)、NLP和數(shù)據(jù)科學(xué)的大量論文資源。到2020年末,metacurate.io總共檢索了94,000多個(gè)論文鏈接。 然后,匯總到一起,并根據(jù)7天的社交媒體熱度對(duì)所有論文進(jìn)行熱度評(píng)分,最后選出來了十大arXiv熱門論文,其中就有GPT-3、SimCLR、YOLOv4等研究工作。 以下是就是這十篇熱門的arxiv論文,排名不分先后。 1、《Towards a Human-like Open-Domain Chatbot》. 論文鏈接:https:///abs/2001.09977 本文介紹了Meena,這是一個(gè)多輪的開放域聊天機(jī)器人,對(duì)從公共領(lǐng)域社交媒體對(duì)話中提取和過濾的數(shù)據(jù)進(jìn)行了端到端的訓(xùn)練。對(duì)該2.6B參數(shù)神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單的訓(xùn)練即可最大程度地減少下一個(gè)token的復(fù)雜度。本文還提出了一種被稱為“敏感度和特異度平均值(SSA:Sensibleness and Specificity Average)”的人類評(píng)估指標(biāo),該指標(biāo)可捕捉類似于人類的多輪對(duì)話的關(guān)鍵元素。本文的實(shí)驗(yàn)表明,復(fù)雜度與SSA之間有很強(qiáng)的相關(guān)性。 最優(yōu)復(fù)雜度的端到端訓(xùn)練有素的Meena在SSA上得分很高(多輪評(píng)估為72%),這表明如果我們可以更好地優(yōu)化復(fù)雜度,則人類水平的86%SSA是可以達(dá)到的。此外,完整版本的Meena(具有過濾機(jī)制和調(diào)諧解碼功能)的SSA得分為79%,比我們?cè)u(píng)估的現(xiàn)有聊天機(jī)器人的絕對(duì)SSA得分高23%。 2、《A Simple Framework for Contrastive Learning of Visual Representations》. 論文鏈接:https:///abs/2002.05709 這篇論文來自深度學(xué)習(xí)之父Hinton負(fù)責(zé)的谷歌大腦團(tuán)隊(duì),論文一作Ting chen是位華人,本科在北郵就讀。 本文介紹了SimCLR:用于視覺表示的對(duì)比學(xué)習(xí)的簡單框架。本文簡化了最近提出的對(duì)比自我監(jiān)督學(xué)習(xí)算法,而無需專門的架構(gòu)或存儲(chǔ)庫。 本文證明: 1、數(shù)據(jù)擴(kuò)充的組合在定義有效的預(yù)測任務(wù)中起著至關(guān)重要的作用; 2、在表示和對(duì)比損失之間引入可學(xué)習(xí)的非線性變換,可以大大提高所學(xué)習(xí)表示的質(zhì)量; 3、與監(jiān)督學(xué)習(xí)相比,對(duì)比學(xué)習(xí)受益于更大的batch和更多的訓(xùn)練步驟。 通過結(jié)合這些發(fā)現(xiàn),本文能夠大大勝過ImageNet上用于自監(jiān)督和半監(jiān)督學(xué)習(xí)的先前的很多SOTA方法。SimCLR學(xué)習(xí)到的基于自監(jiān)督表示訓(xùn)練的線性分類器達(dá)到了76.5%的top-1準(zhǔn)確性,相對(duì)于以前的SOTA水平有7%的相對(duì)提升,與監(jiān)督學(xué)習(xí)的ResNet-50的性能相匹配。當(dāng)僅對(duì)1%的標(biāo)簽進(jìn)行微調(diào)時(shí),本文可以達(dá)到85.8%的top-5精度,而相比AlexNet的標(biāo)簽數(shù)量減少了100倍。 3、《Language Models are Few-Shot Learners》. 論文鏈接:https:///abs/2005.14165 本文證明,通過擴(kuò)大語言模型的參數(shù)規(guī)模,可以極大地提高與任務(wù)無關(guān)的、少樣本學(xué)習(xí)性能,有時(shí)甚至可以與現(xiàn)有的當(dāng)前最佳微調(diào)方法相提并論。 具體來說,我們訓(xùn)練了GPT-3(一個(gè)具有1750億個(gè)參數(shù)的自回歸語言模型,參數(shù)量是以前的任何非稀疏語言模型的10倍),并在少樣本學(xué)習(xí)設(shè)置下測試其性能。 對(duì)于所有任務(wù),GPT-3都可以在不進(jìn)行任何梯度更新或微調(diào)的情況下使用,僅需要通過與模型的文本交互指定任務(wù)和少量演示即可。 GPT-3在許多NLP數(shù)據(jù)集上均具有出色的性能,包括翻譯、問答等任務(wù)。不過,我們還發(fā)現(xiàn)了一些數(shù)據(jù)集,在這些數(shù)據(jù)集上GPT3的少樣本學(xué)習(xí)仍然困難重重。此外,在一些數(shù)據(jù)集上,GPT-3也面臨一些與大型Web語料庫訓(xùn)練有關(guān)的方法論問題。
4、《A Survey of Deep Learning for Scientific Discovery 》. 論文鏈接:https:///abs/2003.11755 在過去的幾年中,我們已經(jīng)看到了機(jī)器學(xué)習(xí)核心問題的根本性突破,這在很大程度上是由深度神經(jīng)網(wǎng)絡(luò)的進(jìn)步所推動(dòng)的。同時(shí),在廣泛的科學(xué)領(lǐng)域中收集的數(shù)據(jù)量在規(guī)模和復(fù)雜性方面都在急劇增加。這為在科學(xué)環(huán)境中進(jìn)行深度學(xué)習(xí)應(yīng)用提供了許多令人感到興奮的機(jī)會(huì)。 但是,一個(gè)重大的挑戰(zhàn)是不同深度學(xué)習(xí)技術(shù)的廣泛性和多樣性使得人們很難確定哪些科學(xué)問題最適合這些方法,或者哪種方法的特定組合可能提供最有希望的第一種方法。 在本次研究調(diào)查中,作者專注于解決這一核心問題,并概述了許多廣泛使用的深度學(xué)習(xí)模型,其中涵蓋了視覺、序列和圖形結(jié)構(gòu)化數(shù)據(jù),關(guān)聯(lián)的任務(wù)和不同的訓(xùn)練方法,以及使用較少數(shù)據(jù)和更好地解釋這些復(fù)雜的模型---許多科學(xué)用例的兩個(gè)主要考慮因素。作者還提供了整個(gè)設(shè)計(jì)過程的概述、實(shí)施技巧,并鏈接了由社區(qū)開發(fā)的大量教程、研究摘要以及開源的深度學(xué)習(xí)pipeline和預(yù)訓(xùn)練的模型。作者希望這項(xiàng)調(diào)查將有助于加速跨學(xué)科領(lǐng)域深度學(xué)習(xí)的使用。 5、《YOLOv4: Optimal Speed and Accuracy of Object Detection》. 論文鏈接:https:///abs/2004.10934 代碼:https://github.com/AlexeyAB/darknet 2002年4月份的某一天,CV圈被YOLOv4刷屏了,之前,YOLO系列(v1-v3)作者 Joe Redmon 宣布不再繼續(xù)CV方向的研究,引起學(xué)術(shù)圈一篇嘩然。 大家一定被文章開頭的圖片吸引了,位于圖中靠右上角的YOLOv4 多么'亮眼',越靠右上角意味著AP越高、速度FPS越快!而且YOLO被大家追捧的原因之一就是:快而準(zhǔn)。YOLOv4 在COCO上,可達(dá)43.5% AP,速度高達(dá) 65 FPS! ![]()
更多內(nèi)容請(qǐng)移步“大神接棒,YOLOv4來了!”一文。 6、《Deep Differential System Stability — Learning advanced computations from examples》. 論文鏈接:https:///abs/2006.06462 神經(jīng)網(wǎng)絡(luò)可以從示例中學(xué)到高級(jí)數(shù)學(xué)計(jì)算嗎?通過在大型生成的數(shù)據(jù)集上使用Transformer,我們訓(xùn)練模型以學(xué)習(xí)差分系統(tǒng)的屬性,例如局部穩(wěn)定性,無窮大行為和可控性。 本文獲得了系統(tǒng)定性特性的近乎完美的估計(jì),以及數(shù)值定量的良好近似值,這表明神經(jīng)網(wǎng)絡(luò)無需內(nèi)置數(shù)學(xué)知識(shí)即可學(xué)習(xí)高級(jí)定理和復(fù)雜的計(jì)算。 7、《AutoML-Zero: Evolving Machine Learning Algorithms From Scratch》. 論文鏈接:https:///abs/2003.03384 機(jī)器學(xué)習(xí)研究已在多個(gè)方面取得了進(jìn)步,包括模型結(jié)構(gòu)和學(xué)習(xí)方法。使此類研究自動(dòng)化的工作(稱為AutoML)也取得了重大進(jìn)展。但是,這一進(jìn)展主要集中在神經(jīng)網(wǎng)絡(luò)的體系架構(gòu)上,在該體系架構(gòu)中,神經(jīng)網(wǎng)絡(luò)依賴于專家設(shè)計(jì)的復(fù)雜層作為構(gòu)建塊(block),或類似的限制性搜索空間。本文的目標(biāo)是證明AutoML可以走得更遠(yuǎn):有可能僅使用基本的數(shù)學(xué)運(yùn)算作為構(gòu)建塊就可以自動(dòng)發(fā)現(xiàn)完整的機(jī)器學(xué)習(xí)算法。 本文通過引入一個(gè)新的框架來證明這一點(diǎn),該框架可以通過通用搜索空間顯著減少人為偏見。 盡管空間很大,但是進(jìn)化搜索仍然可以發(fā)現(xiàn)通過反向傳播訓(xùn)練的兩層神經(jīng)網(wǎng)絡(luò)。然后,接著可以通過直接在感興趣的任務(wù)上來進(jìn)行研究探索,例如雙線性相互作用、歸一化梯度和權(quán)重平均。此外,演化使得算法能適應(yīng)不同的任務(wù)類型:例如,當(dāng)可用數(shù)據(jù)很少時(shí),出現(xiàn)類似于Dropout的技術(shù)。作者相信這些從頭開始發(fā)現(xiàn)機(jī)器學(xué)習(xí)算法的初步成功為該領(lǐng)域指明了一個(gè)有希望的新方向。 8、《Deploying Lifelong Open-Domain Dialogue Learning 》. 論文鏈接:https:///abs/2008.08076 NLP的很多研究都集中在眾包靜態(tài)數(shù)據(jù)集( crowdsourced static datasets)和訓(xùn)練一次然后評(píng)估測試性能的監(jiān)督學(xué)習(xí)范式上。但是如de Vries等人所述,眾包數(shù)據(jù)存在缺乏自然性和與真實(shí)世界用例相關(guān)性的問題,而靜態(tài)數(shù)據(jù)集范式不允許模型從其使用語言的經(jīng)驗(yàn)中學(xué)習(xí)。相反,人們希望機(jī)器學(xué)習(xí)系統(tǒng)在與人互動(dòng)時(shí)變得更加有用。 在這項(xiàng)工作中,作者構(gòu)建并部署了一個(gè)角色扮演游戲,人類玩家可以與位于開放域幻想世界中的學(xué)習(xí) agent交談。本文顯示,通過訓(xùn)練模型來模擬他們?cè)谟螒蛑信c人類的對(duì)話,通過自動(dòng)指標(biāo)和在線參與度評(píng)分可以逐步改善模型。當(dāng)將這種學(xué)習(xí)應(yīng)用于與真實(shí)用戶的對(duì)話時(shí),它比眾包數(shù)據(jù)更有效,并且書籍收集起來要便宜得多。 9、《A Primer in BERTology: What we know about how BERT works》. 論文鏈接:https:///abs/2002.12327 本文是一篇綜述性文章,概述了目前學(xué)術(shù)界對(duì)Bert已取得的150多項(xiàng)研究成果,并且對(duì)后續(xù)的研究也進(jìn)行了展望,適合于初入BERT模型的人員學(xué)習(xí)。本文主要從BERT網(wǎng)絡(luò)結(jié)構(gòu)、BERT embeddings、BERT中的句法知識(shí)(Syntactic knowledge)、語義知識(shí)(Semantic knowledge)和知識(shí)庫(World knowledge)以及Self-attention機(jī)制等角度對(duì)當(dāng)下學(xué)術(shù)界對(duì)BERT的研究進(jìn)行了說明,基于前面的介紹,作者對(duì)BERT是如何訓(xùn)練、當(dāng)模型過于復(fù)雜時(shí)應(yīng)給如何解決等問題給出了相應(yīng)的解決方案。最后作者對(duì)BERT未來的研究方向以及需要解決的問題提出了展望。 10、《Building high accuracy emulators for scientific simulations with deep neural architecture search 》. 論文鏈接:https:///abs/2001.08055 計(jì)算機(jī)仿真(模擬)是進(jìn)行科學(xué)發(fā)現(xiàn)的寶貴工具。但是,精確的仿真通常執(zhí)行起來很慢,這限制了它們?cè)趶V泛的參數(shù)探索、大規(guī)模數(shù)據(jù)分析和不確定性量化中的適用性。通過構(gòu)建具有機(jī)器學(xué)習(xí)功能的快速仿真器來加速仿真的一種有希望的途徑,但是這需要大量的訓(xùn)練數(shù)據(jù)集,而對(duì)于低速仿真而言,獲得龐大的訓(xùn)練數(shù)據(jù)集可能會(huì)非常昂貴。 在這里,本文提出了一種基于神經(jīng)體系架構(gòu)搜索的方法,即使在訓(xùn)練數(shù)據(jù)數(shù)量有限的情況下,也可以構(gòu)建準(zhǔn)確的仿真器。 該方法使用相同的超級(jí)體系架構(gòu)、算法和超參數(shù),成功地將10個(gè)科學(xué)案例的模擬仿真速度提高了20億倍,這些案例包括天體物理學(xué)、氣候科學(xué)、生物地球化學(xué)、高能物理學(xué)等等。 本文的方法還固有地提供了仿真器不確定性估計(jì),我們預(yù)計(jì)這項(xiàng)工作將加速涉及昂貴仿真的研究,允許研究人員進(jìn)行更廣泛的參數(shù)探索,并實(shí)現(xiàn)以前無法實(shí)現(xiàn)的新計(jì)算發(fā)現(xiàn)。 下載1:四件套 |
|