你在面試中會遇到的那種算法題,AI已經(jīng)能自己解決了,比如下面這道題:
AI給出的Python答案是這樣的: 除了排序沒用counts.sort(reverse = True)讓人看著血壓升高,算是順利通過測試: 來自UC伯克利的研究團(tuán)隊(duì),將上面這道題被歸為“面試級”難度(看來國外程序員面試題有點(diǎn)簡單)。 此外還有更簡單的“入門級”和更難的“競賽級”,總共5000道題的測試中,AI能做出15%。 另外有人聲稱,他專門用GPT-2訓(xùn)練了個專門做LeetCode的AI,能完成80%。 在刷LeetCode的你,是否在顫抖? GPT-Neo贏過GPT-3本研究使用的題目形式是自然語言題干,不同于以往研究常用的偽代碼和代碼之間翻譯。 題目是從Codeforces、Kattis等刷題網(wǎng)站收集的10000道題,5000道用于訓(xùn)練,另外5000道作為測試集。 題干的平均長度為293.2個單詞,在測試集中每道題平均有21.2個測試用例。 入門級難度的題不需要復(fù)雜算法,有1-2年經(jīng)驗(yàn)的程序員都能回答的那種,有3639個。 面試級難度的題會涉及數(shù)據(jù)結(jié)構(gòu),比如樹或者圖,或需要修改常見的算法,有5000個。 剩下的是競賽級難度,達(dá)到USACO、IOI和ACM等競賽的水平。 研究人員分別訓(xùn)練了GPT-2的1億參數(shù)版和15億參數(shù)版、GPT-3以及“高仿版”GPT-Neo。 參數(shù)規(guī)?!爸挥小?strong>27億的GPT-Neo和更低的GPT-2在測試用例通過率上,表現(xiàn)卻比1750億的GPT-3還要好。 在嚴(yán)格模式下,通過所有測試用例才算完全正確,成績最好的GPT-Neo只通過了1.12%,不過這也有56道題了(反正比我強(qiáng))。 GPT-Neo來自EleutherAI團(tuán)隊(duì)嘗試復(fù)現(xiàn)GPT的開源項(xiàng)目。 雖然參數(shù)規(guī)模比GPT-3小得多,但訓(xùn)練數(shù)據(jù)包含了更多技術(shù)網(wǎng)站,比如Stack OverFlow和Stack Exchange等,這可能是它在代碼生成上勝出的原因之一。 至于GPT-3為什么表現(xiàn)還不如GPT-2,有人猜測可能是它見過的文本太多,雖然擅長生成自然語言,但在邏輯和解題方面過擬合了。 如何評價AI“做題家”論文一發(fā)出來,吃瓜群眾腦洞大開。
有人回答他:
還有很多人給出下一步建議,比如不用自回歸的GPT,改用自編碼語言模型會怎樣?比如CodeTrans。 或者,再用一個GPT專門生成自己回答不出來的問題。 △矛盾相爭是吧樂觀的人認(rèn)為這是解放了人的創(chuàng)造力,未來編程是關(guān)于寫更少的代碼,做更多的架構(gòu)、工程。 有人暢想,只需要描述需求就能生成代碼可太爽了。
△Ruby on Rails直呼內(nèi)行悲觀的人卻認(rèn)為,將來有一天,人類程序員只能做做維護(hù)工作和評審機(jī)器生成的代碼了。 ![]() |
|