乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

       xianfengdui111 2025-06-07 發(fā)布于河北
      新智元
      新智元
      2025-06-07 16:30優(yōu)質(zhì)科技領(lǐng)域創(chuàng)作者

      編輯:Aeneas 好困

      【新智元導(dǎo)讀】最近,30位世界頂尖數(shù)學(xué)家親自出馬,在UC伯克利對(duì)OpenAI o4-mini展開「圍剿」,兩天連出教授級(jí)難題,結(jié)果卻當(dāng)場(chǎng)集體「破防」!有人直言:這個(gè)AI,的確已接近數(shù)學(xué)天才的水平。曾經(jīng)以為AGI遙遙無期,如今仿佛只剩臨門一腳了……

      AI做數(shù)學(xué),到底有多強(qiáng)?

      就在最近,30位世界著名數(shù)學(xué)家齊聚UC伯克利,希望在一次秘密數(shù)學(xué)會(huì)議上超越AI。

      在連續(xù)兩天用教授級(jí)難題轟炸這個(gè)AI后,研究者們驚愕地發(fā)現(xiàn),它居然能解除一部分這世界上最難的可解問題!

      其中一位數(shù)學(xué)家當(dāng)場(chǎng)折服,直言這些模型已經(jīng)接近了數(shù)學(xué)天才的水平。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才
      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      頂尖數(shù)學(xué)家們,服了

      在五月中旬的一個(gè)周末,一場(chǎng)秘密數(shù)學(xué)峰會(huì)悄然召開。

      三十位全球頂尖數(shù)學(xué)家與一個(gè)推理聊天機(jī)器人展開對(duì)決,后者需要解答專家們專門設(shè)計(jì)的難題。

      結(jié)果如開頭所見,數(shù)學(xué)家們徹底服了。

      本次參賽的這個(gè)機(jī)器人,背后就是OpenAI的o4-mini,它已經(jīng)能進(jìn)行極其復(fù)雜的推理。

      當(dāng)然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具備相似的能力。

      為什么o4-mini做起數(shù)學(xué)題來,能這么強(qiáng)?

      這是因?yàn)?,它是基于專門的數(shù)據(jù)集訓(xùn)練,并獲得了更強(qiáng)的RLHF。這種方法,就能讓它比傳統(tǒng)的LLM更深入地鉆研復(fù)雜數(shù)學(xué)問題。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      Epoch AI,尋根問底

      而訓(xùn)出o4-mini后,OpenAI也一直十分關(guān)注它的解題能力。

      為了追蹤o4-mini的進(jìn)展,OpenAI此前曾委托非營利組織Epoch AI設(shè)計(jì)300道解法尚未公開的數(shù)學(xué)題,專門來考驗(yàn)大模型。

      這些題的亮點(diǎn)就在于,因?yàn)榻夥ú⑽磫柺?,就絕不可能存在于訓(xùn)練數(shù)據(jù)中。

      果然,當(dāng)Epoch AI用這些與訓(xùn)練數(shù)據(jù)截然不同的問題去測(cè)試幾款推理模型時(shí),它們幾乎全部翻車了。

      即使表現(xiàn)最好的模型,解出率也不到2%。

      LLM做數(shù)學(xué),真的不行么?Epoch AI沒有放棄探索。

      2024年9月,Epoch AI 聘請(qǐng)了剛獲得數(shù)學(xué)博士學(xué)位的Elliot Glazer,參與到一個(gè)代號(hào)為FrontierMath的全新新基準(zhǔn)測(cè)試項(xiàng)目中。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      這個(gè)項(xiàng)目的目的,就是收集不同難度登機(jī)的全新數(shù)學(xué)題。其中,T1-T3分別覆蓋本科、研究生及研究級(jí)別的挑戰(zhàn)。

      結(jié)果,o4-mini讓人刮目相看。

      到2025年2月,Glazer發(fā)現(xiàn),o4-mini竟然能解出約20%的題目!

      接著就在今年5月,Epoch AI還舉辦過一場(chǎng)競(jìng)賽,邀請(qǐng)了約40位數(shù)學(xué)精英,分成8組,每組由學(xué)科專家和優(yōu)秀本科生組成。

      他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上,展開終極對(duì)決。

      比賽一共23題,限時(shí)4.5小時(shí),實(shí)驗(yàn)最終得出:

      o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。

      不過,o4-mini能夠解決的問題,至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此,人類團(tuán)隊(duì)總體上解決了約35%的題目。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      結(jié)果顯示,o4-mini一共擊敗六組團(tuán)隊(duì),在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      T4級(jí)測(cè)試,開始

      隨后,他開始著手進(jìn)行第四等級(jí)的測(cè)試——這次,要找出100道即使對(duì)專業(yè)數(shù)學(xué)家也極具挑戰(zhàn)性的難題。

      放眼全球,能提出這種問題的人寥寥無幾,更不用說給出解答了。

      為此,他要求了全球頂尖的數(shù)學(xué)家,要求他們必須簽署保密協(xié)議,甚至只能通過加密通訊應(yīng)用Signal交流。

      因?yàn)樗麚?dān)心,如果用電子郵件這類傳統(tǒng)的聯(lián)絡(luò)方式,有可能就會(huì)被LLM掃描到,無意中成為訓(xùn)練數(shù)據(jù),從而污染整個(gè)測(cè)試數(shù)據(jù)集。

      由于采用的方式格外嚴(yán)謹(jǐn),起初項(xiàng)目的進(jìn)展十分緩慢。

      為了加快進(jìn)度,Glazer推動(dòng)Epoch AI 在5月17日(周六)和18日(周日)這兩天,舉辦了這場(chǎng)線下會(huì)議。

      在會(huì)上,數(shù)學(xué)家們將敲定最后一批最高階的數(shù)學(xué)難題。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      絞盡腦汁,誓要難倒AI

      弗吉尼亞大學(xué)數(shù)學(xué)家、會(huì)議領(lǐng)導(dǎo)者兼評(píng)委Ken Ono將30名與會(huì)者分為六人一組。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      在為期兩天的會(huì)議中,這些頂尖學(xué)者需要相互比拼,看誰能設(shè)計(jì)出自己能解、卻又能難倒 AI推理機(jī)器人的題目。

      這個(gè)項(xiàng)目的獎(jiǎng)勵(lì),也是十分誘人。

      o4-mini每解不出一道題,該題的出題人便能獲得7500美元的獎(jiǎng)勵(lì)。

      結(jié)果誰都沒想到,o4-mini給了數(shù)學(xué)家們致命一擊!

      在周六深夜,全場(chǎng)數(shù)學(xué)家,都感覺十分挫敗——o4-mini出人意料的數(shù)學(xué)天賦,直接讓整個(gè)小組的努力付諸東流。

      Ono出了一道題,是他專業(yè)領(lǐng)域內(nèi)的專家都公認(rèn)的數(shù)論開放性問題,可以說是一道非常不錯(cuò)的考題,已經(jīng)達(dá)到了博士生的水平。

      他充滿信心地把這道題給了o4-mini,結(jié)果在接下來的十分鐘里,他直接遭受了暴擊!

      只見o4-mini如行云流水一般,實(shí)時(shí)演算出了完整的解法,還同步展示出了自己的推理過程。

      它先花了兩分鐘,檢索并吃透了相關(guān)領(lǐng)域的文獻(xiàn),然后在屏幕上寫道,為了學(xué)習(xí),它想先嘗試一個(gè)簡(jiǎn)化的「玩具」版本。

      幾分鐘后,它寫道,自己已準(zhǔn)備好解決那個(gè)更難的原題。

      又過了五分鐘,o4-mini 給出了一個(gè)正確卻又俏皮得意的解答。

      Ono描述道:它開始變得得意洋洋,甚至還加上一句,「無需引用,因?yàn)檫@個(gè)神秘?cái)?shù)字由我算出!」

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      數(shù)學(xué)家大受打擊:我以為AGI永遠(yuǎn)不會(huì)到來

      大受打擊的Ono在周日一大早就趕緊登上Signal,向所有與會(huì)者通報(bào)了情況。

      我完全沒料到,要跟這樣的LLM交手,也從未在模型中見過如此強(qiáng)大的推理能力。這分明是科學(xué)家的工作方式。這太可怕了。

      最終,團(tuán)隊(duì)還是成功找到了10道難倒機(jī)器人的題,但AI的驚人能力,仍然讓所有研究人員驚嘆不已。

      Ono感覺,與它共事就好像與一位「強(qiáng)大的合作者」協(xié)作。

      倫敦?cái)?shù)學(xué)科學(xué)研究所的數(shù)學(xué)家、AI數(shù)學(xué)應(yīng)用先驅(qū)之一的Yang Hui He說:「這是一個(gè)頂尖優(yōu)秀的研究生才能做到的事——不,實(shí)際上它做得更多。」

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      而且,o4-mini的速度也令人驚異。它遠(yuǎn)遠(yuǎn)超越了專業(yè)的數(shù)學(xué)家,人類專家需要數(shù)周甚至數(shù)月才能完成的工作,它只需要幾分鐘。

      不僅如此,這次o4-mini的進(jìn)步,也給人類敲響了警鐘。

      Ono和He都擔(dān)心,o4-mini給出的結(jié)果可能會(huì)被人們過度信賴。

      「證明方法有歸納法、反證法,現(xiàn)在又多了個(gè)恐嚇法。」Yang Hui He說。

      「當(dāng)某人用足夠權(quán)威的口吻說話時(shí),人們會(huì)感到敬畏。我認(rèn)為o4-mini已經(jīng)掌握了恐嚇式證明的精髓,因?yàn)樗f每句話時(shí)都帶著不容置疑的自信?!?/span>

      會(huì)議臨近結(jié)束時(shí),整個(gè)團(tuán)隊(duì)也開始思考,數(shù)學(xué)家的未來將何去何從。

      討論轉(zhuǎn)向了那個(gè)無法回避的T5——那些連最頂尖的數(shù)學(xué)家也無法解決的問題。

      如果最終,AI達(dá)到了那個(gè)層次,那么顯然,數(shù)學(xué)家的角色將經(jīng)歷劇變。

      到那時(shí),數(shù)學(xué)家或許將轉(zhuǎn)向只負(fù)責(zé)提出問題,并與推理機(jī)器人互動(dòng),引導(dǎo)它們發(fā)現(xiàn)新的數(shù)學(xué)真理,就像教授指導(dǎo)研究生一樣。

      因此,Ono預(yù)測(cè),在高等教育中培養(yǎng)創(chuàng)造力,將是讓數(shù)學(xué)這門學(xué)科薪火相傳的關(guān)鍵。

      「我一直告訴我的同事們,那種認(rèn)為AGI永遠(yuǎn)不會(huì)到來,認(rèn)為它不過是臺(tái)計(jì)算機(jī)的想法,是大錯(cuò)特錯(cuò)的?!筄no說。

      「我不想渲染恐慌,但在許多方面,這些LLM已經(jīng)超越了我們世界上絕大多數(shù)最優(yōu)秀的研究生。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      陶哲軒:早就知道了

      其實(shí)AI做數(shù)學(xué)研究的這種超絕能力,陶哲軒早就心知肚明了。

      最近,他一直在社交平臺(tái)上做出密集分享,給我們匯報(bào)AI解數(shù)學(xué)題的驚人進(jìn)展。

      比如就在幾天前,他剛剛分享了這個(gè)消息。

      一道封塵18年的數(shù)學(xué)難題,在短短30天內(nèi)被AlphaEvolve與人類聯(lián)手三度突破!

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      6月2日,F(xiàn)an Zheng在arXiv亮出的最新論文——又又又一次把和差集指數(shù)θ紀(jì)錄往上推了0.000027,從1.173050提升到了1.173077。

      0.000027——一個(gè)在顯微鏡下才分辨得出的跨度,卻把加法組合學(xué)的天花板又往上頂了一寸。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      論文地址:https:///abs/2506.01896

      如此迅速、連續(xù)的取得進(jìn)展,都離不開數(shù)學(xué)家與AI(AlphaEvolve)的相互配合。

      這種突破讓陶哲軒都驚嘆:「對(duì)我而言,這是一個(gè)引人入勝的例證?!?/span>

      陶哲軒認(rèn)為,這展示了未來的數(shù)學(xué)研究中,高度計(jì)算機(jī)輔助、中度計(jì)算機(jī)輔助與傳統(tǒng)「紙筆」方法之間將如何相互作用。

      這些范式各有優(yōu)劣。

      例如,當(dāng)前的AlphaEvolve還極難用上后續(xù)論文中使用的漸近構(gòu)造;但另一方面,若沒有AlphaEvolve的暴力搜索,人類方法也很難發(fā)現(xiàn)這些改進(jìn)的切入點(diǎn)。

      而在上個(gè)月,陶哲軒還剛剛聯(lián)手AI,挑戰(zhàn)了分析學(xué)經(jīng)典中的「ε-δ」極限問題。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      GitHub Copilot在幫助新手入門和處理基礎(chǔ)任務(wù)時(shí)表現(xiàn)得相當(dāng)不錯(cuò)。

      它能幫助用戶快速上手Lean語言,提供語法提示,并智能補(bǔ)全基本定義和聲明。

      在比較簡(jiǎn)單的證明,比如函數(shù)極限的和定理中,Copilot還能準(zhǔn)確預(yù)測(cè)證明結(jié)構(gòu)和關(guān)鍵步驟,表現(xiàn)得就像個(gè)得力助手一樣。

      但當(dāng)證明變得復(fù)雜時(shí),Copilot的短板就暴露出來了。

      比如在處理函數(shù)極限的差和積定理時(shí),它在復(fù)雜的代數(shù)推導(dǎo)、尋找合適的數(shù)學(xué)引理(比如與絕對(duì)值相關(guān)的引理)等方面顯得力不從心。

      Copilot有時(shí)還會(huì)出現(xiàn)「幻覺」,生成壓根不存在的策略,或者犯一些低級(jí)錯(cuò)誤,導(dǎo)致證明過程亂成一團(tuán)。

      這時(shí),陶哲軒不得不親自出馬,修正錯(cuò)誤,甚至完全接管證明。

      全球30名頂尖數(shù)學(xué)家秘密集會(huì)圍剿AI當(dāng)場(chǎng)破防!驚呼已接近數(shù)學(xué)天才

      但總之,現(xiàn)在LLM的發(fā)展,已經(jīng)讓我們愈發(fā)接近曾經(jīng)陶哲軒的那個(gè)預(yù)言了——

      在2026年,AI將與搜索和符號(hào)數(shù)學(xué)工具相結(jié)合,成為數(shù)學(xué)研究中值得信賴的合著者。

      參考資料:

      https://www./article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多