乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      20萬張GPU!馬斯克掏出「地表最強」大模型Grok-3,排行榜登頂,復仇OpenAI

       細雨青衫 2025-03-10

      機器之心報道

      機器之心編輯部

      帶點特斯拉、SpaceX 基因,工程能力很強。

      馬斯克 xAI 的最新旗艦大模型 Grok3 終于現(xiàn)身了!

      中午 12 點,所有人都在馬斯克的直播預告中開始了等待。

      圖片

      在等到 20 分鐘、線上觀看人數(shù)達到 100 萬時,直播終于開始,馬斯克也出席了。直播主題為「我們的使命是理解整個宇宙」。

      圖片

      根據(jù)工程師們介紹,準確地說,Grok 3 是一個系列,不只是某一個模型。Grok 3 的輕量版本 Grok 3 mini 可以更快地回答問題,但會犧牲一些準確性。目前并非所有型號都已上線,但會從今天開始陸續(xù)推出。

      馬斯克則直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且擁有擴展的訓練數(shù)據(jù)集。

      圖片

      另外,原定要發(fā)布的語音模式延期了,但也不會等太久,一周左右就行。

      圖片

      不過現(xiàn)在的大模型,總會在聚光等下被人仔細檢查。xAI 一直在使用位于孟菲斯的一個巨大的數(shù)據(jù)中心 —— 一個包含大約 20 萬塊 GPU 的數(shù)據(jù)中心來訓練 Grok 3。

      圖片
      這個數(shù)據(jù)中心建造的速度極快,只用了 122 天,二期還將增加到 20 萬塊 GPU。

      Grok 3 發(fā)布后有人就第一時間指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道這個計算是否準確?

      圖片

      看來 Grok 3 主打一個力大磚飛,我們來看下基準測試的成績吧。

      在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。這些被用來對比的模型的性能與 Grok-3 mini 相近。

      圖片

      在大模型競技場 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,達到 1402 分,超過了包括 DeepSeek-R1 在內(nèi)的所有其他模型。Grok-3 也成為有史以來首個突破 1400 分的模型。

      圖片

      下圖展示了 Grok-3 和其他模型在編程、數(shù)學、創(chuàng)意寫作、指令遵循、長查詢、多輪對話等場景中的排名情況??梢钥吹剑珿rok-3 在每個維度上都排第一。

      圖片

      比如,在編碼任務中,Grok-3 超過了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

      圖片

      在 Grok-3 發(fā)布不久,AI 大牛 Andrej Karpathy 曬出了自己的「早鳥」體驗。他的初步感覺概括如下:

      • Grok-3 + Thinking 的水平接近 OpenAI 最強模型(每月 200 美元的 o1-pro)的最先進水平,略優(yōu)于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
      • Grok-3 會嘗試解決黎曼猜想,這一點和 DeepSeek-R1 類似,不像其他許多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放棄并簡單地說這是一個重要的未解問題。 
      • DeepSearch 大約在 Perplexity DeepResearch 產(chǎn)品的水平,但還沒有達到 OpenAI 最近發(fā)布的「Deep Research」的水平,后者感覺更加徹底和可靠。

      圖片

      推理能力一騎絕塵
      超越 o3 mini、R1 等所有對手

      與此同時,Grok-3 支持推理能力,解鎖了測試時計算(test-time compute)能力。這意味著競爭激烈的推理模型市場又迎來了一個強勁對手。

      圖片

      Grok-3 的推理基準測試結(jié)果也說明了這一點,它分為了兩個版本,分別是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。

      當使用更多測試時間計算時(圖中延長部分),其中在數(shù)學(AIME’24)、科學(GPQA)和編碼(LCB Oct-Feb)數(shù)據(jù)集上,Grok-3 的「推理 + 測試時計算」表現(xiàn)均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一眾推理模型。

      圖片

      在 AIME 2025 數(shù)學競賽中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同樣霸占了前兩名,大幅超越了其他推理模型。

      圖片

      Grok-3 的用戶界面如下所示,我們可以看到它的思考(Think)模式。

      圖片

      在實際使用過程中,像其他推理模型一樣,Grok-3 可以展示完整的思考過程以及思考時長。

      圖片

      不僅如此,Grok-3 還支持了「Big Brain」模式,使用更多算力來解決問題,進行更深度的思考。

      圖片

      Grok-3 能做到的超乎你的想象,比如「生成從地球發(fā)射、著陸火星然后在下一個發(fā)射窗口返回地球的 3D 動圖的代碼。」

      圖片

      圖片

      再比如「使用 pygame 制作一款混合俄羅斯方塊(Tetris)和寶石方塊(Bejeweled)的游戲,代碼可以很長,效果要炫酷」:

      圖片

      圖片

      從演示來看,Grok-3 各項能力都在線的。

      下一代智能體——DeepSearch 問世

      Grok-3 還具備了強大的智能體能力,通過深度搜索(DeepSearch)來進行深入研究、頭腦風暴、分析數(shù)據(jù)、生成圖像、編寫和調(diào)試代碼。

      可以說,DeepSearch 對標了此前 OpenAI 推出的深度搜索 Deep Research,后者通過聯(lián)網(wǎng)可以在幾十分鐘內(nèi)完成人類專家數(shù)小時才能完成得復雜研究任務。

      圖片

      我們可以看以下幾個示例,Grok-3 在 DeepSearch 模式下可以聯(lián)網(wǎng)進行更深入的搜索,過程中也調(diào)用了思考能力。并且,搜索本身所需要的步驟也展示了出來。

      圖片

      在下面這個示例中,讓 Grok-3「對瘋狂的三月比賽做出一個完整的預測」(create a full march madness bracket prediction)。

      圖片

      最后是訂閱和定價的相關(guān)信息:

      X Premium+ 訂閱用戶將首先獲得 Grok 3,其他功能需要訂閱 xAI 稱之為 SuperGrok 的版本。

      圖片

      SuperGrok 的價格為每月 30 美元或每年 300 美元,可解鎖更多推理和 DeepSearch 查詢,并提供無限的圖像生成。

      圖片

      發(fā)布完之后,團隊還根據(jù)網(wǎng)友提問進行了簡單的問答。

      其中提到,xAI 將會發(fā)布一個 Grok 驅(qū)動的語音應用(大約將在一周后發(fā)布)。并且,用戶在與其進行語音對話時,模型會保留一些與用戶的對話記憶。

      此外,馬斯克還重申了 xAI 的開源原則,即發(fā)布了最新版的模型之后便會開源前一版本的模型。他表示在發(fā)布了 Grok 3 穩(wěn)定版之后就會開源 Grok 2(可能還需要等待幾個月時間)。這一點看來不如開源之光 DeepSeek。

      圖片
      馬斯克曾發(fā)推說明 xAI 的開源原則:發(fā)布新一代模型時開源上一代模型。

      最終,發(fā)布會在一個 xAI 語音模式演示視頻中落下帷幕。


      之后,馬斯克發(fā)推暗示自己的公司將贏得與 OpenAI 的技術(shù)競爭,因為 xAI 的創(chuàng)新速率有更高的一階和二階導數(shù)。

      圖片

      圖片

      對于馬斯克今日的發(fā)布,你怎么看?

        本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多