20萬張GPU！馬斯克掏出「地表最強」大模型Grok-3，排行榜登頂，復仇OpenAI

細雨青衫 2025-03-10

展開全文

機器之心報道

機器之心編輯部

帶點特斯拉、SpaceX 基因，工程能力很強。

馬斯克 xAI 的最新旗艦大模型 Grok3 終于現(xiàn)身了！

中午 12 點，所有人都在馬斯克的直播預告中開始了等待。

在等到 20 分鐘、線上觀看人數(shù)達到 100 萬時，直播終于開始，馬斯克也出席了。直播主題為「我們的使命是理解整個宇宙」。

根據(jù)工程師們介紹，準確地說，Grok 3 是一個系列，不只是某一個模型。Grok 3 的輕量版本 Grok 3 mini 可以更快地回答問題，但會犧牲一些準確性。目前并非所有型號都已上線，但會從今天開始陸續(xù)推出。

馬斯克則直接表示：Grok 3 比 Grok 2 「好 10 倍」，并且擁有擴展的訓練數(shù)據(jù)集。

另外，原定要發(fā)布的語音模式延期了，但也不會等太久，一周左右就行。

不過現(xiàn)在的大模型，總會在聚光等下被人仔細檢查。xAI 一直在使用位于孟菲斯的一個巨大的數(shù)據(jù)中心 —— 一個包含大約 20 萬塊 GPU 的數(shù)據(jù)中心來訓練 Grok 3。

這個數(shù)據(jù)中心建造的速度極快，只用了 122 天，二期還將增加到 20 萬塊 GPU。

Grok 3 發(fā)布后有人就第一時間指出：它消耗的算力是 DeepSeek V3 的 263 倍。不知道這個計算是否準確？

看來 Grok 3 主打一個力大磚飛，我們來看下基準測試的成績吧。

在 Math（AIME 24）、Science（GPQA）和 Coding（LCB Oct-Feb）三方面，Grok-3 大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。這些被用來對比的模型的性能與 Grok-3 mini 相近。

在大模型競技場 Chatbot Arena（LMSYS）中，早期 Grok-3 版本的得分取得了第一，達到 1402 分，超過了包括 DeepSeek-R1 在內(nèi)的所有其他模型。Grok-3 也成為有史以來首個突破 1400 分的模型。

下圖展示了 Grok-3 和其他模型在編程、數(shù)學、創(chuàng)意寫作、指令遵循、長查詢、多輪對話等場景中的排名情況?？梢钥吹剑珿rok-3 在每個維度上都排第一。

比如，在編碼任務中，Grok-3 超過了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

在 Grok-3 發(fā)布不久，AI 大牛 Andrej Karpathy 曬出了自己的「早鳥」體驗。他的初步感覺概括如下：

Grok-3 + Thinking 的水平接近 OpenAI 最強模型（每月 200 美元的 o1-pro）的最先進水平，略優(yōu)于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Grok-3 會嘗試解決黎曼猜想，這一點和 DeepSeek-R1 類似，不像其他許多模型（o1-pro、Claude、Gemini 2.0 Flash Thinking）立即放棄并簡單地說這是一個重要的未解問題。
DeepSearch 大約在 Perplexity DeepResearch 產(chǎn)品的水平，但還沒有達到 OpenAI 最近發(fā)布的「Deep Research」的水平，后者感覺更加徹底和可靠。

推理能力一騎絕塵

超越 o3 mini、R1 等所有對手

與此同時，Grok-3 支持推理能力，解鎖了測試時計算（test-time compute）能力。這意味著競爭激烈的推理模型市場又迎來了一個強勁對手。

Grok-3 的推理基準測試結(jié)果也說明了這一點，它分為了兩個版本，分別是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。

當使用更多測試時間計算時（圖中延長部分），其中在數(shù)學（AIME’24）、科學（GPQA）和編碼（LCB Oct-Feb）數(shù)據(jù)集上，Grok-3 的「推理 + 測試時計算」表現(xiàn)均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一眾推理模型。

在 AIME 2025 數(shù)學競賽中，Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同樣霸占了前兩名，大幅超越了其他推理模型。

Grok-3 的用戶界面如下所示，我們可以看到它的思考（Think）模式。

在實際使用過程中，像其他推理模型一樣，Grok-3 可以展示完整的思考過程以及思考時長。

不僅如此，Grok-3 還支持了「Big Brain」模式，使用更多算力來解決問題，進行更深度的思考。

Grok-3 能做到的超乎你的想象，比如「生成從地球發(fā)射、著陸火星然后在下一個發(fā)射窗口返回地球的 3D 動圖的代碼。」

再比如「使用 pygame 制作一款混合俄羅斯方塊（Tetris）和寶石方塊（Bejeweled）的游戲，代碼可以很長，效果要炫酷」：

從演示來看，Grok-3 各項能力都在線的。

下一代智能體——DeepSearch 問世

Grok-3 還具備了強大的智能體能力，通過深度搜索（DeepSearch）來進行深入研究、頭腦風暴、分析數(shù)據(jù)、生成圖像、編寫和調(diào)試代碼。

可以說，DeepSearch 對標了此前 OpenAI 推出的深度搜索 Deep Research，后者通過聯(lián)網(wǎng)可以在幾十分鐘內(nèi)完成人類專家數(shù)小時才能完成得復雜研究任務。

我們可以看以下幾個示例，Grok-3 在 DeepSearch 模式下可以聯(lián)網(wǎng)進行更深入的搜索，過程中也調(diào)用了思考能力。并且，搜索本身所需要的步驟也展示了出來。

在下面這個示例中，讓 Grok-3「對瘋狂的三月比賽做出一個完整的預測」（create a full march madness bracket prediction）。

最后是訂閱和定價的相關(guān)信息：

X Premium+ 訂閱用戶將首先獲得 Grok 3，其他功能需要訂閱 xAI 稱之為 SuperGrok 的版本。

SuperGrok 的價格為每月 30 美元或每年 300 美元，可解鎖更多推理和 DeepSearch 查詢，并提供無限的圖像生成。

發(fā)布完之后，團隊還根據(jù)網(wǎng)友提問進行了簡單的問答。

其中提到，xAI 將會發(fā)布一個 Grok 驅(qū)動的語音應用（大約將在一周后發(fā)布）。并且，用戶在與其進行語音對話時，模型會保留一些與用戶的對話記憶。

此外，馬斯克還重申了 xAI 的開源原則，即發(fā)布了最新版的模型之后便會開源前一版本的模型。他表示在發(fā)布了 Grok 3 穩(wěn)定版之后就會開源 Grok 2（可能還需要等待幾個月時間）。這一點看來不如開源之光 DeepSeek。

馬斯克曾發(fā)推說明 xAI 的開源原則：發(fā)布新一代模型時開源上一代模型。

最終，發(fā)布會在一個 xAI 語音模式演示視頻中落下帷幕。

之后，馬斯克發(fā)推暗示自己的公司將贏得與 OpenAI 的技術(shù)競爭，因為 xAI 的創(chuàng)新速率有更高的一階和二階導數(shù)。

對于馬斯克今日的發(fā)布，你怎么看？

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：細雨青衫 > 《AI》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

細雨青衫

關(guān)注對話

TA的最新館藏

中國最早的長江鐵橋設計圖
大家講堂 | 檔案修復知識講座（2）：第二講檔案修復修裱原則
大家講堂 | 檔案修復知識講座（1）：第一講檔案修復相關(guān)名詞解釋
大家講堂 | 檔案修復知識講座（3）：第三講修復設備工具介紹
[轉(zhuǎn)] 解讀人工智能、大數(shù)據(jù)和云計算的關(guān)系，大佬們賭AI竟都輸了？
實探湖南花炮廠爆炸現(xiàn)場：仍有爆燃，村民焦急等待失聯(lián)家屬消息

喜歡該文的人也喜歡更多

熱門閱讀換一換

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

20萬張GPU！馬斯克掏出「地表最強」大模型Grok-3，排行榜登頂，復仇OpenAI

20萬張GPU！馬斯克掏出「地表最強」大模型Grok-3，排行榜登頂，復仇OpenAI