馬斯克 xAI 的最新旗艦大模型 Grok3 終于現(xiàn)身了! 中午 12 點,所有人都在馬斯克的直播預告中開始了等待。 在等到 20 分鐘、線上觀看人數(shù)達到 100 萬時,直播終于開始,馬斯克也出席了。直播主題為「我們的使命是理解整個宇宙」。根據(jù)工程師們介紹,準確地說,Grok 3 是一個系列,不只是某一個模型。Grok 3 的輕量版本 Grok 3 mini 可以更快地回答問題,但會犧牲一些準確性。目前并非所有型號都已上線,但會從今天開始陸續(xù)推出。馬斯克則直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且擁有擴展的訓練數(shù)據(jù)集。另外,原定要發(fā)布的語音模式延期了,但也不會等太久,一周左右就行。不過現(xiàn)在的大模型,總會在聚光等下被人仔細檢查。xAI 一直在使用位于孟菲斯的一個巨大的數(shù)據(jù)中心 —— 一個包含大約 20 萬塊 GPU 的數(shù)據(jù)中心來訓練 Grok 3。這個數(shù)據(jù)中心建造的速度極快,只用了 122 天,二期還將增加到 20 萬塊 GPU。Grok 3 發(fā)布后有人就第一時間指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道這個計算是否準確?看來 Grok 3 主打一個力大磚飛,我們來看下基準測試的成績吧。在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。這些被用來對比的模型的性能與 Grok-3 mini 相近。在大模型競技場 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,達到 1402 分,超過了包括 DeepSeek-R1 在內(nèi)的所有其他模型。Grok-3 也成為有史以來首個突破 1400 分的模型。下圖展示了 Grok-3 和其他模型在編程、數(shù)學、創(chuàng)意寫作、指令遵循、長查詢、多輪對話等場景中的排名情況??梢钥吹剑珿rok-3 在每個維度上都排第一。比如,在編碼任務中,Grok-3 超過了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。在 Grok-3 發(fā)布不久,AI 大牛 Andrej Karpathy 曬出了自己的「早鳥」體驗。他的初步感覺概括如下:- Grok-3 + Thinking 的水平接近 OpenAI 最強模型(每月 200 美元的 o1-pro)的最先進水平,略優(yōu)于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
- Grok-3 會嘗試解決黎曼猜想,這一點和 DeepSeek-R1 類似,不像其他許多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放棄并簡單地說這是一個重要的未解問題。
- DeepSearch 大約在 Perplexity DeepResearch 產(chǎn)品的水平,但還沒有達到 OpenAI 最近發(fā)布的「Deep Research」的水平,后者感覺更加徹底和可靠。
與此同時,Grok-3 支持推理能力,解鎖了測試時計算(test-time compute)能力。這意味著競爭激烈的推理模型市場又迎來了一個強勁對手。Grok-3 的推理基準測試結(jié)果也說明了這一點,它分為了兩個版本,分別是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。當使用更多測試時間計算時(圖中延長部分),其中在數(shù)學(AIME’24)、科學(GPQA)和編碼(LCB Oct-Feb)數(shù)據(jù)集上,Grok-3 的「推理 + 測試時計算」表現(xiàn)均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一眾推理模型。在 AIME 2025 數(shù)學競賽中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同樣霸占了前兩名,大幅超越了其他推理模型。Grok-3 的用戶界面如下所示,我們可以看到它的思考(Think)模式。在實際使用過程中,像其他推理模型一樣,Grok-3 可以展示完整的思考過程以及思考時長。不僅如此,Grok-3 還支持了「Big Brain」模式,使用更多算力來解決問題,進行更深度的思考。Grok-3 能做到的超乎你的想象,比如「生成從地球發(fā)射、著陸火星然后在下一個發(fā)射窗口返回地球的 3D 動圖的代碼。」再比如「使用 pygame 制作一款混合俄羅斯方塊(Tetris)和寶石方塊(Bejeweled)的游戲,代碼可以很長,效果要炫酷」:Grok-3 還具備了強大的智能體能力,通過深度搜索(DeepSearch)來進行深入研究、頭腦風暴、分析數(shù)據(jù)、生成圖像、編寫和調(diào)試代碼。可以說,DeepSearch 對標了此前 OpenAI 推出的深度搜索 Deep Research,后者通過聯(lián)網(wǎng)可以在幾十分鐘內(nèi)完成人類專家數(shù)小時才能完成得復雜研究任務。我們可以看以下幾個示例,Grok-3 在 DeepSearch 模式下可以聯(lián)網(wǎng)進行更深入的搜索,過程中也調(diào)用了思考能力。并且,搜索本身所需要的步驟也展示了出來。在下面這個示例中,讓 Grok-3「對瘋狂的三月比賽做出一個完整的預測」(create a full march madness bracket prediction)。X Premium+ 訂閱用戶將首先獲得 Grok 3,其他功能需要訂閱 xAI 稱之為 SuperGrok 的版本。SuperGrok 的價格為每月 30 美元或每年 300 美元,可解鎖更多推理和 DeepSearch 查詢,并提供無限的圖像生成。發(fā)布完之后,團隊還根據(jù)網(wǎng)友提問進行了簡單的問答。其中提到,xAI 將會發(fā)布一個 Grok 驅(qū)動的語音應用(大約將在一周后發(fā)布)。并且,用戶在與其進行語音對話時,模型會保留一些與用戶的對話記憶。此外,馬斯克還重申了 xAI 的開源原則,即發(fā)布了最新版的模型之后便會開源前一版本的模型。他表示在發(fā)布了 Grok 3 穩(wěn)定版之后就會開源 Grok 2(可能還需要等待幾個月時間)。這一點看來不如開源之光 DeepSeek。馬斯克曾發(fā)推說明 xAI 的開源原則:發(fā)布新一代模型時開源上一代模型。最終,發(fā)布會在一個 xAI 語音模式演示視頻中落下帷幕。之后,馬斯克發(fā)推暗示自己的公司將贏得與 OpenAI 的技術(shù)競爭,因為 xAI 的創(chuàng)新速率有更高的一階和二階導數(shù)。
|