
大家好,我是 Ai 學(xué)習(xí)的老章
看到一個(gè)很有意思的測試
讓不同的大模型玩俄羅斯方塊、推箱子、糖果粉碎傳奇,對(duì)戰(zhàn)結(jié)果有點(diǎn)出乎預(yù)料
https:///haoailab/status/1929997363407708646Deepseek-R1-0528 在多個(gè)游戲中智勝 o4-mini 等強(qiáng)推理模型,在俄羅斯方塊上幾乎達(dá)到 SOTA 水平,與 o3 打得難分高下。 ? ??

Deepseek-R1-0528 在非視覺類游戲中帶來顯著提升,包括推箱子和俄羅斯方塊等長線游戲中的分?jǐn)?shù)都翻倍了! ??
Qwen3-235B-A22B 作為極具競爭力的開源模型嶄露頭角,在《糖果粉碎傳奇》等空間推理游戲中超越了 Gemini-2.5-flash-preview-0417

?? Deepseek-R1-0528 不僅在俄羅斯方塊所向披靡,在需要強(qiáng)大空間推理能力的糖果粉碎傳奇中也正逼近 SOTA 水平。
它以三輪平均 491.7 分的成績(對(duì)比 o3 模型的 647.0 分),成為目前最接近頂級(jí)水平的開源競爭者。
Qwen3-235B-A22B 以穩(wěn)健的 363.3 分緊隨其后。
Obsidian 2025-06-04 22.06.30.png很好奇
這個(gè)測試是怎么實(shí)現(xiàn)的呢?
其實(shí)是基于這個(gè)項(xiàng)目:https://github.com/lmgame-org/GamingAgent
這是一個(gè)在標(biāo)準(zhǔn)化交互式游戲環(huán)境中啟用和測試基于大型語言模型(LLM)和視覺語言模型(VLM)的智能體。

主要功能:
- 模型評(píng)估(基礎(chǔ)模式): 在一系列多樣化的視頻游戲中評(píng)估當(dāng)前最先進(jìn)的模型(LLM/VLM),這種評(píng)估在沒有特定游戲控制框架(gaming harness)的“單一模型 VLM 設(shè)置”下進(jìn)行。
- 智能體部署與評(píng)估(定制化流程): 使用項(xiàng)目定制的 GamingAgent 工作流程(即游戲控制框架)來部署和評(píng)估模型,目的是提升模型在游戲中的表現(xiàn)。
- PC 端游戲智能體: 用于部署可以在個(gè)人電腦和筆記本上運(yùn)行的計(jì)算機(jī)使用智能體(Computer-Use Agents, CUAs)。

項(xiàng)目還推出了 Lmgame Bench,這是一個(gè)用于游戲智能體的基準(zhǔn)測試平臺(tái),可以查看各個(gè)模型在游戲任務(wù)上的表現(xiàn)。
該項(xiàng)目支持多種主流 AI 模型的 API,包括:
- OpenAI (gpt-4o, gpt-4o-mini 等)
- Anthropic (claude-3.5-sonnet, claude-4-opus 等)
- Gemini (gemini-2.5-pro, gemini-1.5-pro 等)
- Deepseek (reasoner R1, chat V3)
安裝方法:
git clone https://github.com/lmgame-org/GamingAgent.git
cd GamingAgent
conda create -n lmgame python==3.10 -y
conda activate lmgame
pip install -e .
在credentials.sh
中設(shè)置 API keys:
export OPENAI_API_KEY={YOUR_OPENAI_API_KEY}
export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY}
export GEMINI_API_KEY={YOUR_GEMINI_API_KEY}
export XAI_API_KEY={YOUR_XAI_API_KEY}
export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}
省事點(diǎn)可以在線體驗(yàn)(需要網(wǎng)絡(luò)暢通)

在線體驗(yàn):https:///spaces/lmgame/lmgame_bench
可以玩的游戲有推箱子、2048、俄羅斯方塊、超級(jí)馬里奧等

deepseek-r1 在糖果粉碎傳奇上表現(xiàn)不錯(cuò),在 2048 和 俄羅斯方塊上表現(xiàn)中等,在推箱子和逆轉(zhuǎn)裁判上表現(xiàn)較弱

總體看,最強(qiáng)的還是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7
更多細(xì)節(jié),大家可以看下這篇論文:https:///pdf/2505.15146

這篇論文我大致看了一下,其中有一些提示詞蠻有意思的
比如:如何用純文字指導(dǎo)大模型玩游戲?
比如:推箱子

提示:
你正在解決推箱子謎題。你是玩家,需要將所有箱子推到目標(biāo)位置。當(dāng)你緊挨著箱子時(shí),你可以通過向相同方向移動(dòng)來推動(dòng)它。你不能將箱子推過墻壁,也不能拉動(dòng)箱子。答案應(yīng)該是一個(gè)動(dòng)作序列,例如 <answer>向右 || 向右 || 向上</answer>。
狀態(tài)中每個(gè)符號(hào)的含義是:
#: 墻壁,_: 空地,O: 目標(biāo),√: 箱子在目標(biāo)上,X: 箱子,P: 玩家,S: 玩家在目標(biāo)上
你的可用動(dòng)作是:
上,下,左,右
你最多可以執(zhí)行 10 個(gè)動(dòng)作,動(dòng)作之間用“ || ”分隔。
回合 1:
狀態(tài):
######
######
#O####
#XP###
#__###
######
你還剩 10 次動(dòng)作機(jī)會(huì)。始終輸出:
<div class="think">[你的思考過程]</div>
<answer> [你的答案] </answer>,不要帶有多余的文本。嚴(yán)格遵守此格式。最大響應(yīng)長度:100 詞(標(biāo)記)。
下一回合的提示:
獎(jiǎng)勵(lì):
-0.1
回合 2:
狀態(tài):
{當(dāng)前狀態(tài)}
你還剩 9 次動(dòng)作機(jī)會(huì)。始終輸出:
<div class="think">[你的思考過程]</div>
<answer> [你的答案] </answer>,不要帶有多余的文本。嚴(yán)格遵守此格式。最大響應(yīng)長度:100 詞(標(biāo)記)。
搭建完美的寫作環(huán)境:工具篇(12 章)圖解機(jī)器學(xué)習(xí) - 中文版(72 張 PNG)ChatGPT、大模型系列研究報(bào)告(50 個(gè) PDF)108 頁 PDF 小冊(cè)子:搭建機(jī)器學(xué)習(xí)開發(fā)環(huán)境及 Python 基礎(chǔ) 116 頁 PDF 小冊(cè)子:機(jī)器學(xué)習(xí)中的概率論、統(tǒng)計(jì)學(xué)、線性代數(shù) 史上最全!371 張速查表,涵蓋 AI、ChatGPT、Python、R、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等