【原】大模型玩游戲，Deepseek-R1-0528 太強(qiáng)了

ml_Py 2025-06-05 發(fā)布于河南

展開全文

大家好，我是 Ai 學(xué)習(xí)的老章

看到一個(gè)很有意思的測試

讓不同的大模型玩俄羅斯方塊、推箱子、糖果粉碎傳奇，對(duì)戰(zhàn)結(jié)果有點(diǎn)出乎預(yù)料

https:///haoailab/status/1929997363407708646

Deepseek-R1-0528 在多個(gè)游戲中智勝 o4-mini 等強(qiáng)推理模型，在俄羅斯方塊上幾乎達(dá)到 SOTA 水平，與 o3 打得難分高下。 ? ??

Deepseek-R1-0528 在非視覺類游戲中帶來顯著提升，包括推箱子和俄羅斯方塊等長線游戲中的分?jǐn)?shù)都翻倍了！ ??

Qwen3-235B-A22B 作為極具競爭力的開源模型嶄露頭角，在《糖果粉碎傳奇》等空間推理游戲中超越了 Gemini-2.5-flash-preview-0417

?? Deepseek-R1-0528 不僅在俄羅斯方塊所向披靡，在需要強(qiáng)大空間推理能力的糖果粉碎傳奇中也正逼近 SOTA 水平。

它以三輪平均 491.7 分的成績（對(duì)比 o3 模型的 647.0 分），成為目前最接近頂級(jí)水平的開源競爭者。

Qwen3-235B-A22B 以穩(wěn)健的 363.3 分緊隨其后。

很好奇

這個(gè)測試是怎么實(shí)現(xiàn)的呢？

其實(shí)是基于這個(gè)項(xiàng)目：https://github.com/lmgame-org/GamingAgent

這是一個(gè)在標(biāo)準(zhǔn)化交互式游戲環(huán)境中啟用和測試基于大型語言模型（LLM）和視覺語言模型（VLM）的智能體。

主要功能：

模型評(píng)估（基礎(chǔ)模式）： 在一系列多樣化的視頻游戲中評(píng)估當(dāng)前最先進(jìn)的模型（LLM/VLM），這種評(píng)估在沒有特定游戲控制框架（gaming harness）的“單一模型 VLM 設(shè)置”下進(jìn)行。
智能體部署與評(píng)估（定制化流程）： 使用項(xiàng)目定制的 GamingAgent 工作流程（即游戲控制框架）來部署和評(píng)估模型，目的是提升模型在游戲中的表現(xiàn)。
PC 端游戲智能體： 用于部署可以在個(gè)人電腦和筆記本上運(yùn)行的計(jì)算機(jī)使用智能體（Computer-Use Agents, CUAs）。

項(xiàng)目還推出了 Lmgame Bench，這是一個(gè)用于游戲智能體的基準(zhǔn)測試平臺(tái)，可以查看各個(gè)模型在游戲任務(wù)上的表現(xiàn)。

該項(xiàng)目支持多種主流 AI 模型的 API，包括：

OpenAI (gpt-4o, gpt-4o-mini 等)
Anthropic (claude-3.5-sonnet, claude-4-opus 等)
Gemini (gemini-2.5-pro, gemini-1.5-pro 等)
xAI (grok-3-mini)
Deepseek (reasoner R1, chat V3)
Qwen (Qwen3)

安裝方法：

git clone https://github.com/lmgame-org/GamingAgent.git
cd GamingAgent
conda create -n lmgame python==3.10 -y
conda activate lmgame
pip install -e .

在credentials.sh 中設(shè)置 API keys:

export OPENAI_API_KEY={YOUR_OPENAI_API_KEY}
export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY}
export GEMINI_API_KEY={YOUR_GEMINI_API_KEY}
export XAI_API_KEY={YOUR_XAI_API_KEY}
export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}

省事點(diǎn)可以在線體驗(yàn)（需要網(wǎng)絡(luò)暢通）

在線體驗(yàn)：https:///spaces/lmgame/lmgame_bench

可以玩的游戲有推箱子、2048、俄羅斯方塊、超級(jí)馬里奧等

deepseek-r1 在糖果粉碎傳奇上表現(xiàn)不錯(cuò)，在 2048 和俄羅斯方塊上表現(xiàn)中等，在推箱子和逆轉(zhuǎn)裁判上表現(xiàn)較弱

總體看，最強(qiáng)的還是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7

更多細(xì)節(jié)，大家可以看下這篇論文：https:///pdf/2505.15146

這篇論文我大致看了一下，其中有一些提示詞蠻有意思的

比如：如何用純文字指導(dǎo)大模型玩游戲？

比如：推箱子


提示：
你正在解決推箱子謎題。你是玩家，需要將所有箱子推到目標(biāo)位置。當(dāng)你緊挨著箱子時(shí)，你可以通過向相同方向移動(dòng)來推動(dòng)它。你不能將箱子推過墻壁，也不能拉動(dòng)箱子。答案應(yīng)該是一個(gè)動(dòng)作序列，例如 <answer>向右 || 向右 || 向上</answer>。
狀態(tài)中每個(gè)符號(hào)的含義是：
#: 墻壁，_: 空地，O: 目標(biāo)，√: 箱子在目標(biāo)上，X: 箱子，P: 玩家，S: 玩家在目標(biāo)上
你的可用動(dòng)作是：
上，下，左，右
你最多可以執(zhí)行 10 個(gè)動(dòng)作，動(dòng)作之間用“ || ”分隔。
回合 1:
狀態(tài)：
######
######
#O####
#XP###
#__###
######
你還剩 10 次動(dòng)作機(jī)會(huì)。始終輸出：

<div class="think">[你的思考過程]</div>

<answer> [你的答案] </answer>，不要帶有多余的文本。嚴(yán)格遵守此格式。最大響應(yīng)長度：100 詞（標(biāo)記）。
下一回合的提示：
獎(jiǎng)勵(lì)：
-0.1
回合 2:
狀態(tài)：
{當(dāng)前狀態(tài)}
你還剩 9 次動(dòng)作機(jī)會(huì)。始終輸出：

<div class="think">[你的思考過程]</div>

<answer> [你的答案] </answer>，不要帶有多余的文本。嚴(yán)格遵守此格式。最大響應(yīng)長度：100 詞（標(biāo)記）。