乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      大模型玩游戲,Deepseek-R1-0528 太強(qiáng)了

       ml_Py 2025-06-05 發(fā)布于河南

      大家好,我是 Ai 學(xué)習(xí)的老章

      看到一個(gè)很有意思的測試

      讓不同的大模型玩俄羅斯方塊、推箱子、糖果粉碎傳奇,對(duì)戰(zhàn)結(jié)果有點(diǎn)出乎預(yù)料

      https:///haoailab/status/1929997363407708646
      https:///haoailab/status/1929997363407708646

      Deepseek-R1-0528 在多個(gè)游戲中智勝 o4-mini 等強(qiáng)推理模型,在俄羅斯方塊上幾乎達(dá)到 SOTA 水平,與 o3 打得難分高下。 ? ??

      Deepseek-R1-0528 在非視覺類游戲中帶來顯著提升,包括推箱子和俄羅斯方塊等長線游戲中的分?jǐn)?shù)都翻倍了! ??

      Qwen3-235B-A22B 作為極具競爭力的開源模型嶄露頭角,在《糖果粉碎傳奇》等空間推理游戲中超越了 Gemini-2.5-flash-preview-0417

      ?? Deepseek-R1-0528 不僅在俄羅斯方塊所向披靡,在需要強(qiáng)大空間推理能力的糖果粉碎傳奇中也正逼近 SOTA 水平。

      它以三輪平均 491.7 分的成績(對(duì)比 o3 模型的 647.0 分),成為目前最接近頂級(jí)水平的開源競爭者。

      Qwen3-235B-A22B 以穩(wěn)健的 363.3 分緊隨其后。 

      Obsidian 2025-06-04 22.06.30.png
      Obsidian 2025-06-04 22.06.30.png

      很好奇

      這個(gè)測試是怎么實(shí)現(xiàn)的呢?

      其實(shí)是基于這個(gè)項(xiàng)目:https://github.com/lmgame-org/GamingAgent

      這是一個(gè)在標(biāo)準(zhǔn)化交互式游戲環(huán)境中啟用和測試基于大型語言模型(LLM)和視覺語言模型(VLM)的智能體。

      主要功能:

      1. 模型評(píng)估(基礎(chǔ)模式): 在一系列多樣化的視頻游戲中評(píng)估當(dāng)前最先進(jìn)的模型(LLM/VLM),這種評(píng)估在沒有特定游戲控制框架(gaming harness)的“單一模型 VLM 設(shè)置”下進(jìn)行。
      2. 智能體部署與評(píng)估(定制化流程): 使用項(xiàng)目定制的 GamingAgent 工作流程(即游戲控制框架)來部署和評(píng)估模型,目的是提升模型在游戲中的表現(xiàn)。
      3. PC 端游戲智能體: 用于部署可以在個(gè)人電腦和筆記本上運(yùn)行的計(jì)算機(jī)使用智能體(Computer-Use Agents, CUAs)。

      項(xiàng)目還推出了 Lmgame Bench,這是一個(gè)用于游戲智能體的基準(zhǔn)測試平臺(tái),可以查看各個(gè)模型在游戲任務(wù)上的表現(xiàn)。

      該項(xiàng)目支持多種主流 AI 模型的 API,包括:

      • OpenAI (gpt-4o, gpt-4o-mini 等)
      • Anthropic (claude-3.5-sonnet, claude-4-opus 等)
      • Gemini (gemini-2.5-pro, gemini-1.5-pro 等)
      • xAI (grok-3-mini)
      • Deepseek (reasoner R1, chat V3)
      • Qwen (Qwen3)

      安裝方法:

      git clone https://github.com/lmgame-org/GamingAgent.git
      cd GamingAgent
      conda create -n lmgame python==3.10 -y
      conda activate lmgame
      pip install -e .

      credentials.sh 中設(shè)置 API keys:

      export OPENAI_API_KEY={YOUR_OPENAI_API_KEY}
      export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY}
      export GEMINI_API_KEY={YOUR_GEMINI_API_KEY}
      export XAI_API_KEY={YOUR_XAI_API_KEY}
      export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}

      省事點(diǎn)可以在線體驗(yàn)(需要網(wǎng)絡(luò)暢通)

      在線體驗(yàn):https:///spaces/lmgame/lmgame_bench

      可以玩的游戲有推箱子、2048、俄羅斯方塊、超級(jí)馬里奧

      deepseek-r1 在糖果粉碎傳奇上表現(xiàn)不錯(cuò),在 2048 和 俄羅斯方塊上表現(xiàn)中等,在推箱子和逆轉(zhuǎn)裁判上表現(xiàn)較弱

      總體看,最強(qiáng)的還是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7

      更多細(xì)節(jié),大家可以看下這篇論文:https:///pdf/2505.15146

      這篇論文我大致看了一下,其中有一些提示詞蠻有意思的

      比如:如何用純文字指導(dǎo)大模型玩游戲?

      比如:推箱子


      提示:
      你正在解決推箱子謎題。你是玩家,需要將所有箱子推到目標(biāo)位置。當(dāng)你緊挨著箱子時(shí),你可以通過向相同方向移動(dòng)來推動(dòng)它。你不能將箱子推過墻壁,也不能拉動(dòng)箱子。答案應(yīng)該是一個(gè)動(dòng)作序列,例如 <answer>向右 || 向右 || 向上</answer>
      狀態(tài)中每個(gè)符號(hào)的含義是:
      #: 墻壁,_: 空地,O: 目標(biāo),√: 箱子在目標(biāo)上,X: 箱子,P: 玩家,S: 玩家在目標(biāo)上
      你的可用動(dòng)作是:
      上,下,左,右
      你最多可以執(zhí)行 10 個(gè)動(dòng)作,動(dòng)作之間用“ || ”分隔。
      回合 1:
      狀態(tài):
      ######
      ######
      #O####
      #XP###
      #__###
      ######
      你還剩 10 次動(dòng)作機(jī)會(huì)。始終輸出:

      <div class="think">[你的思考過程]</div>

      <answer> [你的答案] </answer>,不要帶有多余的文本。嚴(yán)格遵守此格式。最大響應(yīng)長度:100 詞(標(biāo)記)。
      下一回合的提示:
      獎(jiǎng)勵(lì):
      -0.1
      回合 2:
      狀態(tài):
      {當(dāng)前狀態(tài)}
      你還剩 9 次動(dòng)作機(jī)會(huì)。始終輸出:

      <div class="think">[你的思考過程]</div>

      <answer> [你的答案] </answer>,不要帶有多余的文本。嚴(yán)格遵守此格式。最大響應(yīng)長度:100 詞(標(biāo)記)。

      搭建完美的寫作環(huán)境:工具篇(12 章)圖解機(jī)器學(xué)習(xí) - 中文版(72 張 PNG)ChatGPT、大模型系列研究報(bào)告(50 個(gè) PDF)108 頁 PDF 小冊(cè)子:搭建機(jī)器學(xué)習(xí)開發(fā)環(huán)境及 Python 基礎(chǔ) 116 頁 PDF 小冊(cè)子:機(jī)器學(xué)習(xí)中的概率論、統(tǒng)計(jì)學(xué)、線性代數(shù) 史上最全!371 張速查表,涵蓋 AI、ChatGPT、Python、R、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多