【原】開(kāi)源大模型, 重量級(jí)選手+1

ml_Py 2025-06-17 發(fā)布于河南

展開(kāi)全文

大家好，我是 Ai 學(xué)習(xí)的老章

今天大模型開(kāi)源世界又迎來(lái) 1 個(gè)重量級(jí)選手 MiniMax- M1

我們一起看看

MiniMax-M1 簡(jiǎn)介

MiniMax-M1 采用了創(chuàng)新的混合專(zhuān)家模型（MoE）架構(gòu)結(jié)合閃電注意力機(jī)制（Lightning Attention），優(yōu)勢(shì)有三：

高效計(jì)算：閃電注意力機(jī)制顯著提升推理效率
參數(shù)激活優(yōu)化：雖然總參數(shù)量巨大，但每次只激活必要的專(zhuān)家模塊
線性擴(kuò)展：時(shí)間和空間復(fù)雜度隨序列長(zhǎng)度近似線性增長(zhǎng)

模型總參數(shù) 4560 億（456B）,比 Qwen3 還龐大，每 token 激活參數(shù)：459 億（45.9B）,基礎(chǔ)模型：MiniMax-Text-01.MiniMax-M1 中的閃電注意力機(jī)制能夠高效擴(kuò)展測(cè)試時(shí)計(jì)算，與 DeepSeek R1 相比，M1 在 10 萬(wàn) token 生成長(zhǎng)度下僅消耗 25% 的 FLOPs。

最大亮點(diǎn)是超長(zhǎng)上下文支持：

輸入上下文：原生支持 100 萬(wàn) token，是 DeepSeek R1 的 8 倍
輸出長(zhǎng)度：支持最多 8 萬(wàn) token 輸出
處理效率：在單臺(tái)機(jī)器上就能處理超過(guò) 100 萬(wàn) token

MiniMax-M1 原生支持 100 萬(wàn) token 的上下文長(zhǎng)度，是 DeepSeek R1 上下文大小的 8 倍。

最大輸入與 Gemini 2.5 Pro 并列第一

最大輸出僅次于 OpenAI o3

綜合妥妥第一

它還支持：

深度思考：支持復(fù)雜邏輯推理和深度分析
長(zhǎng)文檔處理：能夠高效處理和分析超長(zhǎng)文本
多輪對(duì)話：支持復(fù)雜的多輪對(duì)話場(chǎng)景
工具調(diào)用：具備強(qiáng)大的工具調(diào)用能力

MiniMax-M1 測(cè)評(píng)

官方數(shù)據(jù)來(lái)看:

MiniMax-M1在復(fù)雜推理和長(zhǎng)上下文處理方面表現(xiàn)突出，其核心優(yōu)勢(shì)在于高思考預(yù)算和原生百萬(wàn) token 支持。80K 版本的思考預(yù)算達(dá)到行業(yè)頂級(jí)水平，在數(shù)學(xué)推理任務(wù)中接近 DeepSeek-R1 和 OpenAI-o3 等頂級(jí)模型，MATH-500 測(cè)試成績(jī)達(dá) 96.8%。

在編碼任務(wù)中，其 FullStackBench 68.3% 的表現(xiàn)與 Claude 4 Opus 差距不足 2 個(gè)百分點(diǎn)。特別值得注意的是其長(zhǎng)上下文能力，在百萬(wàn) token 級(jí)任務(wù)中與 Gemini 2.5 Pro 持平，OpenAI-MRCR 測(cè)試中 40K 版本甚至以 58.6% 略超 80K 版本。

工具調(diào)用方面，零售場(chǎng)景的 TAU-bench 測(cè)試顯示 40K 版本反超 80K 版本達(dá) 67.8%，展現(xiàn)出色的任務(wù)適配性。

不過(guò)在軟件工程和事實(shí)性任務(wù)方面，與行業(yè)頂尖模型仍存在約 15-20% 的差距。

MiniMax-M1 部署

模型文件 910GB+,比 R1 還大

官方推薦本地部署設(shè)備：單臺(tái)配備 8 個(gè) H800 或 8 個(gè) H20 GPU 的服務(wù)器

搭載 8 個(gè) H800 GPU 的服務(wù)器可處理長(zhǎng)達(dá) 200 萬(wàn) token 的上下文輸入

配備 8 個(gè) H20 GPU 的服務(wù)器則能夠支持高達(dá) 500 萬(wàn) token 的超長(zhǎng)上下文處理能力。

vllm 部署代碼：

#https:///MiniMaxAI/MiniMax-M1-80k/blob/main/docs/vllm_deployment_guide_cn.md

export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server \
--model <模型存放路徑> \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8  \
--max_model_len 4096 \
--dtype bfloat16