乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      長(zhǎng)推理(Long Reasoning)成本太高?7大壓縮技術(shù)幫你省下一半Token!

       小張學(xué)AI 2025-05-20 發(fā)布于山東
      • · 大家好,我是 同學(xué)小張,日常分享AI知識(shí)和實(shí)戰(zhàn)案例

      • · 歡迎 點(diǎn)贊 + 關(guān)注 ??,持續(xù)學(xué)習(xí)持續(xù)干貨輸出。

      • · +v: jasper_8017 一起交流??,一起進(jìn)步??,更有專業(yè)資料領(lǐng)?。?/span>



      隨著大型語(yǔ)言模型(LLM)在復(fù)雜推理任務(wù)中的廣泛應(yīng)用,長(zhǎng)思維鏈(Long Chain-of-Thought, CoT)生成的推理成本問(wèn)題日益凸顯。本文系統(tǒng)梳理了近期7篇針對(duì)長(zhǎng)思維鏈壓縮的前沿研究工作,重點(diǎn)分析其核心方法、創(chuàng)新點(diǎn)及實(shí)驗(yàn)結(jié)果,為降低推理成本提供技術(shù)參考。


      1. LightThinker:動(dòng)態(tài)壓縮中間推理步驟

      論文鏈接: LightThinker: Thinking Step-by-Step Compression

      https:///pdf/2502.15589

      核心方法

      • · 動(dòng)態(tài)壓縮機(jī)制: 在推理過(guò)程中插入特殊Token(如[c]表示壓縮內(nèi)容),通過(guò)注意力掩碼設(shè)計(jì)限制模型對(duì)歷史Token的依賴,逐步壓縮中間步驟。
      • · 依賴度指標(biāo)(Dependency,Dep): 通過(guò)測(cè)量生成過(guò)程中對(duì)歷史 Token 的依賴程度來(lái)量化壓縮程度。

      如下圖,(a)表示傳統(tǒng)思維鏈CoT的思考過(guò)程,有兩步思考。
      (b)表示了 LightThinker 的思考過(guò)程:首先基于 Question + Thought1 生成壓縮 Token [C T1];然后基于 Question + [C T1] 生成思考過(guò)程 Thought2;之后進(jìn)一步使用 Question + [C T1] + Thought2 生成壓縮 Token [C T2];最后,基于 Question + [C T1] + [C T2] 生成 Answer。

      在這里插入圖片描述

      實(shí)現(xiàn)階段

      • · 微調(diào)(Fine-tuning)

      創(chuàng)新點(diǎn)

      • · 首次提出基于依賴度的動(dòng)態(tài)壓縮策略,實(shí)現(xiàn)推理過(guò)程與壓縮操作的同步進(jìn)行。
      • · 通過(guò)重構(gòu)訓(xùn)練數(shù)據(jù)(分割輸出并插入特殊Token),使模型學(xué)習(xí)壓縮能力。
      在這里插入圖片描述

      實(shí)驗(yàn)結(jié)果

      • · 在Bespoke-Stratos-17k數(shù)據(jù)集上,峰值Token數(shù)降低50%,精度損失1-2%,但推理時(shí)間未顯著減少。
      在這里插入圖片描述

      2. TokenSkip:基于重要性的Token剪枝

      論文鏈接: TokenSkip: Controllable Chain-of-Thought Compression in LLMs

      https:///pdf/2502.12067

      開(kāi)源GitHub: https://github.com/hemingkx/TokenSkip

      核心方法

      • · 重要性評(píng)估: 利用梯度或注意力分?jǐn)?shù)計(jì)算每個(gè)Token對(duì)推理的貢獻(xiàn)度,按重要性排序后剪枝低價(jià)值Token。
      • · 可控壓縮: 通過(guò)指定壓縮率γ(如40%)實(shí)現(xiàn)Token數(shù)量的靈活控制。

      如下圖:TokenSkip 一共可分為三個(gè)階段

      • · Token Pruning:根據(jù) Token 的重要性對(duì) CoT 序列進(jìn)行剪枝。首先計(jì)算每個(gè) Token 的語(yǔ)義重要性,然后按重要性值降序排列,根據(jù)指定的壓縮比率 γ 確定閾值,保留重要性大于等于閾值的 Token。
      • · Training:使用剪枝后的 CoT 數(shù)據(jù)對(duì)目標(biāo) LLM 進(jìn)行 SFT。在訓(xùn)練數(shù)據(jù)中,每個(gè)樣本包含問(wèn)題、壓縮后的 CoT 和答案。
      • · Inference:給定問(wèn)題和壓縮比率 γ,模型按照訓(xùn)練時(shí)的格式進(jìn)行 Inference,自回歸地生成輸出序列,包括 CoT Token 和答案。
      在這里插入圖片描述

      實(shí)現(xiàn)階段

      • · 監(jiān)督微調(diào)(SFT)

      創(chuàng)新點(diǎn)

      • · 提出Token級(jí)剪枝框架,首次將可控壓縮率引入推理過(guò)程。
      • · 基于剪枝數(shù)據(jù)微調(diào)模型,平衡壓縮率與精度損失。

      TokenSkip實(shí)際執(zhí)行結(jié)果示例(直觀上感覺(jué)是將一些Token刪掉了,其實(shí)里面最重要的是判斷Token的語(yǔ)義重要性):

      在這里插入圖片描述

      實(shí)驗(yàn)結(jié)果

      • · 在GSM8K數(shù)學(xué)推理任務(wù)中,Token數(shù)減少40%,精度損失低于0.4%,但加速效果有限(僅1.2倍)。
      在這里插入圖片描述

      3. TALE框架:動(dòng)態(tài)Token預(yù)算分配

      論文鏈接: Token-Budget-Aware LLM Reasoning

      https:///pdf/2412.18547

      核心方法

      (1)Token預(yù)算估計(jì): 通過(guò)零樣本提示(TALE-EP)或后訓(xùn)練(TALE-PT)動(dòng)態(tài)分配Token預(yù)算,適配不同任務(wù)復(fù)雜度。

      • · TALE-EP(Estimation & Prompting):通過(guò) 0-shot prompting 方式估計(jì)合理的 Token Budget,并將其納入 Prompt 中,從而生成更高效的 Reasoning 過(guò)程。
      在這里插入圖片描述
      在這里插入圖片描述
      • · TALE-PT(Post-Training):通過(guò) Post-training 將 Token Budget 內(nèi)化到 LLM 中,使其在沒(méi)有顯式 Token 約束的情況下生成更高效的響應(yīng)。
      在這里插入圖片描述

      (2)預(yù)算內(nèi)化: 將Token約束融入模型參數(shù),減少顯式提示依賴。

      實(shí)現(xiàn)階段

      • · 雙模式支持:
        • · TALE-EP: Prompt工程(無(wú)需訓(xùn)練)
        • · TALE-PT: 后訓(xùn)練微調(diào)

      創(chuàng)新點(diǎn)

      • · 首次提出“Token預(yù)算”概念,為推理效率提供量化指標(biāo)。
      • · 結(jié)合Prompt工程與模型微調(diào),實(shí)現(xiàn)預(yù)算分配的動(dòng)態(tài)適配。

      實(shí)驗(yàn)結(jié)果

      • · TALE-PT-SFT在數(shù)學(xué)任務(wù)中減少30% Token,精度提升1-3%;TALE-EP減少20% Token,精度損失約2%。
      在這里插入圖片描述

      4. Chain of Draft:強(qiáng)制簡(jiǎn)潔推理

      論文鏈接: Chain of Draft: Thinking Faster by Writing Less

      https:///pdf/2502.18600


      開(kāi)源GitHub: https://github.com/sileix/chain-of-draft

      核心方法

      • · 長(zhǎng)度約束: 限制每個(gè)推理步驟的輸出長(zhǎng)度(如≤5個(gè)單詞),避免冗余描述。
      • · 示例引導(dǎo): 在Prompt中提供簡(jiǎn)潔推理示例,引導(dǎo)模型生成緊湊中間步驟。
      在這里插入圖片描述

      實(shí)現(xiàn)階段

      • · 純Prompt工程

      創(chuàng)新點(diǎn)

      • · 通過(guò)硬性約束迫使模型聚焦關(guān)鍵推理節(jié)點(diǎn),顯著減少Token數(shù)量。
      • · 提出“草稿-修正”兩階段生成框架,兼顧效率與準(zhǔn)確性。

      實(shí)驗(yàn)結(jié)果

      • · Token數(shù)減少92.4%,但零樣本場(chǎng)景精度下降顯著(GSM8K從77%降至58%)。

      5. InftyThink:迭代式分段推理

      論文鏈接: InftyThink: Breaking the Length Limits

      https:///pdf/2503.06692

      核心方法

      • · 分段迭代: 將長(zhǎng)推理分解為多個(gè)短推理片段,每段后插入中間總結(jié)。
      在這里插入圖片描述
      • · 周期性總結(jié): 通過(guò)“鋸齒形”內(nèi)存模式降低計(jì)算復(fù)雜度。
      在這里插入圖片描述

      實(shí)現(xiàn)階段

      • · 迭代式微調(diào)

      創(chuàng)新點(diǎn)

      • · 突破單次長(zhǎng)推理的上下文限制,支持超長(zhǎng)序列處理。
      • · 重構(gòu)訓(xùn)練數(shù)據(jù)(如OpenR1-Math-Inf),適配迭代推理范式。

      實(shí)驗(yàn)結(jié)果

      • · MATH500任務(wù)精度提升3-13%,但總Token數(shù)增加,未評(píng)估實(shí)際加速效果。
      在這里插入圖片描述

      6. Sketch-of-Thought:思維草圖,認(rèn)知啟發(fā)式推理

      論文鏈接: Sketch-of-Thought: Efficient LLM Reasoning

      https:///pdf/2503.05179

      核心方法

      • · 符號(hào)化壓縮: 借鑒人類(lèi)專家使用的符號(hào)、縮寫(xiě)(如#Seoul → #South Korea → Won)和領(lǐng)域特定的術(shù)語(yǔ),生成緊湊推理鏈。
      • · 范式路由: 基于輕量級(jí)路由模型(DistilBERT)動(dòng)態(tài)選擇最優(yōu)推理范式(概念鏈、分塊符號(hào)、專家詞典)。
      在這里插入圖片描述

      實(shí)現(xiàn)階段

      • · 聯(lián)合訓(xùn)練

      部署方案

      • · 路由模型部署:DistilBERT實(shí)例(2GB內(nèi)存)
      • · 范式數(shù)據(jù)庫(kù):維護(hù)領(lǐng)域符號(hào)詞典(如醫(yī)學(xué)SNOMED CT)

      創(chuàng)新點(diǎn)

      • · 提出三類(lèi)認(rèn)知啟發(fā)范式:概念鏈、分塊符號(hào)、專家詞典。

      (1)概念鏈(Conceptual Chaining):利用聯(lián)想記憶網(wǎng)絡(luò)連接關(guān)鍵概念,以極簡(jiǎn)的文字表達(dá) Reasoning 過(guò)程。例如,回答“首爾使用的貨幣是什么?”時(shí),SoT 的 Reasoning 過(guò)程為:#Seoul → #South Korea → Won。

      在這里插入圖片描述

      (2)分塊符號(hào)主義(Chunked Symbolism):基于工作記憶分塊理論,將數(shù)學(xué) Reasoning 組織成緊湊的符號(hào)表示。例如,計(jì)算“一輛汽車(chē)以 2.5 m/s2 的加速度加速 10 秒,初始速度為 15 m/s,求最終速度?”時(shí),SoT 的 Reasoning 過(guò)程為:a = 2.5 m/s2, t = 10 s, vi = 15 m/s → vf = 15 + (2.5 × 10) → vf = 40 m/s。

      在這里插入圖片描述

      (3)專家詞典(Expert Lexicons):模仿專家使用的領(lǐng)域特定的縮寫(xiě)和符號(hào),以高效表達(dá)復(fù)雜信息。例如,回答“STEMI 患者接受 MONA 治療,但對(duì)阿司匹林過(guò)敏,這種治療是否安全?”時(shí),SoT 的 Reasoning 過(guò)程為:STEMI → ST-Elevation MI, MONA → Morphine, O2, Nitrates, Aspirin → Aspirin ∈ MONA。

      在這里插入圖片描述
      • · 實(shí)現(xiàn)Token減少76%的同時(shí),數(shù)學(xué)任務(wù)精度不降反升。

      實(shí)驗(yàn)結(jié)果

      • · 在15個(gè)多語(yǔ)言/多模態(tài)數(shù)據(jù)集上,平均精度損失<1%,數(shù)學(xué)推理精度提升2-5%。
      在這里插入圖片描述

      7. Meta-RFT:元強(qiáng)化學(xué)習(xí)優(yōu)化

      論文鏈接: Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

      https:///pdf/2503.07572

      核心方法

      • · 元強(qiáng)化學(xué)習(xí)(Meta Reinforcement Learning,MRL) 優(yōu)化 LLM 在測(cè)試時(shí)的計(jì)算資源利用效率。
      • · 元強(qiáng)化微調(diào)(Meta Reinforcement Fine-Tuning, MRT) 方法,旨在優(yōu)化測(cè)試時(shí)計(jì)算。
      • · 密集獎(jiǎng)勵(lì)函數(shù): 結(jié)合結(jié)果獎(jiǎng)勵(lì)與“進(jìn)展獎(jiǎng)勵(lì)”(推理步驟的概率增量),優(yōu)化Token效率。
      • · 訓(xùn)練框架: 基于STaR(自訓(xùn)練)或在線RL(如PPO)實(shí)現(xiàn)元強(qiáng)化微調(diào)。

      論文中提出了兩種實(shí)現(xiàn) MRT 的方法:

      • · 基于 STaR(Self-Training with Rollouts)的 MRT:通過(guò)采樣模型的輸出,篩選出那些既符合進(jìn)展獎(jiǎng)勵(lì)又最終成功的軌跡,然后進(jìn)行監(jiān)督學(xué)習(xí)。
      • · 基于 RL 的 MRT:直接在訓(xùn)練過(guò)程中優(yōu)化包含進(jìn)展獎(jiǎng)勵(lì)的目標(biāo)函數(shù),使用在線強(qiáng)化學(xué)習(xí)方法(如 PPO 或 GRPO)進(jìn)行更新。
      在這里插入圖片描述

      實(shí)現(xiàn)階段

      • · 強(qiáng)化學(xué)習(xí)微調(diào)

      創(chuàng)新點(diǎn)

      • · 首次將元強(qiáng)化學(xué)習(xí)引入推理效率優(yōu)化,實(shí)現(xiàn)Token消耗與精度的均衡。
      • · 定義“進(jìn)展”量化指標(biāo),為密集獎(jiǎng)勵(lì)提供理論基礎(chǔ)。

      實(shí)驗(yàn)結(jié)果

      • · Qwen-1.5B模型在相同精度下Token減少50%,8B模型推理加速1.5倍。
      在這里插入圖片描述

      8. 對(duì)比

      技術(shù)對(duì)比與挑戰(zhàn)

      方法
      核心思路
      優(yōu)勢(shì)
      局限性
      LightThinker
      動(dòng)態(tài)壓縮中間步驟
      峰值Token顯著降低
      推理時(shí)間未優(yōu)化
      TokenSkip
      重要性剪枝
      可控壓縮率
      加速效果有限
      TALE-PT
      動(dòng)態(tài)Token預(yù)算
      精度提升
      依賴后訓(xùn)練數(shù)據(jù)
      Chain of Draft
      強(qiáng)制簡(jiǎn)潔推理
      Token壓縮率極高
      零樣本場(chǎng)景精度損失大
      InftyThink
      分段迭代推理
      支持超長(zhǎng)序列
      總Token數(shù)增加
      Sketch-of-Thought
      符號(hào)化推理
      精度無(wú)損甚至提升
      依賴領(lǐng)域知識(shí)
      Meta-RFT
      元強(qiáng)化學(xué)習(xí)優(yōu)化
      均衡效率與精度
      訓(xùn)練復(fù)雜度高

      成本對(duì)比

      方法
      是否需要訓(xùn)練
      計(jì)算成本
      部署難度
      LightThinker
      高(微調(diào))
      TokenSkip
      中(微調(diào))
      TALE-EP
      低(Prompt)
      Chain of Draft
      低(Prompt)
      Sketch-of-Thought
      高(聯(lián)合訓(xùn)練)
      Meta-RFT
      高(RL訓(xùn)練)
      極高

      如果覺(jué)得本文對(duì)你有幫助,麻煩點(diǎn)個(gè)贊和關(guān)注唄 ~~~


        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多