乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      50頁(yè)ppt,一起梳理AI Agent的關(guān)鍵技術(shù)進(jìn)展

       mrjiangkai 2025-05-13 發(fā)布于上海

      黃仁勛在英偉達(dá)GTC2025的主題演講中回顧了AI過(guò)去十幾年的發(fā)展。從2012AlexNet開(kāi)始的深度學(xué)習(xí),到近幾年大模型推動(dòng)的生成式AI,再到當(dāng)下正經(jīng)歷的Agentic AI,直到未來(lái)的Physical AI。

      Image

      深度學(xué)習(xí)的十年里,AI進(jìn)展超過(guò)了此前傳統(tǒng)機(jī)器學(xué)習(xí)三十年的積累。而ChatGPT上線后的短短兩年半,AI更是突飛猛進(jìn),取得的成果已經(jīng)遠(yuǎn)超深度學(xué)習(xí)的十年。

      “人間一天,AI一年”。從今天回望,深度學(xué)習(xí)像是上古時(shí)期的,傳統(tǒng)機(jī)器學(xué)習(xí)則是更遙遠(yuǎn)的遠(yuǎn)古技術(shù),而SVM之前的專(zhuān)家系統(tǒng),算是文明尚未開(kāi)化的史前AI。
      當(dāng)前所處的Agentic AI有兩波標(biāo)志性事件:第一波是去年9月開(kāi)始的以O(shè)penAI的o1和DeepSeek的R1為代表的推理模型逐漸成熟,第二波是今年初的o3模型上線和Deep Research、Operator、Manus等Agent應(yīng)用的出現(xiàn)。
      Image

      在大模型之前,以專(zhuān)家系統(tǒng)、傳統(tǒng)機(jī)器學(xué)習(xí)和傳統(tǒng)深度學(xué)習(xí)為代表的AI依賴專(zhuān)業(yè)界面和指令,解決專(zhuān)用任務(wù)。比如用Photoshop進(jìn)行交互式摳圖。這一階段的AI和人類(lèi)歷史上每次技術(shù)革命一樣,提供的是被人類(lèi)使用的工具。

      大模型帶來(lái)的通用任務(wù)解決能力和自然語(yǔ)言交互界面,使AI成為人機(jī)協(xié)作的副駕駛Co-Pilot。比如GPT-4o支持基于自然語(yǔ)言指令生成圖片、摳圖、風(fēng)格遷移等。不過(guò),此時(shí)仍需人類(lèi)給出明確、具體的指令:人指揮一步,AI執(zhí)行一步。
      Image

      除了內(nèi)容理解和生成的感知能力,大模型逐步具備了任務(wù)規(guī)劃和工具使用的認(rèn)知決策和行動(dòng)能力AI可以直接理解和實(shí)現(xiàn)目標(biāo)導(dǎo)向的高層需求。

      比如提出“為某新產(chǎn)品設(shè)計(jì)海報(bào)并發(fā)布到小紅書(shū)”,Manus會(huì)自主進(jìn)行任務(wù)規(guī)劃將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù),并在必要時(shí)使用外部工具/其他agent來(lái)執(zhí)行其中某個(gè)子任務(wù)。

      此時(shí),AI成為了主駕駛Auto-Pilot--AI Agent。根據(jù)OpenAI的定義:AI Agent是具備自主理解、規(guī)劃、記憶和工具調(diào)用能力的系統(tǒng),能自動(dòng)化完成復(fù)雜任務(wù)。

      Image

      以上是從AI發(fā)展的角度看如何從Tool演變?yōu)?/span>AI Agent。從Agent這個(gè)術(shù)語(yǔ)本身出發(fā),哲學(xué)和AI有不同的定義。以技術(shù)實(shí)現(xiàn)為目的,我們更關(guān)注AI定義中的自主性、反應(yīng)性和交互式,暫不討論尚未形成共識(shí)的哲學(xué)范疇的意識(shí)等問(wèn)題。

      實(shí)際上,Agent一直是AI發(fā)展中的核心概念。從技術(shù)路徑看,先后經(jīng)歷了基于規(guī)則和基于強(qiáng)化學(xué)習(xí)兩個(gè)階段。AlphaGoOpenAI早期的游戲Agent即基于強(qiáng)化學(xué)習(xí)訓(xùn)練,在單一任務(wù)、封閉環(huán)境中達(dá)到了超過(guò)人類(lèi)的水平。

      今天的AI Agent建立在大模型的基礎(chǔ)上,通過(guò)預(yù)訓(xùn)練獲得了世界知識(shí)先驗(yàn),并以語(yǔ)言作為處理不同任務(wù)的接口,使得AI Agent超越了僅依賴強(qiáng)化學(xué)習(xí)的局限,具備一定的泛化能力和通用性。

      根據(jù)行為發(fā)起主體,AI Agent又可以分為被動(dòng)響應(yīng)人類(lèi)需求的autonomous agent,和具備類(lèi)人格特征和主動(dòng)行為模式的generative agent

      Image

      以下從任務(wù)規(guī)劃和工具使用兩種核心能力、以及應(yīng)用這三個(gè)方面,介紹前一種AI Agent -- autonomous agent的進(jìn)展。

      1.  任務(wù)規(guī)劃

      任務(wù)規(guī)劃與人類(lèi)的系統(tǒng)二能力緊密相關(guān)。按照心理學(xué)理論,系統(tǒng)一代表直覺(jué),從Q直接到A,屬于“快思考”;系統(tǒng)二從QA之間增加了多步的邏輯推理,屬于“慢思考”。

      (區(qū)分推理和推斷推理reasoning指模型通過(guò)多步驟、結(jié)構(gòu)化的中間過(guò)程來(lái)得出結(jié)論;而推斷inference泛指模型生成輸出結(jié)果的過(guò)程,可能基于推理、也可能不基于推理)。
      Image

      要讓大模型實(shí)現(xiàn)系統(tǒng)二的推理能力,第一種方法是提示詞。

      比如思維鏈CoT、思維樹(shù)ToT等方法,提供少量包含推理過(guò)程的樣本示例,激發(fā)模型In-Context Learning上下文學(xué)習(xí),在線調(diào)整其推斷行為。

      Image

      大模型從預(yù)訓(xùn)練的多任務(wù)學(xué)習(xí)中學(xué)到了捕捉上下文關(guān)聯(lián)的自注意力,提示詞相當(dāng)于在推斷階段增加了一個(gè)“條件層”,讓模型在進(jìn)行推斷時(shí)參考示例中的推理結(jié)構(gòu),影響其生成結(jié)果。

      Image

      然而,互聯(lián)網(wǎng)語(yǔ)料主要是 (Q, A) 的形式,這意味著自注意力中學(xué)到的上下文關(guān)聯(lián)是在問(wèn)題和答案之間的。而推理需要捕捉推理過(guò)程和答案之間的關(guān)聯(lián)。在推理過(guò)程上將p(A|Q)展開(kāi)后,可以看得很清楚。

      因此,最直接的方式還是構(gòu)造含有推理過(guò)程的數(shù)據(jù),通過(guò)學(xué)習(xí)將推理能力內(nèi)化進(jìn)到模型里。

      Image

      主要有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種學(xué)習(xí)路線。監(jiān)督學(xué)習(xí)類(lèi)似師傅手把手教徒弟,像是大學(xué)之前的通識(shí)教育,提供標(biāo)準(zhǔn)解法和完整步驟。

      強(qiáng)化學(xué)習(xí)則更像研究生教育,導(dǎo)師出了題目,學(xué)生自己探索,導(dǎo)師定期給反饋。從這個(gè)類(lèi)比也可以理解強(qiáng)化學(xué)習(xí)中結(jié)果獎(jiǎng)勵(lì)和過(guò)程獎(jiǎng)勵(lì)的關(guān)系。

      Image

      以上是從老師的角度,監(jiān)督學(xué)習(xí)是“教”,強(qiáng)化學(xué)習(xí)是“育”。

      從學(xué)生的角度,監(jiān)督學(xué)習(xí)是“學(xué)”,強(qiáng)化學(xué)習(xí)是“習(xí)”。別人標(biāo)注的推理路徑不一定適合你,在試錯(cuò)中探索適合自己的路徑才是王道。

      o1首次展示了基于學(xué)習(xí)的推理模型的潛力。

      之后學(xué)術(shù)界和開(kāi)源社區(qū)出現(xiàn)了大量復(fù)現(xiàn)工作。和預(yù)訓(xùn)練需要大規(guī)模集群不同,推理模型的學(xué)習(xí)聚焦后訓(xùn)練階段,算力資源的門(mén)檻相對(duì)較低。

      而且,預(yù)訓(xùn)練算法在GPT-3.5之前基本都開(kāi)源了,加上ChatGPT發(fā)布后一年多的時(shí)間,大家摸索地七七八八了。但后訓(xùn)練、特別是用強(qiáng)化學(xué)習(xí)訓(xùn)練大語(yǔ)言模型,有大量待探索的工作。學(xué)術(shù)界覺(jué)得自己又行了。
      Image
      Image

      再之后就是DeepSeek R1將推理模型的訓(xùn)練秘籍公開(kāi),而且大幅壓縮了模型訓(xùn)練和推斷成本。

      o1驗(yàn)證了推理模型的可行性R1極致優(yōu)化效率,降低技術(shù)應(yīng)用門(mén)檻。從新技術(shù)的早期 demo 出現(xiàn),到成本降低后的規(guī)?;瘧?yīng)用,是典型的技術(shù)演進(jìn)路徑。

      強(qiáng)化學(xué)習(xí)在推理模型訓(xùn)練中的作用有兩點(diǎn)啟發(fā):(1)計(jì)算換數(shù)據(jù),(2)合成新數(shù)據(jù)。通過(guò)強(qiáng)化學(xué)習(xí)采樣出新的高質(zhì)量數(shù)據(jù),為突破人類(lèi)數(shù)據(jù)局限、進(jìn)一步提升模型能力提供了可能。
      Image

      2.  工具使用

      AI Agent可調(diào)用的工具主要有API接口、數(shù)據(jù)庫(kù)和知識(shí)庫(kù)、外部模型等。對(duì)于無(wú)法API化的外部系統(tǒng),可以將圖形界面交互也封裝成工具供Agent調(diào)用。

      Image
      Image

      使用工具的第一種方式是系統(tǒng)層的預(yù)設(shè)流程即通過(guò)硬編碼方式定義Agent的行為邏輯。

      優(yōu)點(diǎn)是確定性強(qiáng)、可靠,但缺乏靈活性、難以應(yīng)對(duì)開(kāi)放性和動(dòng)態(tài)變化的環(huán)境。字節(jié)的Coze是典型的通過(guò)設(shè)計(jì)工作流搭建Agent的平臺(tái)。

      Image

      另一種實(shí)現(xiàn)方式模型層的提示詞觸發(fā),引導(dǎo)模型選擇合適的工具。這種方式更加靈活,適用于基于局部上下文的任務(wù)決策。AutoGPT是早期代表性的基于提示詞的Agent框架。

      Image

      Agent框架使用的提示詞方法包括ReActReflexion等。任務(wù)規(guī)劃使用的XoT關(guān)注模型內(nèi)部行為,ReAct通過(guò)使用工具與外部環(huán)境交互,Reflexion則進(jìn)一步結(jié)合整個(gè)行為軌跡,支持Agent從錯(cuò)誤中學(xué)習(xí)并改進(jìn)行動(dòng)策略。

      Image
      Image
      Image
      Image

      Manus結(jié)合使用了預(yù)設(shè)流程和提示詞的方法:預(yù)設(shè)的任務(wù)解決流程是問(wèn)題分析-任務(wù)規(guī)劃-調(diào)用子任務(wù)Agent-結(jié)果總結(jié)等,在每個(gè)子任務(wù)Agent內(nèi)部則設(shè)計(jì)了針對(duì)性的提示詞。

      Image

      與推理能力類(lèi)似,工具使用(在推理鏈中使用工具,Chain-of-ActionCoA)也可以通過(guò)學(xué)習(xí)的方式內(nèi)化到模型中。

      將預(yù)設(shè)流程和提示詞觸發(fā)兩種方式統(tǒng)稱(chēng)為工作流。根據(jù)“更少的人工,更多的智能”的原則,基于學(xué)習(xí)得到的Agent模型應(yīng)該具有更高的上限。

      基于端到端學(xué)習(xí)的Agent模型o3416日正式上線。Greg Brockman在介紹時(shí)明確說(shuō)o3學(xué)習(xí)“在思維鏈中使用工具”。

      Image

      3月初的論文給agent模型下了一個(gè)定義。

      LLM和推理模型的人-模型二元結(jié)構(gòu)不同,agent模型要求能夠同時(shí)進(jìn)行思考與行動(dòng),形成了由人、模型和環(huán)境構(gòu)成的三元結(jié)構(gòu):使用工具與環(huán)境進(jìn)行交互以獲得反饋,經(jīng)過(guò)多輪的思考、行動(dòng)和觀察后,最終生成回復(fù)。

      推理模型已經(jīng)具備了通用推理能力和單點(diǎn)的工具使用能力。Agent模型訓(xùn)練旨在面向任務(wù)目標(biāo),端到端訓(xùn)練模型在推理過(guò)程中的鏈?zhǔn)焦ぞ呤褂媚芰Α?/span>

      如同研究生通過(guò)完成學(xué)位論文,才能掌握如何整合查閱文獻(xiàn)、做實(shí)驗(yàn)、繪制圖表這些單個(gè)技能完成一個(gè)復(fù)雜的任務(wù)。

      Image
      Agent模型學(xué)習(xí)框架需要平衡思考與行動(dòng),并處理外部環(huán)境交互帶來(lái)的訓(xùn)練不穩(wěn)定和效率低成本高的問(wèn)題。
      AutoCoA設(shè)計(jì)了分層SFT,將模型行動(dòng)的whenhow兩個(gè)能力拆解;并提出了混合環(huán)境RL,訓(xùn)練策略模型自己模擬環(huán)境反饋。
      Image

      端到端訓(xùn)練的Agent模型,由于面向任務(wù)目標(biāo)進(jìn)行了策略優(yōu)化,其選擇的工具和工具使用參數(shù)是面向全局任務(wù)目標(biāo)生成的。

      相比之下,提示詞觸發(fā)的agentic工作流方法,模型雖然也有一定的自主靈活性,但行動(dòng)是單步進(jìn)行的,只能根據(jù)局部上下文做出選擇。

      Image

      Agent模型探索能力上限,Agentic工作流保證任務(wù)執(zhí)行下限,二者在很長(zhǎng)時(shí)間內(nèi)將結(jié)合使用。

      三種可能的結(jié)合方式:(1模塊化協(xié)作,確定性流程使用工作流,靈活性需求使用Agent模型;(2校驗(yàn)?zāi)P徒Y(jié)果,通過(guò)工作流對(duì)Agent模型的輸出進(jìn)行校驗(yàn),減少模型的隨機(jī)性和幻覺(jué)不確定性等問(wèn)題;(3框架+實(shí)現(xiàn),工作流搭建頂層確定框架,模型實(shí)現(xiàn)底層靈活和智能。

      Image

      隨著自主性進(jìn)一步提高,工具也將由agent通過(guò)在線編程按需創(chuàng)建。一些全棧開(kāi)發(fā)的agent,比如Devin、亞馬遜的Kiro都在實(shí)現(xiàn)類(lèi)似的功能。

      Image

      3.  AI Agent應(yīng)用
      OperatorDeep Research代表了目前AI Agent的兩個(gè)主要應(yīng)用方向:操作action agent信息information agent。
      前者扮演眼和手的角色,擅長(zhǎng)環(huán)境交互與自動(dòng)化操作,適用于重復(fù)性強(qiáng)的操作密集型任務(wù)。后者扮演大腦的角色,擅長(zhǎng)知識(shí)整合與復(fù)雜分析,適用于知識(shí)密集型任務(wù)。
      Image

      實(shí)現(xiàn)方式上包括GUI Agent、API Agent和多Agent三種

      其中多Agent,比如榮耀的OS Agent YoYo”調(diào)用中移動(dòng)的App Agent“靈犀”,目前看是使用大型App、兼顧通用性和效率的可選方案。

      Image

      GUI AgentAPI Agent代表了看待未來(lái)AI發(fā)展的兩種思維。GUI Agent代表的是讓AI適應(yīng)人類(lèi)的數(shù)字世界,人形機(jī)器人即是讓AI適應(yīng)人類(lèi)的物理世界。

      Image

      相比物理世界改造的困難,數(shù)字世界的改造要相對(duì)容易些。API Agent則希望為AI創(chuàng)建一個(gè)原生的世界,包括為AI專(zhuān)門(mén)設(shè)計(jì)的工具、交流語(yǔ)言等。

      Image

      AutoCoA的框架主要面向的是API Agent。從4月中旬開(kāi)始,幾個(gè)大廠密集發(fā)布的工作,也證明端到端RLAPI Agent上是跑得通的。

      但在GUI Agent上,強(qiáng)如字節(jié)的UI-TARS,RL也只能在單步行動(dòng)上訓(xùn)練。

      問(wèn)題可能出在是對(duì)GUI context的理解上:截屏的方法增加了感知環(huán)節(jié),使得端到端訓(xùn)練難以進(jìn)行;可訪問(wèn)樹(shù)的方法由于信息丟失,會(huì)影響上下文信息的利用。

      Image

      Action agent目前主要在各類(lèi)終端上。Agent入口的層級(jí)從高到低有應(yīng)用級(jí)、系統(tǒng)級(jí)和硬件級(jí)。

      微信將元寶直接放到聯(lián)系人中,再次體現(xiàn)了騰訊作為連接器的定位:通過(guò)微信連接人和信息-公眾號(hào),連接人和服務(wù)-小程序,甚至連接任何交易-微信支付。

      終端agent應(yīng)該具備自然交互、自動(dòng)化、個(gè)性化三個(gè)特點(diǎn)。分別對(duì)應(yīng)了感知、認(rèn)知和記憶三方面主要能力。

      Image
      Image

      Information agent從基于單次搜索的信息查詢,發(fā)展到基于多次搜索的知識(shí)服務(wù)。

      OpenAIdeep research進(jìn)一步實(shí)現(xiàn)了面向任務(wù)完成的多次搜索優(yōu)化,代表了未來(lái)AI Agent應(yīng)用的重要方向。

      人的信息處理能力,從查詢、總結(jié)到綜合分析,目前information agent已基本具備。更高級(jí)的創(chuàng)造能力,除了模型智能的提升,還需要更多的API接口、以及融合action agent與物理世界打通提供更多元的外部信息才可能實(shí)現(xiàn)。

      Image

      關(guān)于AI Agent應(yīng)該通用還是垂直的討論。

      從任務(wù)特點(diǎn)看,agentchatbotreasoner不同,關(guān)注的是具體任務(wù)的執(zhí)行,這也是“AI下半場(chǎng)”的另一種解釋?zhuān)簭乃⑼ㄓ媚芰Φ?/span>benchmark到解決具體任務(wù)。

      從實(shí)現(xiàn)方式看,工作流的方法需要面向任務(wù)設(shè)計(jì)具體的執(zhí)行邏輯;基于RL學(xué)習(xí)的方法,則需要根據(jù)任務(wù)目標(biāo),設(shè)定準(zhǔn)確的環(huán)境獎(jiǎng)勵(lì)
      Image

      對(duì)o3agent基礎(chǔ)模型微調(diào)獲得垂直agent的通用公式是:準(zhǔn)備完成任務(wù)所需的專(zhuān)業(yè)工具集、受控環(huán)境內(nèi)可驗(yàn)證的任務(wù)目標(biāo),然后進(jìn)行強(qiáng)化微調(diào)。

      隨著o3、Qwen3等Agent基礎(chǔ)模型成熟,就好像高素質(zhì)的研究生畢業(yè)生供應(yīng)增加。企業(yè)需要接下來(lái)結(jié)合具體任務(wù)繼續(xù)培養(yǎng),在特定工作上訓(xùn)練成為業(yè)務(wù)專(zhuān)家。

      端到端訓(xùn)練垂直Agent,已經(jīng)在廣告(ICON)、網(wǎng)絡(luò)安全(XBOW)、軟件開(kāi)發(fā)(Traversal)等領(lǐng)域有了成功案例。

      Image

      OpenAI開(kāi)始用可替代的人類(lèi)專(zhuān)家工時(shí)評(píng)估模型的能力,這表明agent逐步作為一種服務(wù)成為生產(chǎn)力。

      Agent的生產(chǎn)力由模型智能、工具多樣性和數(shù)據(jù)專(zhuān)業(yè)性三個(gè)因素決定。應(yīng)用層不僅要承接最新模型成果,還需要從工具和數(shù)據(jù)兩個(gè)方面向下優(yōu)化模型。

      chatbot失效的數(shù)據(jù)飛輪不同,在agent階段,普通用戶的行動(dòng)流數(shù)據(jù)對(duì)于提升模型能力還是有用的,所以AI Agent產(chǎn)品目前仍然存在數(shù)據(jù)飛輪。OpenAI收購(gòu)Windsurf,很大程度上是看重其豐富的開(kāi)發(fā)者agentic行為數(shù)據(jù)。

      對(duì)比傳統(tǒng)軟件通過(guò)需求分析確定高頻、標(biāo)準(zhǔn)、靜態(tài)的需求,基于Agent的服務(wù)可以滿足長(zhǎng)尾、個(gè)性化、動(dòng)態(tài)的需求?;?/span>Agent的新一代軟件的界面可能被高度簡(jiǎn)化為一個(gè)對(duì)話框,傳統(tǒng)復(fù)雜的操作過(guò)程被隱藏,成為面向目標(biāo)的服務(wù)交付。
      Image
      Image

      如喬布斯40年前的預(yù)言,how to do、what to do,到what I want用戶只需描述我想要什么,Agent自動(dòng)完成怎么做。AI Agent代表了新的抽象層,已經(jīng)無(wú)限接近人類(lèi)思維。

      正如網(wǎng)頁(yè)和App是互聯(lián)網(wǎng)信息的應(yīng)用載體,agent是智能服務(wù)的載體。Agent的設(shè)計(jì),因此應(yīng)該更充分地發(fā)揮AI整合底層數(shù)據(jù)資源和工具生態(tài)效率和能力。

      Image

      這需要action agentinformation agent的深度融合。馬斯克曾說(shuō):電腦和手機(jī)是人的數(shù)字延伸,其帶來(lái)的無(wú)限信息訪問(wèn)能力已經(jīng)可以讓我們成為超人了。

      讓AI像人一樣操縱電腦,從而接管一切人類(lèi)在屏幕前完成的工作,是OpenAI成立時(shí)就定下的目標(biāo)。

      隨著action agent接入更多I/O,information agent可使用更多工具,AI Agent正在突破人類(lèi)肉身的物理限制,可以以無(wú)限帶寬連接世界。這不僅是完成人類(lèi)的任務(wù),更是讓agent自主、持續(xù)地從人類(lèi)世界學(xué)習(xí)和進(jìn)化的方式。

      Agent OS將成為AI Agent的運(yùn)行基礎(chǔ)。

      任務(wù)規(guī)劃、工具使用和記憶是AI Agent的三個(gè)基礎(chǔ)能力。關(guān)于記憶,“大海撈針”評(píng)估的主要是單點(diǎn)信息檢索的能力,agent解決復(fù)雜任務(wù)需要的是上下文理解和全局推理能力。

      最近一年已經(jīng)看到了任務(wù)規(guī)劃和工具使用能力的發(fā)展,期待記憶機(jī)制的突破。

      Image
                                            

      回到黃仁勛的主題演講。

      預(yù)訓(xùn)練、后訓(xùn)練、推斷三階段的scaling law,支撐著目前生成式AI和Agentic AI的發(fā)展。

      Image
      這背后是從算力到智能的sweet lesson。
      隨著算力每年增長(zhǎng)4-5倍,近十年的算力已經(jīng)提升了百萬(wàn)倍。當(dāng)算力資源成為主要的推動(dòng)因素,AI發(fā)展的一條暗線是:如何將越來(lái)越多的算力以最高的效率轉(zhuǎn)化為智能的提升。
      這一過(guò)程分成了三個(gè)階段。早期從SVM到DNN再到Transformer,是從算法側(cè)消化算力,能在大量數(shù)據(jù)上訓(xùn)練大規(guī)模參數(shù)的模型,可以說(shuō)到Transformer已基本收斂了。
      接下來(lái)解決的是如何提供源源不斷的數(shù)據(jù)。這包括了預(yù)訓(xùn)練基于自監(jiān)督學(xué)習(xí)可以吃掉整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù),以及后訓(xùn)練結(jié)合強(qiáng)化學(xué)習(xí)將算力轉(zhuǎn)化為高質(zhì)量的合成數(shù)據(jù)。
      AI Agent是這一線索的延續(xù):在推斷階段,用更多時(shí)間消耗更多算力,進(jìn)一步提升智能水平。
      Image
      進(jìn)一步,從預(yù)訓(xùn)練到后訓(xùn)練再到推斷的三個(gè)scaling law,不是簡(jiǎn)單的單向關(guān)系。
      后訓(xùn)練中采樣獲得的高質(zhì)量推理數(shù)據(jù),推斷階段通過(guò)工具與外部環(huán)境交互獲得的行為數(shù)據(jù),可以反哺預(yù)訓(xùn)練,形成正向循環(huán),實(shí)現(xiàn)智能的持續(xù)提升。
      Image

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多