黃仁勛在英偉達(dá)GTC2025的主題演講中回顧了AI過(guò)去十幾年的發(fā)展。從2012年AlexNet開(kāi)始的深度學(xué)習(xí),到近幾年大模型推動(dòng)的生成式AI,再到當(dāng)下正經(jīng)歷的Agentic AI,直到未來(lái)的Physical AI。 ![]() 深度學(xué)習(xí)的十年里,AI進(jìn)展超過(guò)了此前傳統(tǒng)機(jī)器學(xué)習(xí)三十年的積累。而ChatGPT上線后的短短兩年半,AI更是突飛猛進(jìn),取得的成果已經(jīng)遠(yuǎn)超深度學(xué)習(xí)的十年。 ![]() 在大模型之前,以專(zhuān)家系統(tǒng)、傳統(tǒng)機(jī)器學(xué)習(xí)和傳統(tǒng)深度學(xué)習(xí)為代表的AI,依賴專(zhuān)業(yè)界面和指令,解決專(zhuān)用任務(wù)。比如用Photoshop進(jìn)行交互式摳圖。這一階段的AI和人類(lèi)歷史上每次技術(shù)革命一樣,提供的是被人類(lèi)使用的工具。 ![]() 除了內(nèi)容理解和生成的感知能力,大模型逐步具備了任務(wù)規(guī)劃和工具使用的認(rèn)知決策和行動(dòng)能力。AI可以直接理解和實(shí)現(xiàn)目標(biāo)導(dǎo)向的高層需求。 比如提出“為某新產(chǎn)品設(shè)計(jì)海報(bào)并發(fā)布到小紅書(shū)”,Manus會(huì)自主進(jìn)行任務(wù)規(guī)劃—將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù),并在必要時(shí)使用外部工具/其他agent來(lái)執(zhí)行其中某個(gè)子任務(wù)。 此時(shí),AI成為了主駕駛Auto-Pilot--即AI Agent。根據(jù)OpenAI的定義:AI Agent是具備自主理解、規(guī)劃、記憶和工具調(diào)用能力的系統(tǒng),能自動(dòng)化完成復(fù)雜任務(wù)。 ![]() 以上是從AI發(fā)展的角度看如何從Tool演變?yōu)?/span>AI Agent。從Agent這個(gè)術(shù)語(yǔ)本身出發(fā),哲學(xué)和AI有不同的定義。以技術(shù)實(shí)現(xiàn)為目的,我們更關(guān)注AI定義中的自主性、反應(yīng)性和交互式,暫不討論尚未形成共識(shí)的哲學(xué)范疇的意識(shí)等問(wèn)題。 實(shí)際上,Agent一直是AI發(fā)展中的核心概念。從技術(shù)路徑看,先后經(jīng)歷了基于規(guī)則和基于強(qiáng)化學(xué)習(xí)兩個(gè)階段。AlphaGo和OpenAI早期的游戲Agent即基于強(qiáng)化學(xué)習(xí)訓(xùn)練,在單一任務(wù)、封閉環(huán)境中達(dá)到了超過(guò)人類(lèi)的水平。 今天的AI Agent建立在大模型的基礎(chǔ)上,通過(guò)預(yù)訓(xùn)練獲得了世界知識(shí)先驗(yàn),并以語(yǔ)言作為處理不同任務(wù)的接口,使得AI Agent超越了僅依賴強(qiáng)化學(xué)習(xí)的局限,具備一定的泛化能力和通用性。 根據(jù)行為發(fā)起主體,AI Agent又可以分為被動(dòng)響應(yīng)人類(lèi)需求的autonomous agent,和具備類(lèi)人格特征和主動(dòng)行為模式的generative agent。 ![]() 以下從任務(wù)規(guī)劃和工具使用兩種核心能力、以及應(yīng)用這三個(gè)方面,介紹前一種AI Agent -- autonomous agent的進(jìn)展。 1. 任務(wù)規(guī)劃 任務(wù)規(guī)劃與人類(lèi)的系統(tǒng)二能力緊密相關(guān)。按照心理學(xué)理論,系統(tǒng)一代表直覺(jué),從Q直接到A,屬于“快思考”;系統(tǒng)二從Q到A之間增加了多步的邏輯推理,屬于“慢思考”。 ![]() 要讓大模型實(shí)現(xiàn)系統(tǒng)二的推理能力,第一種方法是提示詞。 比如思維鏈CoT、思維樹(shù)ToT等方法,提供少量包含推理過(guò)程的樣本示例,激發(fā)模型In-Context Learning上下文學(xué)習(xí),在線調(diào)整其推斷行為。 ![]() 大模型從預(yù)訓(xùn)練的多任務(wù)學(xué)習(xí)中學(xué)到了捕捉上下文關(guān)聯(lián)的自注意力,提示詞相當(dāng)于在推斷階段增加了一個(gè)“條件層”,讓模型在進(jìn)行推斷時(shí)參考示例中的推理結(jié)構(gòu),影響其生成結(jié)果。 ![]() 然而,互聯(lián)網(wǎng)語(yǔ)料主要是 (Q, A) 的形式,這意味著自注意力中學(xué)到的上下文關(guān)聯(lián)是在問(wèn)題和答案之間的。而推理需要捕捉推理過(guò)程和答案之間的關(guān)聯(lián)。在推理過(guò)程上將p(A|Q)展開(kāi)后,可以看得很清楚。 因此,最直接的方式還是構(gòu)造含有推理過(guò)程的數(shù)據(jù),通過(guò)學(xué)習(xí)將推理能力內(nèi)化進(jìn)到模型里。 ![]() 主要有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種學(xué)習(xí)路線。監(jiān)督學(xué)習(xí)類(lèi)似師傅手把手教徒弟,像是大學(xué)之前的通識(shí)教育,提供標(biāo)準(zhǔn)解法和完整步驟。 強(qiáng)化學(xué)習(xí)則更像研究生教育,導(dǎo)師出了題目,學(xué)生自己探索,導(dǎo)師定期給反饋。從這個(gè)類(lèi)比也可以理解強(qiáng)化學(xué)習(xí)中結(jié)果獎(jiǎng)勵(lì)和過(guò)程獎(jiǎng)勵(lì)的關(guān)系。 ![]() 以上是從老師的角度,監(jiān)督學(xué)習(xí)是“教”,強(qiáng)化學(xué)習(xí)是“育”。 從學(xué)生的角度,監(jiān)督學(xué)習(xí)是“學(xué)”,強(qiáng)化學(xué)習(xí)是“習(xí)”。別人標(biāo)注的推理路徑不一定適合你,在試錯(cuò)中探索適合自己的路徑才是王道。 o1首次展示了基于學(xué)習(xí)的推理模型的潛力。 之后學(xué)術(shù)界和開(kāi)源社區(qū)出現(xiàn)了大量復(fù)現(xiàn)工作。和預(yù)訓(xùn)練需要大規(guī)模集群不同,推理模型的學(xué)習(xí)聚焦后訓(xùn)練階段,算力資源的門(mén)檻相對(duì)較低。 ![]() ![]() 再之后就是DeepSeek R1將推理模型的訓(xùn)練秘籍公開(kāi),而且大幅壓縮了模型訓(xùn)練和推斷成本。 o1驗(yàn)證了推理模型的可行性,R1極致優(yōu)化效率,降低技術(shù)應(yīng)用門(mén)檻。從新技術(shù)的早期 demo 出現(xiàn),到成本降低后的規(guī)?;瘧?yīng)用,是典型的技術(shù)演進(jìn)路徑。 ![]() AI Agent可調(diào)用的工具主要有API接口、數(shù)據(jù)庫(kù)和知識(shí)庫(kù)、外部模型等。對(duì)于無(wú)法API化的外部系統(tǒng),可以將圖形界面交互也封裝成工具供Agent調(diào)用。 ![]() ![]() 使用工具的第一種方式是系統(tǒng)層的預(yù)設(shè)流程,即通過(guò)硬編碼方式定義Agent的行為邏輯。 優(yōu)點(diǎn)是確定性強(qiáng)、可靠,但缺乏靈活性、難以應(yīng)對(duì)開(kāi)放性和動(dòng)態(tài)變化的環(huán)境。字節(jié)的Coze是典型的通過(guò)設(shè)計(jì)工作流搭建Agent的平臺(tái)。 ![]() 另一種實(shí)現(xiàn)方式是模型層的提示詞觸發(fā),引導(dǎo)模型選擇合適的工具。這種方式更加靈活,適用于基于局部上下文的任務(wù)決策。AutoGPT是早期代表性的基于提示詞的Agent框架。 ![]() Agent框架使用的提示詞方法包括ReAct、Reflexion等。任務(wù)規(guī)劃使用的XoT關(guān)注模型內(nèi)部行為,ReAct通過(guò)使用工具與外部環(huán)境交互,Reflexion則進(jìn)一步結(jié)合整個(gè)行為軌跡,支持Agent從錯(cuò)誤中學(xué)習(xí)并改進(jìn)行動(dòng)策略。 ![]() ![]() ![]() ![]() Manus結(jié)合使用了預(yù)設(shè)流程和提示詞的方法:預(yù)設(shè)的任務(wù)解決流程是問(wèn)題分析-任務(wù)規(guī)劃-調(diào)用子任務(wù)Agent-結(jié)果總結(jié)等,在每個(gè)子任務(wù)Agent內(nèi)部則設(shè)計(jì)了針對(duì)性的提示詞。 ![]() 與推理能力類(lèi)似,工具使用(在推理鏈中使用工具,Chain-of-Action,CoA)也可以通過(guò)學(xué)習(xí)的方式內(nèi)化到模型中。 將預(yù)設(shè)流程和提示詞觸發(fā)兩種方式統(tǒng)稱(chēng)為工作流。根據(jù)“更少的人工,更多的智能”的原則,基于學(xué)習(xí)得到的Agent模型應(yīng)該具有更高的上限。 基于端到端學(xué)習(xí)的Agent模型o3于4月16日正式上線。Greg Brockman在介紹時(shí)明確說(shuō)o3學(xué)習(xí)“在思維鏈中使用工具”。 ![]() 3月初的論文給agent模型下了一個(gè)定義。 與LLM和推理模型的人-模型二元結(jié)構(gòu)不同,agent模型要求能夠同時(shí)進(jìn)行思考與行動(dòng),形成了由人、模型和環(huán)境構(gòu)成的三元結(jié)構(gòu):使用工具與環(huán)境進(jìn)行交互以獲得反饋,經(jīng)過(guò)多輪的思考、行動(dòng)和觀察后,最終生成回復(fù)。 推理模型已經(jīng)具備了通用推理能力和單點(diǎn)的工具使用能力。Agent模型訓(xùn)練旨在面向任務(wù)目標(biāo),端到端訓(xùn)練模型在推理過(guò)程中的鏈?zhǔn)焦ぞ呤褂媚芰Α?/span> 如同研究生通過(guò)完成學(xué)位論文,才能掌握如何整合查閱文獻(xiàn)、做實(shí)驗(yàn)、繪制圖表這些單個(gè)技能完成一個(gè)復(fù)雜的任務(wù)。 ![]() ![]() 端到端訓(xùn)練的Agent模型,由于面向任務(wù)目標(biāo)進(jìn)行了策略優(yōu)化,其選擇的工具和工具使用參數(shù)是面向全局任務(wù)目標(biāo)生成的。 相比之下,提示詞觸發(fā)的agentic工作流方法,模型雖然也有一定的自主靈活性,但行動(dòng)是單步進(jìn)行的,只能根據(jù)局部上下文做出選擇。 ![]() Agent模型探索能力上限,Agentic工作流保證任務(wù)執(zhí)行下限,二者在很長(zhǎng)時(shí)間內(nèi)將結(jié)合使用。 三種可能的結(jié)合方式:(1)模塊化協(xié)作,確定性流程使用工作流,靈活性需求使用Agent模型;(2)校驗(yàn)?zāi)P徒Y(jié)果,通過(guò)工作流對(duì)Agent模型的輸出進(jìn)行校驗(yàn),減少模型的隨機(jī)性和幻覺(jué)不確定性等問(wèn)題;(3)框架+實(shí)現(xiàn),工作流搭建頂層確定框架,模型實(shí)現(xiàn)底層靈活和智能。 ![]() 隨著自主性進(jìn)一步提高,工具也將由agent通過(guò)在線編程按需創(chuàng)建。一些全棧開(kāi)發(fā)的agent,比如Devin、亞馬遜的Kiro都在實(shí)現(xiàn)類(lèi)似的功能。 ![]() ![]() 實(shí)現(xiàn)方式上包括GUI Agent、API Agent和多Agent三種。 其中多Agent,比如榮耀的OS Agent “YoYo”調(diào)用中移動(dòng)的App Agent“靈犀”,目前看是使用大型App、兼顧通用性和效率的可選方案。 ![]() GUI Agent和API Agent代表了看待未來(lái)AI發(fā)展的兩種思維。GUI Agent代表的是讓AI適應(yīng)人類(lèi)的數(shù)字世界,人形機(jī)器人即是讓AI適應(yīng)人類(lèi)的物理世界。 ![]() 相比物理世界改造的困難,數(shù)字世界的改造要相對(duì)容易些。API Agent則希望為AI創(chuàng)建一個(gè)原生的世界,包括為AI專(zhuān)門(mén)設(shè)計(jì)的工具、交流語(yǔ)言等。 ![]() AutoCoA的框架主要面向的是API Agent。從4月中旬開(kāi)始,幾個(gè)大廠密集發(fā)布的工作,也證明端到端RL在API Agent上是跑得通的。 但在GUI Agent上,強(qiáng)如字節(jié)的UI-TARS,RL也只能在單步行動(dòng)上訓(xùn)練。 問(wèn)題可能出在是對(duì)GUI context的理解上:截屏的方法增加了感知環(huán)節(jié),使得端到端訓(xùn)練難以進(jìn)行;可訪問(wèn)樹(shù)的方法由于信息丟失,會(huì)影響上下文信息的利用。 ![]() Action agent目前主要在各類(lèi)終端上。Agent入口的層級(jí)從高到低有應(yīng)用級(jí)、系統(tǒng)級(jí)和硬件級(jí)。 微信將元寶直接放到聯(lián)系人中,再次體現(xiàn)了騰訊作為連接器的定位:通過(guò)微信連接人和信息-公眾號(hào),連接人和服務(wù)-小程序,甚至連接任何交易-微信支付。 終端agent應(yīng)該具備自然交互、自動(dòng)化、個(gè)性化三個(gè)特點(diǎn)。分別對(duì)應(yīng)了感知、認(rèn)知和記憶三方面主要能力。 ![]() ![]() Information agent從基于單次搜索的信息查詢,發(fā)展到基于多次搜索的知識(shí)服務(wù)。 OpenAI的deep research進(jìn)一步實(shí)現(xiàn)了面向任務(wù)完成的多次搜索優(yōu)化,代表了未來(lái)AI Agent應(yīng)用的重要方向。 人的信息處理能力,從查詢、總結(jié)到綜合分析,目前information agent已基本具備。更高級(jí)的創(chuàng)造能力,除了模型智能的提升,還需要更多的API接口、以及融合action agent與物理世界打通提供更多元的外部信息才可能實(shí)現(xiàn)。 ![]() 關(guān)于AI Agent應(yīng)該通用還是垂直的討論。 從任務(wù)特點(diǎn)看,agent與chatbot和reasoner不同,關(guān)注的是具體任務(wù)的執(zhí)行,這也是“AI下半場(chǎng)”的另一種解釋?zhuān)簭乃⑼ㄓ媚芰Φ?/span>benchmark到解決具體任務(wù)。 ![]() 對(duì)o3等agent基礎(chǔ)模型微調(diào)獲得垂直agent的通用公式是:準(zhǔn)備完成任務(wù)所需的專(zhuān)業(yè)工具集、受控環(huán)境內(nèi)可驗(yàn)證的任務(wù)目標(biāo),然后進(jìn)行強(qiáng)化微調(diào)。 隨著o3、Qwen3等Agent基礎(chǔ)模型成熟,就好像高素質(zhì)的研究生畢業(yè)生供應(yīng)增加。企業(yè)需要接下來(lái)結(jié)合具體任務(wù)繼續(xù)培養(yǎng),在特定工作上訓(xùn)練成為業(yè)務(wù)專(zhuān)家。 端到端訓(xùn)練垂直Agent,已經(jīng)在廣告(ICON)、網(wǎng)絡(luò)安全(XBOW)、軟件開(kāi)發(fā)(Traversal)等領(lǐng)域有了成功案例。 ![]() OpenAI開(kāi)始用可替代的人類(lèi)專(zhuān)家工時(shí)評(píng)估模型的能力,這表明agent逐步作為一種服務(wù)成為生產(chǎn)力。 Agent的生產(chǎn)力由模型智能、工具多樣性和數(shù)據(jù)專(zhuān)業(yè)性三個(gè)因素決定。應(yīng)用層不僅要承接最新模型成果,還需要從工具和數(shù)據(jù)兩個(gè)方面向下優(yōu)化模型。 與chatbot失效的數(shù)據(jù)飛輪不同,在agent階段,普通用戶的行動(dòng)流數(shù)據(jù)對(duì)于提升模型能力還是有用的,所以AI Agent產(chǎn)品目前仍然存在數(shù)據(jù)飛輪。OpenAI收購(gòu)Windsurf,很大程度上是看重其豐富的開(kāi)發(fā)者agentic行為數(shù)據(jù)。 ![]() ![]() 如喬布斯40年前的預(yù)言,從how to do、what to do,到what I want,用戶只需描述“我想要什么”,Agent自動(dòng)完成“怎么做”。AI Agent代表了新的抽象層,已經(jīng)無(wú)限接近人類(lèi)思維。 正如網(wǎng)頁(yè)和App是互聯(lián)網(wǎng)信息的應(yīng)用載體,agent是智能服務(wù)的載體。Agent的設(shè)計(jì),因此應(yīng)該更充分地發(fā)揮AI整合底層數(shù)據(jù)資源和工具生態(tài)的效率和能力。 ![]() 這需要action agent和information agent的深度融合。馬斯克曾說(shuō):電腦和手機(jī)是人的數(shù)字延伸,其帶來(lái)的無(wú)限信息訪問(wèn)能力已經(jīng)可以讓我們成為超人了。 讓AI像人一樣操縱電腦,從而接管一切人類(lèi)在屏幕前完成的工作,是OpenAI成立時(shí)就定下的目標(biāo)。 隨著action agent接入更多I/O,information agent可使用更多工具,AI Agent正在突破人類(lèi)肉身的物理限制,可以以無(wú)限帶寬連接世界。這不僅是完成人類(lèi)的任務(wù),更是讓agent自主、持續(xù)地從人類(lèi)世界學(xué)習(xí)和進(jìn)化的方式。 Agent OS將成為AI Agent的運(yùn)行基礎(chǔ)。 任務(wù)規(guī)劃、工具使用和記憶是AI Agent的三個(gè)基礎(chǔ)能力。關(guān)于記憶,“大海撈針”評(píng)估的主要是單點(diǎn)信息檢索的能力,agent解決復(fù)雜任務(wù)需要的是上下文理解和全局推理能力。 最近一年已經(jīng)看到了任務(wù)規(guī)劃和工具使用能力的發(fā)展,期待記憶機(jī)制的突破。 ![]() 回到黃仁勛的主題演講。 預(yù)訓(xùn)練、后訓(xùn)練、推斷三階段的scaling law,支撐著目前生成式AI和Agentic AI的發(fā)展。 ![]() ![]() ![]() |
|
來(lái)自: mrjiangkai > 《我的圖書(shū)館》