![]() 引言自動駕駛系統(tǒng)通常劃分為感知、決策和控制等核心模塊。其中,感知模塊負責通過攝像頭、激光雷達、雷達等傳感器獲取環(huán)境信息并解析出車輛周圍的語義與幾何狀態(tài);決策模塊根據(jù)感知結(jié)果制定駕駛策略,包括路徑規(guī)劃和行為選擇;控制模塊則將決策轉(zhuǎn)換為轉(zhuǎn)向、加速、制動等具體控制指令。近年來,隨著深度學習和人工智能技術(shù)的發(fā)展,感知與決策模塊經(jīng)歷了從傳統(tǒng)規(guī)則算法到端到端數(shù)據(jù)驅(qū)動模型的變革,本文詳細闡述以下三大主題: 感知演進:從早期基于二維圖像卷積網(wǎng)絡(luò)(2D CNN) 的目標檢測,到引入鳥瞰圖 (BEV) 表示和Transformer的多視角感知,再到最新的Occupancy Network (占用網(wǎng)絡(luò)) 方法。我們將比較純視覺感知與多傳感器融合方案,并給出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖、模型參數(shù)表、BEV特征構(gòu)建和時序建模細節(jié)。 決策演進:從基于規(guī)則的if-else邏輯,到蒙特卡洛樹搜索(MCTS) 等規(guī)劃算法,再到端到端Transformer決策網(wǎng)絡(luò)。討論不同決策范式的學習方式(模仿學習vs 強化學習)、代價函數(shù)設(shè)計、行為評估指標、訓練效率優(yōu)化,以及整車系統(tǒng)調(diào)優(yōu)的難點,并輔以示意圖說明。 未來趨勢:探索從模塊化端到端走向全局端到端的演進,并展望視覺-語言模型 (VLM) 以及視覺-語言-動作模型 (VLA) 在自動駕駛中的應用前景。分析這類新型大模型的網(wǎng)絡(luò)結(jié)構(gòu)、訓練策略、推理流程,以及它們與經(jīng)典“系統(tǒng)1/系統(tǒng)2”架構(gòu)協(xié)作的方式,并討論模型參數(shù)規(guī)模和推理延遲對車載芯片設(shè)計的影響。 第一章感知:從2D CNN到BEV Transformer再到Occupancy Network自動駕駛感知模塊的目標是對車輛周圍環(huán)境進行高精度的三維感知,識別道路、車道線、車輛、行人、障礙物等對象,并估計它們的三維位置和運動狀態(tài),感知算法的發(fā)展大致經(jīng)歷了以下階段:早期的2D視覺卷積網(wǎng)絡(luò)、基于鳥瞰圖(BEV)的多傳感器Transformer感知,以及最新的占用網(wǎng)絡(luò)(Occupancy Network)。本章將按時間演進順序介紹各方案的原理和特點。 ![]() 1.1 基于二維卷積網(wǎng)絡(luò)的視覺感知 (2D + CNN)在深度學習興起初期,卷積神經(jīng)網(wǎng)絡(luò)(CNN) 在圖像識別方面展現(xiàn)出卓越性能,率先將計算機視覺引入自動駕駛感知,典型做法是利用2D卷積網(wǎng)絡(luò)從攝像頭圖像中檢測物體,輸出目標的二維邊界框和類別。例如經(jīng)典的Faster R-CNN、YOLO系列網(wǎng)絡(luò),都屬于此范式。其核心結(jié)構(gòu)包括:卷積骨干網(wǎng)絡(luò)提取圖像特征,區(qū)域提議網(wǎng)絡(luò)(如RPN)或全卷積檢測頭生成目標框和分類結(jié)果。下表給出了YOLOv3模型的參數(shù)規(guī)模與結(jié)構(gòu)摘要: ![]() ![]() 1.2 鳥瞰圖 (BEV) 表示與Transformer時空感知鳥瞰圖(BEV, Bird’s Eye View) 表示是一種從車輛上方俯視的二維柵格視角,將三維環(huán)境投影到地面平面上。 ![]() BEV的優(yōu)點在于:它提供了一個統(tǒng)一且直觀的空間表示,清晰展現(xiàn)道路拓撲、障礙物位置及相對關(guān)系,非常利于規(guī)劃決策。早期的BEV生成依賴精確的傳感器標定和投影轉(zhuǎn)換:例如激光雷達點云天然在車體坐標系下,可直接投影為BEV平面高度圖;攝像頭圖像則通過逆透視映射或借助深度估計,將像素坐標轉(zhuǎn)換到地面坐標,再融合多攝像頭視圖形成周視鳥瞰圖。 由于BEV視角消除了透視變形,使得車道線、自由空間、車輛邊界等要素在空間上保持一致,更利于路徑規(guī)劃和碰撞判斷。 ![]() Transformer神經(jīng)網(wǎng)絡(luò)在NLP領(lǐng)域取得成功后,也被引入自動駕駛感知,用于處理時序和多視角數(shù)據(jù)。Transformer通過自注意力機制有效捕獲序列數(shù)據(jù)中的長程依賴關(guān)系。在感知中,Transformer可以用來融合多傳感器信息以及多個時間幀信息,從而實現(xiàn)全局上下文的建模。大約在2020年前后,“BEV + Transformer”的感知方案興起:將來自多攝像頭或多傳感器的特征統(tǒng)一映射到BEV空間,再通過Transformer在空間維度和時間維度進行注意力特征聚合,顯著提升了檢測精度和穩(wěn)定性。這一范式的代表工作包括:LSS (Lift-Splat-Shoot)、BEVDet、DETR3D、以及BEVFormer等模型。 ![]() 該模型以Transformer為核心,實現(xiàn)多攝像頭圖像的鳥瞰視角感知。圖中展示了BEVFormer v2結(jié)構(gòu),包含圖像骨干網(wǎng)絡(luò)、透視3D檢測頭、空間Transformer編碼器、時間Transformer編碼器和BEV檢測頭等模塊。 BEVFormer的工作過程如下: a、多視圖特征提?。菏褂肦esNet等卷積骨干提取每個攝像頭圖像的特征張量,并結(jié)合相機內(nèi)外參,將特征映射到統(tǒng)一坐標系。 b、BEV Query初始化:在BEV平面上定義網(wǎng)格化的BEV Query(可學習參數(shù)),每個BEV Query對應真實世界中的一個網(wǎng)格區(qū)域,用于查詢該區(qū)域內(nèi)相關(guān)的多視圖特征。 c、空間跨注意力:每個BEV Query通過deformable attention僅與對應空間位置投影到各攝像頭視圖上的區(qū)域特征交互,將不同視角的圖像信息“提升”到BEV表示中。這一步實現(xiàn)了圖像特征到BEV特征的轉(zhuǎn)換。 d、時間自注意力:引入歷史時刻的BEV特征,通過時間自注意力模塊將當前幀BEV Queries與前一幀的BEV表示相關(guān)聯(lián),實現(xiàn)時序信息融合。這使得感知對動態(tài)物體的運動歷史更加敏感,增強對軌跡的捕捉。 e、Transformer解碼與檢測:經(jīng)過多層時空Transformer編碼后,得到豐富的BEV特征圖。Decoder模塊以BEV特征和查詢?yōu)檩斎?,輸出三維檢測結(jié)果(如目標的3D邊界框、類別等)。在BEVFormer v2中,還增加了一個透視視角的3D檢測頭提供輔助監(jiān)督信號,用以提升訓練效果。 模型規(guī)模與性能:BEVFormer等BEV感知模型由于包含卷積骨干和多層Transformer,自身參數(shù)量通常達到五千萬級別,對算力和內(nèi)存有較高要求。例如BEVFormer采用6層Transformer編碼器,以及ResNet-50或101骨干網(wǎng)絡(luò),總參數(shù)數(shù)以千萬計。這類模型在NuScenes等數(shù)據(jù)集上取得了顯著優(yōu)于純2D檢測的3D目標檢測精度,但代價是需要復雜的標定和較高的計算資源。此外,由于BEV本質(zhì)上是對高度維的信息進行壓縮投影,缺乏垂直方向分辨率,對懸空障礙(如立交橋下方、車底空隙)等的表征仍存在局限。 ![]() 通過Transformer實現(xiàn)的BEV空間帶來了幾個重要提升,首先所有傳感器的數(shù)據(jù)得以進行端到端的特征級融合,減少層層處理以及先驗規(guī)則帶來的信息丟失; 其次,Transformer提供了全局的感受野,而CNN 則是通過卷積核提取局部的相關(guān)性也就是局部感受野,因此Transformer對特征學習能力更強。 此外,在BEV空間下不會出現(xiàn)像此前大卡車無法被單個攝像頭捕捉全貌而無法識別的問題。進一步看,這是因為Transformer可以融合處理時間數(shù)據(jù)并加入記憶模塊,使得BEV空間從3D變成時序融合下的4D空間,可以在物體被遮擋時繼續(xù)根據(jù)依存關(guān)系預判它的位置,也可以對其他目標的動態(tài)進行預測。 1.3 占用網(wǎng)絡(luò) (OOCC) 的引入Occupancy Network(占用網(wǎng)絡(luò))是最近發(fā)展起來的一種3D體素占據(jù)預測感知框架,旨在直接重建車輛周圍的體積環(huán)境表示。與BEV僅有二維平面不同,占用網(wǎng)絡(luò)在BEV平面基礎(chǔ)上增加高度維度,生成體素(voxel) 網(wǎng)格表示的三維空間模型,預測每個體素格被占據(jù)的概率。這種方法本質(zhì)上讓神經(jīng)網(wǎng)絡(luò)學習一個連續(xù)的三維場,能夠表征任意形狀的物體和地形,而不局限于固定形狀的檢測框。 Occupancy占用網(wǎng)絡(luò)的加入讓BEV從2D變成了真正意義上的3D(如下圖所示),并且在加入時間流信息(基于光流法)之后,完成了由3D向4D的過度。 ![]() 特斯拉在2021-2022年率先將占用網(wǎng)絡(luò)應用于自動駕駛感知,并在CVPR 2022上分享了該架構(gòu)細節(jié)。其思想借鑒了機器人領(lǐng)域的Occupancy Grid Mapping:將空間劃分為微小體素,網(wǎng)絡(luò)預測每個體素是“空”還是“被占據(jù)”。與傳統(tǒng)目標檢測相比,占用網(wǎng)絡(luò)不再輸出離散邊界框,而是輸出整個空間的稠密占據(jù)概率分布。這意味著即使遇到訓練集中未標注的新奇物體(例如側(cè)翻的卡車、散落的雜物),網(wǎng)絡(luò)也可以通過判斷“此空間有無物體”來探測到它們。這一性質(zhì)大幅提升了感知系統(tǒng)對異常物體的檢出能力和安全性。 Occupancy Network也是通過Transformer來實現(xiàn)的,最終輸出Occupancy Volume(物體所占據(jù)的體積)和Occupancy flow(時間流)。也就是附近的物體占據(jù)了多大的體積,而時間流則是通過光流法來判斷的。 ![]() 光流法假設(shè)構(gòu)成物體的像素亮度恒定且時間連續(xù),通過對比連續(xù)兩幀圖像中的像素位置變化,最終帶來了4D投影信息。 ![]() 占用網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)如下圖所示: ![]() 模型從8路攝像頭圖像提取特征,經(jīng)過Transformer注意力融合,輸出體素級別的空間占據(jù)概率(占用體素)以及體素運動信息(Occupancy Flow)。 如圖所示,Tesla的Occupancy Network主要包含以下模塊: a、多視角特征提取 Backbone:8個車載攝像頭的圖像首先輸入共享的卷積骨干網(wǎng)絡(luò)(Tesla使用RegNet卷積網(wǎng)絡(luò))和特征金字塔(BiFPN)來提取多尺度特征。這一步得到每個攝像頭視角的一系列特征張量。 b、Transformer注意力融合:將每個攝像頭的特征加入對應的空間位置信息編碼,通過Transformer的跨注意力模塊將圖像特征融合到統(tǒng)一的三維空間表示中。Transformer Query被設(shè)計為固定含義(例如“該體素內(nèi)有車/有行人”等)的查詢向量,Key和Value來自圖像特征。Transformer注意力輸出一個中間的占用特征體 (Occupancy Feature Volume)。 c、時間序列融合:占用特征進一步與前幾個歷史時刻的特征體進行融合,采用時間遞歸(Temporal Self-Attention)或類似4D卷積的方法,將$t-1, t-2, ...$幀的占用信息整合,形成當前時刻的4D占用特征。這使得輸出不僅考慮當前幀,還隱式包含了運動軌跡的信息。 d、解碼與輸出:最后,通過上采樣和卷積解碼,輸出兩個主要結(jié)果:占用體積(Occupancy Volume),即每個體素被占據(jù)的概率;以及占用流 (Occupancy Flow),即每個體素內(nèi)物體的運動矢量或光流。占用流的引入可以理解為預測每個占用體素在下一瞬間的位置變化,用以表征動態(tài)物體的運動方向(例如圖中用不同顏色表示體素運動的方向)。 占用網(wǎng)絡(luò)的優(yōu)勢在于:它提供了更精細的3D環(huán)境重建。與BEV僅輸出每個位置是否有車輛/行人不同,Occupancy Network能刻畫物體的任意形狀,哪怕是不規(guī)則形狀(如梯子、自行車等)也能通過體素網(wǎng)格近似出來。同時,因為預測的是“一種通用表示”(占用概率),模型在訓練時可以利用大量無標注視頻數(shù)據(jù)進行自監(jiān)督學習,例如通過時空對比、未來預測等方式練就對占據(jù)狀況的判斷。特斯拉工程團隊指出,占用網(wǎng)絡(luò)充分利用了未標注數(shù)據(jù)來補足有標簽數(shù)據(jù)的不足,對于提升長尾安全性非常關(guān)鍵。此外,實測表明這些網(wǎng)絡(luò)在Tesla FSD芯片上可以以超過100 FPS的速度運行,滿足實時要求。這得益于架構(gòu)的高度優(yōu)化和Tesla硬件對稀疏卷積、Transformer推理的加速支持。 1.4 純視覺 vs 多傳感器融合方案對比在感知模塊的發(fā)展中,一個重要的分支問題是:應當采用純視覺感知路線,還是融合激光雷達、毫米波雷達等多種傳感器? 不同公司和團隊給出了不同答案,各有權(quán)衡。 純視覺方案:以Tesla為代表,主張依靠攝像頭為主的視覺感知,通過強大的AI算法來彌補傳感器的不足。優(yōu)點是硬件成本低(攝像頭價格遠低于激光雷達),且視覺可以提供豐富的語義信息(交通燈顏色、道路標識等)。隨著Occupancy Network等技術(shù)的發(fā)展,純視覺在良好條件下也能獲取高質(zhì)量的3D環(huán)境表示。例如特斯拉在其HW3.0硬件上僅使用8個攝像頭和12個超聲波,在2022年開始甚至取消了毫米波雷達,全憑視覺網(wǎng)絡(luò)實現(xiàn)L2+自動駕駛功能。據(jù)報道,特斯拉還在新車型上重新引入高分辨率的4D毫米波雷達,以增強惡劣天氣下的感知。但總體而言,Tesla路線證明了純視覺+強大AI在眾多場景下的可行性。 純視覺方案的挑戰(zhàn)在于:(1) 距離和深度準確性依賴學習,很難達到激光雷達的精度,這在高速行駛時是劣勢;(2) 對環(huán)境條件敏感:夜晚、強光、雨雪等情況下攝像頭效果變差,可靠性受影響;(3) 冗余度低:單一類型傳感器故障時缺乏備份。因此,純視覺方案需要通過算法(如多幀時序融合、視頻增強等)和傳感器配置(如增加攝像頭數(shù)量、覆蓋各方向)來緩解這些問題。 多傳感器融合方案:以Waymo、Cruise等公司為代表,采用激光雷達+攝像頭+雷達的組合。激光雷達提供高精度的距離與三維點云,毫米波雷達提供全天候的運動物體檢測(如對前車相對速度敏感),攝像頭提供豐富的語義。多源數(shù)據(jù)通過跨傳感器融合算法(如Kalman濾波、點云與圖像配準、Transformer跨模態(tài)注意力)結(jié)合,可以形成高度可靠的環(huán)境感知。例如Waymo早期系統(tǒng)使用了多個64線激光雷達、短程激光雷達和攝像頭融合,使其在復雜城市環(huán)境下具有出色的探測能力。然而多傳感器方案的缺點也很明顯:硬件成本高、系統(tǒng)復雜度高,車輛需要安裝昂貴的激光雷達和大量傳感器,并解決校準、同步等工程問題。此外,多傳感器產(chǎn)生的海量數(shù)據(jù)對車載計算平臺也是嚴峻考驗,需要更高算力來實時處理。 在近年的發(fā)展趨勢中,一些新型傳感器嘗試折中純視覺與多傳感器融合的優(yōu)缺點。例如4D成像雷達是一種高分辨率雷達,可以在一定程度上提供類似低線束激光雷達的空間信息,但成本僅為后者的十分之一左右。特斯拉在最新硬件4.0版本的Model S/X中就配備了4D成像雷達,以增強感知的遠距探測性能。4D雷達結(jié)合攝像頭,有望以較低成本獲得接近激光雷達的效果,被認為是業(yè)界折中的方向之一。 總結(jié):純視覺和多傳感器融合各有適用場景。對追求大規(guī)模量產(chǎn)、降低成本的乘用車L2/L3系統(tǒng),視覺方案更具吸引力;而對于追求極限安全冗余的L4級Robotaxi,融合方案目前仍是主流(如Waymo、Cruise的無人車都配備激光雷達)。值得注意的是,隨著視覺感知算法(如BEV+Transformer、Occupancy Network)的躍進,純視覺方案的性能在不斷接近多傳感器方案,在特定限制場景下(比如高速公路NOA)已經(jīng)可以媲美后者。未來,我們可能會看到兩種路線的進一步融合:例如“視覺為主+低成本雷達作為補充”的混合感知方案,利用AI算法最大化每種傳感器的信息價值,在成本和性能間取得平衡。 第二章決策:從規(guī)則邏輯和MCTS到端到端Transformer在感知模塊提供環(huán)境模型后,決策模塊負責依據(jù)車輛狀態(tài)和道路環(huán)境,規(guī)劃出安全、平順、高效的行駛策略。決策規(guī)劃可進一步細分為行為決策(Decision)和運動規(guī)劃(Planning)兩個層次:前者決定車輛的高層動作(如變道、超車、停車),后者生成具體的軌跡和速度曲線。然而二者界限往往模糊,尤其在數(shù)據(jù)驅(qū)動的方法中,常統(tǒng)一視為一個整體。本章沿時間演進介紹自動駕駛決策技術(shù)的發(fā)展,包括:早期的基于規(guī)則的有限狀態(tài)機,中期引入搜索與優(yōu)化的蒙特卡洛樹搜索 (MCTS) 等方法,以及近期興起的端到端深度學習決策(尤其是Transformer結(jié)構(gòu)的網(wǎng)絡(luò))。我們也將討論決策算法的學習范式(模仿 vs 強化)等關(guān)鍵問題。 ![]() 2.1 基于規(guī)則的決策邏輯 (有限狀態(tài)機 & if-else)在自動駕駛研發(fā)的早期階段,決策模塊主要采用手工設(shè)計的規(guī)則和有限狀態(tài)機來實現(xiàn)。工程師基于交通法規(guī)和駕駛經(jīng)驗,預先定義各種場景下車輛的行為模式。例如,高速公路跟車場景可用簡單規(guī)則描述:“如果前車距離小于安全距離則減速,否則保持巡航速度”;又比如變道場景,可設(shè)計狀態(tài)機:狀態(tài)A=正常行駛,狀態(tài)B=準備變道,狀態(tài)C=執(zhí)行變道,每個狀態(tài)轉(zhuǎn)移由條件觸發(fā) (如目標車道是否空閑) 來控制。這種基于if-else的邏輯直觀易懂,調(diào)試也相對簡單,曾被廣泛應用于早期L2駕駛輔助系統(tǒng)和2000年代的無人車原型。 規(guī)則基決策的優(yōu)點在于:可解釋性強,行為邏輯透明,可追溯每個決策原因;計算開銷低,通常只涉及簡單判斷和幾何計算,可在低端ECU上運行;滿足特定場景容易優(yōu)化,例如針對高速場景和固定車道線可手工調(diào)校出很舒適的控制策略。然而,它的局限性也十分明顯:(1) 規(guī)則難以窮盡:駕駛場景千變?nèi)f化,手工規(guī)則無法覆蓋所有情形,遇到未預料狀況容易失??;(2) 缺少全局最優(yōu)保證:各子模塊各自為政,可能出現(xiàn)次優(yōu)或沖突(例如加速和轉(zhuǎn)向規(guī)則沖突導致抖動);(3) 不易擴展:當引入新的行為(比如避讓行人)時,需要重構(gòu)大量邏輯,開發(fā)周期長。在實際道路測試中,基于規(guī)則的系統(tǒng)在復雜城市工況下暴露出脆弱性,難以應對具有不確定性的互動場景,比如對向車搶道、行人突然橫穿等。 2.2 基于蒙特卡洛樹搜索 (MCTS) 的決策規(guī)劃為克服純規(guī)則方法的不足,引入AI搜索和優(yōu)化方法成為一個方向。蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS) 是其中受到關(guān)注的方法之一。MCTS最初流行于博弈決策,如圍棋、國際象棋中用于在巨大決策空間內(nèi)高效搜索最優(yōu)走法。它通過隨機模擬(蒙特卡洛采樣)評估動作序列的回報,不斷擴展決策樹并優(yōu)化策略。將MCTS引入自動駕駛,是希望借助其探索-利用平衡機制,規(guī)劃出既安全又高效的車輛行為序列。 在自動駕駛情境下,MCTS通常用于行為層的規(guī)劃。例如,在復雜路口場景中,車輛面臨多種決策(等待、加速通過、繞行等)。MCTS算法可將每個決策視為樹中的一個分支,模擬之后幾秒內(nèi)場景演變(包括其他交通參與者的假定反應),以隨機采樣方式得到許多可能的情景軌跡。每條軌跡根據(jù)預先定義的綜合代價函數(shù)打分(考慮安全、通過率、舒適度等因素)。算法通過多輪迭代,不斷在決策樹中擴展高潛力的節(jié)點并回溯更新評估,從而找到期望收益最高的決策序列。研究表明,這種方法能夠令自動車輛在復雜場景下采取合理行動,例如在交通擁堵的無保護左轉(zhuǎn)、加塞(U形插隊)場景中,MCTS規(guī)劃可以成功率較高地通過。一項2023年的研究展示了一個MCTS決策系統(tǒng)能處理路口通行、無保護左轉(zhuǎn)、加塞、匝道匯入等多種復雜情境,并通過調(diào)整模擬迭代次數(shù)實現(xiàn)實時性和決策質(zhì)量的權(quán)衡。 2.3 端到端深度學習決策網(wǎng)絡(luò) (Transformer-based)隨著深度學習在感知領(lǐng)域的成功,人們也開始嘗試將決策過程交給神經(jīng)網(wǎng)絡(luò)。端到端決策的理念是:讓模型直接從感知輸入預測駕駛行為(如轉(zhuǎn)向角、加減速或未來軌跡),中間不再由人工定義子目標或規(guī)則。早期的端到端嘗試可以追溯到1980年代的ALVINN,以及2016年英偉達的DAVE-2系統(tǒng),其用一個簡單CNN從前視相機圖像回歸轉(zhuǎn)向角。這些模型在受限環(huán)境下(無人車跑道或簡單道路)證明了可行性,但在復雜開放道路上表現(xiàn)有限。近年來,借助更強大的網(wǎng)絡(luò)和大規(guī)模數(shù)據(jù),端到端決策再次受到矚目。特別是Transformer架構(gòu)被引入用于端到端駕駛決策網(wǎng)絡(luò),取得了顯著進展。 Transformer之所以適合決策任務(wù),在于駕駛決策本質(zhì)是一個時序問題:車輛需根據(jù)歷史軌跡和未來規(guī)劃做出連貫的動作序列。Transformer通過自注意力可以有效地在時間維建模因果關(guān)系,同時還能融合多模態(tài)輸入(如視覺特征、地圖等)。Waymo等公司已在感知、預測等環(huán)節(jié)全面應用Transformer,并開始探索將Transformer用于決策規(guī)劃。Waymo技術(shù)負責人透露,他們在行為決策中充分利用Transformer處理行為序列和語義理解,并嘗試將其與大型語言模型的知識相結(jié)合,提升通用性。這說明業(yè)內(nèi)領(lǐng)先團隊已經(jīng)認識到Transformer等大模型在決策層的潛力。 一種具有代表性的端到端決策網(wǎng)絡(luò)是近期提出的Drive-Transformer系列模型。例如2023年的一項工作提出了Unified Transformer架構(gòu),實現(xiàn)了感知和規(guī)劃決策的端到端統(tǒng)一,通過Transformer將圖像序列直接映射到未來軌跡輸出,在CARLA模擬環(huán)境中達到當時最優(yōu)性能。還有研究將決策Transformer(Decision Transformer)用于導航任務(wù):將以往強化學習的軌跡數(shù)據(jù)作為序列,利用Transformer預測最優(yōu)動作,展示了與傳統(tǒng)RL相近的效果。Transformer在決策中的優(yōu)勢包括:可以并行地處理長時間序列(克服RNN梯度消失問題),擅長多目標關(guān)系建模(如同時考慮多個車輛意圖)以及易于與預訓練模型結(jié)合(遷移外部數(shù)據(jù)知識)。 端到端Transformer決策網(wǎng)絡(luò)的輸出形式多樣,可以是低級控制命令(如轉(zhuǎn)角、油門),也可以是高層規(guī)劃(如未來3-5秒的離散路徑)。以高層規(guī)劃為例,模型輸出一系列未來位置點或車輛狀態(tài),供低層控制跟蹤。這種方式通常比直接輸出轉(zhuǎn)向角更穩(wěn)定,因為軌跡考慮了時間維的一致性。一些端到端模型也結(jié)合模仿學習和強化學習進行訓練,使其既能模仿人類駕駛,又能通過人工獎勵優(yōu)化特定指標(如乘坐舒適度)。 ![]() 2.4 決策學習范式:模仿學習 vs 強化學習在引入數(shù)據(jù)驅(qū)動的決策后,核心問題是如何訓練決策網(wǎng)絡(luò)。主要有兩種范式:模仿學習(Imitation Learning) 和強化學習(Reinforcement Learning)。 模仿學習(又稱行為克?。?span textstyle=''>通過學習人類駕駛員的行為數(shù)據(jù)來訓練模型。給定感知輸入和當時的人類操作作為監(jiān)督信號,模型直接回歸或分類出與人類相似的決策。這種方法的優(yōu)點是訓練相對簡單——把決策問題轉(zhuǎn)化為有監(jiān)督學習,只需大規(guī)模駕駛數(shù)據(jù)即可。許多公司都有海量的真實駕駛?cè)罩荆ㄈ缣厮估占藬?shù)十億英里用戶駕駛數(shù)據(jù)),這些成為訓練決策模型的寶貴資源。模仿學習能讓車輛學到人類駕駛的行為偏好,如平穩(wěn)跟車、禮讓行人等,輸出風格自然。然而缺點在于分布外泛化問題:模型只能學到訓練集中出現(xiàn)的情形,如果碰到從未見過的情況,可能無所適從。此外,訓練數(shù)據(jù)往往偏好正常駕駛,危險邊緣場景(如突然加塞)數(shù)據(jù)較少,模型在這些關(guān)鍵時刻容易犯錯。這就需要配合其他策略改進,如“Datasets Augmentation”或者結(jié)合強化學習彌補。 強化學習:通過與環(huán)境交互、累積獎勵來訓練策略。典型做法是在仿真器中讓自動駕駛代理自由嘗試各種動作,以預先設(shè)計的獎勵函數(shù)為反饋,不斷優(yōu)化決策策略。強化學習不依賴人類示范,理論上能探索到意想不到的新策略,并針對特定目標優(yōu)化(如通行效率)。一些研究者使用強化學習訓練自動駕駛策略,例如在模擬環(huán)境中優(yōu)化車輛通過紅綠燈的等待策略或高速公路合流策略。然而強化學習也有顯著挑戰(zhàn):(1) 樣本效率低:復雜駕駛場景的狀態(tài)空間龐大,RL需要海量試錯迭代,現(xiàn)實中不可能通過真實車輛來大量試錯,只能借助高保真模擬;(2) 安全約束難以直接納入:RL中如果獎勵函數(shù)沒有充分體現(xiàn)安全要求,智能體可能學會瘋狂的駕駛方式來優(yōu)化回報,這在自動駕駛中特別危險。因此,強化學習更多用于離線優(yōu)化或策略微調(diào),而不是從零學出整個駕駛策略。 第三章未來趨勢全局端到端與多模態(tài)大模型展望自動駕駛技術(shù)的未來演進,兩個突出的趨勢值得關(guān)注:其一是系統(tǒng)架構(gòu)從模塊化朝真正全局端到端發(fā)展,其二是引入視覺-語言等多模態(tài)的大模型賦能自動駕駛。這兩者有相輔相成的關(guān)系——更強大的模型使全局端到端方案成為可能,而全局端到端又為大模型在系統(tǒng)中的協(xié)同提供舞臺。本章將深入分析這兩大趨勢,包括潛在的神經(jīng)網(wǎng)絡(luò)設(shè)計、訓練推理策略、與傳統(tǒng)System1/2框架的協(xié)作,以及對計算硬件的影響。 3.1 從模塊化端到端到全局端到端模塊化端到端指的是各子模塊(感知、預測、規(guī)劃等)依然存在,但通過端到端聯(lián)合訓練方式進行優(yōu)化,盡量減少中間信息損失。例如感知模塊不輸出人類定義的目標列表,而輸出高維特征供規(guī)劃使用,并允許規(guī)劃的誤差通過反傳影響感知網(wǎng)絡(luò)權(quán)重。這是一種“軟融合”架構(gòu),保留模塊劃分以利用各自優(yōu)勢,但在訓練上打通,實現(xiàn)聯(lián)合優(yōu)化整個系統(tǒng)目標。相比傳統(tǒng)逐層訓練,模塊化端到端可以提升整體性能(因為減少了模塊間不一致),也降低了感知結(jié)果錯誤對決策的影響。 全局端到端(Global End-to-End) 則更進一步,取消了明確的模塊邊界,用一個單一的大模型從原始傳感器輸入直接輸出駕駛控制。這是終極形態(tài),如同人類駕駛員從視覺直接決策,不需要先在腦中羅列出所有檢測物體再規(guī)劃。這種架構(gòu)的潛在優(yōu)勢是:(1) 全局最優(yōu):模型可以圍繞最終駕駛目標直接優(yōu)化,避免中間步驟各自為政。(2) 減少信息瓶頸:傳統(tǒng)感知輸出有限的邊界框/車道線等,會丟失大量場景信息,而端到端模型內(nèi)部可以保留原始豐富特征直到最后。(3) 計算高效:一個模型可能比多個模塊串聯(lián)更高效,如無需反復重復特征提取。不過全局端到端也有明顯劣勢,如訓練難度極大(需要端到端大數(shù)據(jù)和良好訓練策略,否則不收斂)、可解釋性極低、調(diào)試驗證復雜,因此目前基本僅存在于研究和概念驗證階段。 ![]() 全局式端到端的代表:WAYMO的EMMA 為了更清晰了解演進路徑,可以參考自動駕駛行業(yè)近期提出的架構(gòu)演進“四階段”: 階段1:端到端感知。即感知模塊實現(xiàn)多攝像頭/多傳感器融合于BEV空間,采用Transformer提高檢測精度和穩(wěn)定性,但預測決策仍是規(guī)則為主。多數(shù)國內(nèi)廠商宣稱的“端到端”現(xiàn)處于此階段,本質(zhì)還是感知端到端優(yōu)化,規(guī)劃未學習化。 階段2:基于模型的規(guī)劃。即引入學習型規(guī)劃模塊,將預測、決策、規(guī)劃功能用一個神經(jīng)網(wǎng)絡(luò)實現(xiàn),而感知模塊仍獨立輸出傳統(tǒng)結(jié)果。也就是說,感知和規(guī)劃各有網(wǎng)絡(luò),但接口是人工定義的(如感知輸出目標列表給規(guī)劃)。每個模塊仍需獨立訓練,尚未實現(xiàn)全局優(yōu)化。盡管如此,此階段的出現(xiàn)標志著決策不再依賴if-else,可數(shù)據(jù)驅(qū)動優(yōu)化復雜場景。 階段3:模塊化端到端。感知和規(guī)劃依然分為兩塊,但通過端到端聯(lián)合訓練連接在一起。關(guān)鍵變化是感知不再輸出人類可讀的物體列表,而是輸出學習的特征表示,這些表示保留更多信息且支持梯度回傳。規(guī)劃模塊根據(jù)這些特征輸出駕駛決策,并以整個系統(tǒng)的損失來訓練。這樣整個系統(tǒng)朝著統(tǒng)一目標優(yōu)化,減少了中間信息不對齊問題。特斯拉FSD近年來逐步接近這一架構(gòu),例如其Occupancy Network輸出占據(jù)柵格給規(guī)劃,而非傳統(tǒng)目標檢測。 階段4:全端到端一體化。最終階段是一個模型吃所有輸入吐控制輸出。這類似NVIDIA 2016年演示的端到端駕駛網(wǎng)絡(luò),但要復雜得多(需要考慮多傳感器、記憶等)。該模型可以用模仿或強化學習訓練,甚至引入**世界模型 (World Model)**等觀念。當前業(yè)界幾乎沒有公開完全達到第四階段的產(chǎn)品,但Wayve等初創(chuàng)聲稱其做到了單模型從攝像頭到控制。即便如此,為了實用性,他們?nèi)钥赡芨郊右恍┹o助模塊以確保安全。 綜合來看,未來幾年我們預計更多廠商將從第2階段邁入第3階段:也就是感知和規(guī)劃深度耦合的聯(lián)合訓練框架。這將帶來性能提升,但也要求更強算力和更復雜的訓練流水線支持。當技術(shù)和算力成熟,第4階段的純端到端統(tǒng)一模型才可能真正落地,在Robotaxi等領(lǐng)域率先應用,然后隨著成本降低進入乘用車。全局端到端一旦實現(xiàn),將極大簡化系統(tǒng)工程復雜度(硬件布設(shè)更簡單)并潛在提升性能上限,但其安全驗證新難題也將帶來監(jiān)管挑戰(zhàn),需要行業(yè)共同努力制定標準和解決方案。 3.2 引入視覺-語言模型 (VLM) 協(xié)助駕駛認知近兩年AI領(lǐng)域另一重大進展是多模態(tài)大模型的崛起,特別是視覺-語言模型 (Vision-Language Model, VLM) 能夠?qū)D像和文本信息結(jié)合,在多模態(tài)理解和推理上達到前所未有的水平。例如OpenAI的CLIP模型通過對海量圖文對進行對比學習,獲得了圖像和文字共享的語義空間,能夠進行零樣本的圖像識別;更復雜的如Flamingo、PaLM-E等,則能輸入圖片和文本問題,輸出合理的文字回答,表現(xiàn)出一定的“視覺場景理解”能力。 ![]() 將VLM引入自動駕駛,有多方面潛在價值: 理解復雜語義場景:攝像頭捕獲的路面信息中,有許多高階語義(如路牌指示、施工提示標志、警察手勢)是傳統(tǒng)感知難以直接量化的。視覺-語言模型可以將這些視覺內(nèi)容轉(zhuǎn)換成文字或符號解釋。例如,Wayve最新演示了一個語言模型LINGO-2,車載攝像頭畫面輸入模型后,它能生成類似“前方出現(xiàn)施工標志,減速避讓”的描述。這說明模型提取了圖像中的關(guān)鍵信息并用自然語言表述,相當于實現(xiàn)了人類駕駛員的注釋能力。這種能力可以輔助決策模塊更好地掌握場景要點。 提供人機可解釋接口:VLM還能讓自動駕駛系統(tǒng)的決策過程以語言方式解釋給人類。例如Nuro公司的無人配送車上安裝了一個平板,乘客可以問車“為什么停下?”系統(tǒng)通過借鑒LLM技術(shù),能夠回答“檢測到前方有行人橫穿,所以停車禮讓”。這增強了用戶對自動車的信任度和理解度。同理,運營商也可通過分析模型生成的描述來調(diào)試系統(tǒng)或者歸因責任。 融合豐富的世界知識:大規(guī)模VLM/LLM蘊含了互聯(lián)網(wǎng)上龐大知識。例如知道各種車輛類別、交通工具行為模式甚至駕駛經(jīng)驗。這些知識對于自動駕駛長尾問題很有幫助,比如識別出非常罕見的交通標志或者特殊車輛(拖拉機、馬車)。Waymo高管就指出,他們的方案正在嘗試將Transformer為基礎(chǔ)的語言模型中的常識注入自駕系統(tǒng),彌補純視覺模塊的不足。一個例子:假如路上出現(xiàn)一個熊過街,感知或許檢測不到類別,但大模型可能通過視覺特征+知識推斷出那是動物,需要避讓。 人類指令和交互:私家車中的自動駕駛,希望與駕駛者有自然交互,比如車主說“帶我去能看到日落的景點”,車輛需要理解語言并轉(zhuǎn)換為駕駛策略。這就需要Vision-Language模型:先解析語義,再在行駛中理解周圍環(huán)境與指令相關(guān)的元素。 ![]() 需要強調(diào),VLM并不是來取代視覺感知或決策模塊,而更像是增益插件。它提供另一種對場景的理解方式——類人類的語言思考。這種語言思維對應心理學上的“系統(tǒng)2”(慢而理性的分析),而傳統(tǒng)感知決策更像“系統(tǒng)1”(快而直覺的反應)。二者結(jié)合,有望讓自動駕駛既有快速反應,又有深度思考。例如,當遇到復雜異常情況時,VLM模塊介入分析,輸出一句“前方發(fā)生事故,建議減速繞行”,然后控制模塊執(zhí)行。這就像老司機的大腦里也會用語言思考當前場景一樣。 3.3 視覺-語言-動作模型 (VLA) 與認知驅(qū)動駕駛如果我們再推進一步,我們會暢想Vision-Language-Action (VLA)模型在自動駕駛中的全盤應用。所謂VLA,即同時具備視覺理解、語言推理和動作決策能力的模型。一旦實現(xiàn),這將是自動駕駛AI形態(tài)的質(zhì)變:相當于一個可以“看、想、說、做”的智能駕駛員。 ![]() VLA模型的另一個看點是多模態(tài)協(xié)同。舉例來說,設(shè)想VLA模型的工作流程: 視覺編碼:攝像頭、雷達的原始數(shù)據(jù)首先輸入視覺子網(wǎng)絡(luò),得到一些中間表示(可能是BEV特征或物體列表)。 語言推理:視覺特征被送入一個大型語言模型(或有語言能力的Transformer),該模型可能先用內(nèi)部“語言”描述場景,如“前方100米處有一輛校車正在停車,右側(cè)有人行橫道上有行人等待”。這些描述不是對外輸出,而是模型內(nèi)部對場景的理解表述。 規(guī)劃決策:然后模型在內(nèi)部和/或外部通過一系列推理步驟(類Chain-of-Thought),考慮規(guī)則(如校車停車需停)、預測他人意圖等,最后得出行動方案。這些方案可能也是以語言形式在內(nèi)部生成,如“當前應該減速停車等待校車完成上下客”。 動作輸出:最后,模型將高層方案轉(zhuǎn)化為具體車輛控制命令或軌跡發(fā)送給執(zhí)行層。 在以上過程中,系統(tǒng)1(快速直覺)對應視覺編碼直接出的反應,例如行人突然闖出立刻剎車;系統(tǒng)2(慢速推理)對應語言推理部分,對復雜情況進行邏輯分析。兩者結(jié)合讓駕駛既迅速又不失深思熟慮。正如Waymo高管所說,來的自駕系統(tǒng)會是Transformer類網(wǎng)絡(luò)和傳統(tǒng)方法的結(jié)合。VLA模型正提供了這樣一個框架。 要充分實現(xiàn)VLA的潛力,還需克服多重挑戰(zhàn)。首先是模型規(guī)模和算力:多模態(tài)大模型參數(shù)往往上億甚至上百億級,如果全部放在車上實時運行,目前車載SoC難以支撐。即使壓縮到幾億參數(shù),也需要占用相當?shù)挠嬎阗Y源(推理一次可能幾十毫秒以上)。這對芯片架構(gòu)提出新要求,詳見下一節(jié)硬件討論。其次,數(shù)據(jù)獲取與訓練:VLA模型需要帶有語言標注的駕駛場景數(shù)據(jù)。目前學術(shù)上有嘗試構(gòu)建如COGnitive Driving Corpus (CoVLA),包含行車視頻及對應解說。這些數(shù)據(jù)集還很有限,如何高效利用成為問題??梢圆扇?/span>模擬器生成(讓人或AI在模擬中對駕駛過程做注釋)來獲得大規(guī)模數(shù)據(jù)。 總的來說,Vision-Language-Action模型代表了自動駕駛AI的最高目標形態(tài):像人類一樣看路面、用腦內(nèi)語言思考并駕車行動。雖然當前距離真正落地還有差距,但越來越多跡象表明我們正向這個方向邁進??梢灶A見,未來當我們坐上自動駕駛車,車內(nèi)AI不僅能安全駕駛,還可能充當聊天伙伴,向我們講述正發(fā)生的交通故事,這將極大改變?nèi)塑嚱换ンw驗。 3.4 模型規(guī)模、延遲與芯片架構(gòu)的協(xié)同演進無論是全端到端模型還是VLA大模型,一個無法回避的問題是:如此龐大的模型如何在車載計算硬件上實時運行? 模型參數(shù)量、所需算力、推理時延都對芯片架構(gòu)提出了更高要求。 回顧前文,傳統(tǒng)2D感知CNN大約幾千萬參數(shù),在早期NVIDIA GPU或MobilEye EyeQ上即可跑實時;BEV+Transformer模型提升到五千萬以上參數(shù),需要百TOPS級算力才能支撐多攝像頭25Hz運行;Occupancy Network進一步加大計算量(多相機、4D時序),特斯拉為此設(shè)計了144 TOPS的FSD芯片才勉強達到每秒100幀效果。而多模態(tài)大模型,如一個含有Transformer解碼的VLA模型,參數(shù)可能上億甚至十億,其計算量和內(nèi)存需求遠超以往。推理延遲也會拉長——例如GPT-3級別模型用高端GPU推理一次需數(shù)百毫秒甚至數(shù)秒,顯然無法直接用于毫秒必爭的駕駛決策。 為了解決這些矛盾,業(yè)界和學界正在多方努力: 1. 模型壓縮與高效推理:針對特定任務(wù)的大模型,可以通過蒸餾、剪枝、量化等技術(shù)壓縮。比如DeepRoute的VLA若真要上車,可能采用8-bit甚至4-bit量化加速推理,同時用知識蒸餾訓練一個較小網(wǎng)絡(luò)保留大模型的性能。此外,**Mixture-of-Experts (MoE)**是一個有前景方向,讓一個超大模型由多個專家子模型組成,推理時根據(jù)需要激活一部分專家。有研究在駕駛VLA上用MoE,僅在需要復雜推理時調(diào)用完整LLM,平時用小模型,達到性能和效率折中。 2. 芯片架構(gòu)優(yōu)化:芯片廠商已經(jīng)注意到Transformer工作負載的重要性。NVIDIA在新一代GPU和SoC中引入了專門的Transformer加速單元(如TensorRT中的Transformer Engine),可對自注意力算子進行低精度高效計算。寒武紀等國內(nèi)廠商也在設(shè)計針對大模型優(yōu)化的NPU架構(gòu)。存儲與帶寬也是大模型運行瓶頸之一,未來車載芯片可能集成更大片上SRAM或HBM存儲,以供巨量參數(shù)高速訪問。Ambarella在2024年發(fā)表文章指出,領(lǐng)先的自動駕駛方案正部署Transformer BEV感知,需要芯片提供更高算力和內(nèi)存帶寬,以免感知瓶頸“卡住”后續(xù)規(guī)劃。由此推斷,下一代車規(guī)SoC(如NVIDIA Orin的繼任Thor、地平線征程6等)都會瞄準數(shù)百至上千TOPS算力,并重點優(yōu)化Transformer和稀疏算子性能。 3. 協(xié)同計算 (Cloud-Offloading):另一種思路是在車云協(xié)同體系下,將部分大模型推理放在云端。車輛本地運行快速的低級控制和簡單場景處理,而遇到復雜情況或需要深度理解時,將相關(guān)感知信息上傳云端,由超級計算中心上的大模型來分析決策,再下發(fā)指導。這類似人類遇到難題求助遠程專家。當然,這要求穩(wěn)定的通信和低延遲網(wǎng)絡(luò),所以短期內(nèi)只在有限場景或5G覆蓋區(qū)域可行,而且引入了安全和可靠性隱患(通信中斷則高級功能失效)。因此業(yè)界更傾向在車端解決問題。 4. 漸進式部署:在模型和芯片沒有完全準備好前,一種策略是漸進引入。比如視覺-語言模型先用于非實時輔助功能(如事后分析駕駛數(shù)據(jù)、提供駕駛報告),等硬件跟上了再逐步介入實時決策。Tesla FSD目前大部分仍是視覺網(wǎng)絡(luò)+傳統(tǒng)Planner,但他們很可能在后臺已經(jīng)運行一些大模型做分析,以驗證效果。隨著Hardware 4.0、5.0性能提高,再把這些模型并入主循環(huán)中。 硬件發(fā)展與算法進步總是相輔相成的。過去十年GPU/TPU算力提升了百倍以上,才支撐起今天的自動駕駛深度學習。本白皮書下一節(jié)將詳細比較當前主流自動駕駛計算平臺的性能和取舍??梢灶A見,為滿足全局端到端和VLA模型的需求,自動駕駛芯片將向“更大、更專用、更智能”演進:算力至少上千TOPS級,專門為Transformer/大矩陣優(yōu)化,甚至片上集成一些簡化的語言模型模塊硬件。真正實現(xiàn)AI驅(qū)動汽車大腦,需要軟硬件的共同飛躍。 結(jié)語自動駕駛技術(shù)正處于從感知驅(qū)動走向認知驅(qū)動的關(guān)鍵拐點?;仡欉^去十年,我們見證了感知模塊從二維圖像CNN一路演進到三維Occupancy網(wǎng)絡(luò),實現(xiàn)了對環(huán)境更加全面細致的刻畫;決策模塊從人為規(guī)則過渡到數(shù)據(jù)驅(qū)動,開始涌現(xiàn)端到端的智能策略,努力逼近甚至超越人類駕駛水平;同時,計算硬件不斷升級,從幾十TOPS的芯片發(fā)展到數(shù)百TOPS,支撐著越來越復雜的神經(jīng)網(wǎng)絡(luò)在車端實時運行。這一切進步相輔相成,將自動駕駛推向新的高度。 展望未來,自動駕駛系統(tǒng)將日益呈現(xiàn)出“大一統(tǒng)智能體”的形態(tài)——跨越視覺、語言、動作的界限,在一個統(tǒng)一模型內(nèi)完成對駕駛環(huán)境的理解和決策。這有賴于全局端到端架構(gòu)的成熟以及多模態(tài)大模型的融入。當視覺-語言-動作模型真正成為車輛的大腦,我們將迎來自動駕駛2.0時代:車輛可以像經(jīng)驗豐富的司機那樣,不僅看清路況,還能“思考”行駛策略,甚至用人類語言與我們交流它的決策依據(jù)。 然而,機遇伴隨挑戰(zhàn)。越智能的系統(tǒng)越是復雜黑箱,這對安全驗證和監(jiān)管提出前所未有的難題。產(chǎn)業(yè)界和學術(shù)界需要合作,發(fā)展新的驗證工具和標準,確保大模型驅(qū)動的自動駕駛依然可控、可驗證。另一方面,算力的饑渴將持續(xù)存在,推動芯片架構(gòu)的不斷革新和算力網(wǎng)絡(luò)的建設(shè)。 對于研發(fā)工程師而言,知識結(jié)構(gòu)也需隨之演進。未來的自動駕駛研發(fā)將是一門橫跨感知、認知、硬件的綜合性學科,懂深度學習也要懂芯片架構(gòu),既要能訓練大模型也要能做系統(tǒng)工程優(yōu)化。本白皮書希望提供一個全面的技術(shù)脈絡(luò),幫助讀者梳理關(guān)鍵概念和前沿方向。在具體開發(fā)中,還需結(jié)合實際需求權(quán)衡選擇適當?shù)乃惴ê陀布桨浮?/span> 自動駕駛被譽為“AI皇冠上的明珠”,其復雜性和潛在社會價值無與倫比。感知、決策、硬件這三駕馬車正在齊頭并進,拉動行業(yè)駛向更高的山峰?;蛟S在不遠的將來,當我們坐上無人駕駛車,它能可靠地接送我們,同時偶爾風趣地播報一聲:“前方美景不錯,我已放慢車速供您欣賞”——那將標志著自動駕駛技術(shù)真正融入了人類的智慧與溫度。讓我們拭目以待這一天的到來。 ———————————————————————————— |
|