CVPR最佳論文：大模型成就端到端自動駕駛｜焦點分析

文丨李安琪

編輯丨李勤

與自動駕駛相關文章，首次獲得全球頂級計算機視覺會議CVPR的最佳論文。

6月22日，全球頂級計算機視覺會議CVPR 2023公布了最佳論文等獎項。一篇名為《Planning-oriented Autonomous Driving》（以路徑規劃為導向的自動駕駛）論文，成功從9155篇投稿、2359篇接收論文、12篇入選最佳論文候選名單中脫穎而出。

這也是近十年來，CVPR會議上第一篇以中國學術機構作為第一機關的最佳論文。該論文由上海人工智能實驗室、武漢大學及商湯科技聯合完成。

CVPR在學術界及産業界的影響力毋庸置疑，與ICCV、ECCV并列為計算機視覺領域三大頂級會議。全球最聰明的頭腦彙聚于此，特斯拉也連續幾年在CVPR上公布其自動駕駛技術最新進展。

今年的競争相當激烈。據公開資訊，今年12篇入選最佳論文候選名單機構，不僅有谷歌、Stability AI等人工智能領域頂尖企業，也有上海人工智能實驗室、斯坦福大學、康奈爾大學、香港中文大學、香港科技大學、南洋理工大學等研究機構及高校。

而上海人工智能實驗室、武漢大學及商湯科技聯合獲獎的關鍵在于，提出了一個感覺決策一體化的自動駕駛通用大模型UniAD。

大會官方組委會認為，論文提出的端到端感覺決策一體架構，融合了多任務聯合學習的新範式，使得進行更有效的資訊交換，協調感覺預測決策，以進一步提升路徑規劃能力。

這證明了大模型與自動駕駛産業結合的潛力。今年初，ChatGPT的爆火，讓機器學習與了解人類語言的能力有了本質飛躍。而大模型，也有望為自動駕駛産業落地指出更清晰的方向。

端到端的自動駕駛大模型UniAD

論文指出，随着深度學習發展，自動駕駛算法被組裝成一系列任務，包括目标檢測與跟蹤、線上建圖、軌迹預測、占據栅格預測等子任務。

基于這些子任務，行業有着多種自動駕駛系統架構設計：子產品化設計，多任務架構，但兩種方案都面臨着累積錯誤或任務協調不足的困擾。

比如自動駕駛公司Waymo、Cruise采用的子產品化設計方案，每個獨立的子產品負責單獨的子任務。這種方案具備簡化研發團隊分工，便于問題回溯，易于調試疊代等優點。但由于将不同任務解耦，各個子產品相對于最終的駕駛規劃目标存在資訊損失問題，且多個子產品間優化目标不一緻，誤差會在子產品間傳遞。

論文認為，多任務架構是更優雅的一種設計方案，代表性企業有美國特斯拉、中國小鵬汽車等。方案中不同任務使用同一個特征提取器，具備便于任務拓展、節省計算資源等優點。但不同任務之間仍存在預測不一緻、表征沖突的問題。

a為子產品化設計、b為多任務架構、c1/c2為兩種端到端方案、c3為UniAD方案示意圖源論文

相比之下，端到端自動駕駛方案将感覺、預測和規劃所有節點視為一個整體，但現有的兩種端到端方案也還面臨挑戰。

一種簡單的方式直接以傳感器信号作為輸入、以軌迹/控制作為輸出，能夠在仿真中取得較好結果，但缺乏可解釋性與實際應用安全性，尤其是在複雜的城市道路場景。

另一種方案是，對模型進行顯式設計，将整個架構分為感覺-預測-規劃子產品，使其具有部分中間結果表達。但這種方式面臨檢測結果在子產品間不可微導緻無法端到端優化，稠密BEV預測時長有限，過去-未來、物體-場景等多元度資訊難以高效利用等困難。

是以，本篇論文提出了一個端到端方案Unified Autonomous Driving，即UniAD。上海人工智能實驗室指出，UniAD能夠成功解決不同任務融合難的問題，進而實作多任務和高性能的關鍵在于以下兩點。

一是多組查詢向量的全Transformer 模型：UniAD利用多組 query 實作了全棧 Transformer 的端到端模型，可以從具體 Transformer 的輸入輸出感受到資訊融合。二是以最終“規劃”為目标，全部子產品通過輸出特定的特征來幫助實作最終的目标“規劃”。

自動駕駛端到端架構 (UniAD) 的流程圖源論文

從論文來看，UniAD 将感覺、預測、規劃等三大類主任務、六小類子任務（目标檢測、目标跟蹤、場景建圖、軌迹預測、栅格預測和路徑規劃）整合到統一的端到端網絡架構下。

具體來說，将一系列多攝像頭圖像輸入特征提取器，并通過 BEVFormer 轉換為統一的鳥瞰圖（BEV）。這部分可以快速替換為其他BEV模型，具有較好可拓展性。

在感覺環節中，UniAD的目标檢測與跟蹤子產品可以實作對動态元素的特征提取、幀間物體跟蹤；線上建圖子產品實作了對靜态物體的特征提取、執行個體級地圖預測；

在預測子產品，UniAD可以實作動靜态元素互動與長時序軌迹預測；占據栅格預測子產品實作了短時序全場景BEV、執行個體級預測；

在規劃子產品，UniAD實作基于自車query的軌迹預測和基于占據栅格的碰撞優化。

論文表示，UniAD 的教育訓練分兩個階段：首先聯合訓練感覺部分，即目标跟蹤和建圖子產品，這将持續幾個階段（在實驗中為 6個階段），然後使用所有感覺、預測和規劃子產品端到端地訓練模型20個階段。

從結果來看，論文表示，在 nuScenes 真實場景資料集下，所有任務均達到領域最佳性能（State-of-the-art），尤其是預測和規劃效果遠超之前最好方案。其中，多目标跟蹤準确率超越SOTA 20%，車道線預測準确率提升30%，預測運動位移和規劃的誤差則分别降低了38%和28%。

在晴天直行場景中，UniAD 可以感覺左前方等待的黑色車輛，預測其未來軌迹（即将左轉駛入自車的車道），并立即減速以進行避讓，待黑車駛離後再恢複正常速度直行圖源上海人工智能實驗室

在雨天轉彎場景中，即便面對視野幹擾較大且場景複雜的十字路口，UniAD 能通過分割子產品生成十字路口的整體道路結構（如右側 BEV圖中的綠色分割結果所示），并完成大幅度的左轉圖源上海人工智能實驗室

從論文到産業還要多久？

當然，從前瞻學術論文到産業跟進、技術大規模惠普，所需要的時間并不短。

以當下被行業火熱讨論的BEV為例。2021年特斯拉首次基于Transformer将攝像頭2D圖像拼接轉化成3D圖景，生成鳥瞰圖 “Bird's Eye View”，簡稱“BEV”。這是大模型在自動駕駛感覺環節的應用。

兩年時間過去，當下國内企業雖已紛紛跟進，但僅有少數幾家能拿出先期成果。

而UniAD大模型是更為龐大的、涉及感覺、預測、規劃的複雜系統工程，其中的技術優化與工程化落地隻會比BEV更艱難。

論文本身也指出，協調這樣一個具有多個任務的綜合系統并非易事，需要大量的計算能力，尤其是經過時間曆史訓練的計算能力。如何為輕量級部署設計和管理系統值得未來探索。

論文作者之一、上海人工智能實驗室青年科學家李弘揚博士表示，UniAD提供了全套關鍵自動駕駛任務配置，其充分的可解釋性、安全性、與多子產品的可持續疊代性，是目前為止最具希望實際部署的端到端模型。這套基于視覺的全棧自動駕駛架構，據初步測算，每年節省雷射雷達與标注成本可達千萬級。

部分玩家已經在行動。據36氪了解，小鵬和理想汽車都在籌備研發全棧端到端自動駕駛方案。“目前效果還不太好，但潛力很大。”有内部人士透露。

總而言之，新的技術的種子已經播下，行業新一輪競賽也可能已經開始。接下來，就看誰能給出更肥沃的土壤與更恒久的耐心。

文章參考：

1.《Planning-oriented Autonomous Driving》

2.《AIR學術｜上海人工智能實驗室李弘揚、陳立：端到端自動駕駛算法設計思考》

3.《上海AI實驗室聯合團隊獲CVPR最佳論文獎 | CVPR 2023》

CVPR最佳論文：大模型成就端到端自動駕駛｜焦點分析

端到端的自動駕駛大模型UniAD

從論文到産業還要多久？

繼續閱讀

多元函數微分學強化班

VMware安裝Win7虛拟機

【自動駕駛】28.【右手法則的正方向】與【逆時針為正方向】的分析

rFpro推出自動駕駛模拟平台，能以每秒120幀的速度運作高清品質圖形

【Baidu Apollo】硬體開發平台介紹1 自動駕駛汽車的事故分析2 自動駕駛汽車的研發流程3 自動駕駛汽車的硬體系統4 自動駕駛汽車的傳感器 5 自動駕駛汽車的計算單元 6 自動駕駛汽車的線控系統7 Apollo硬體開發平台

一步登天！未來自動駕駛汽車的超強網絡架構将如何實作無縫通信？

不隻需要技術好，無人駕駛汽車還需要具備人類常識

Opencv4(C++)實戰案例4:數白塊需求分析案例方法:實作運動目标檢測(追蹤)初步構思通過測試代碼算法分析

#特斯拉想買特斯拉的小夥伴們可以使用我的引薦碼購車享3500元90天自動駕駛服務啦引薦碼：cuin18146

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

适用于自動駕駛 (ADAS) 平台的ASIL-Ready 智能供電與監控解決方案

車道線檢測資料集

車道線檢測

車道線檢測（筆記）

自動駕駛Nvidia Jetson +FPGA設計方案

基于ROS2的話題通訊控制大疆EP基于ROS2的話題通訊控制大疆EP