天天看點

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

作者:智能車參考
賈浩楠 發自 副駕寺智能車參考 | 公衆号 AI4Auto
AI技術演進,以前的自動駕駛Tier1生存空間,會越來越小。

熱熱鬧鬧的2024北京車展期間,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛,給出了這樣的新判斷。

今年,高階智駕到了普及時刻。自動駕駛也到了“淘汰賽”階段:功能上卷“無圖”,成本層面卷“千元級”,并且還要“标配”,技術上則競争“端到端”、“資料驅動”。

王曉剛認為,行業熱議的這些概念不是突然流行的,這一切不過是AI技術演進的必然結果。

而商湯早在2018年,就已經在如今的競争局面做儲備。

現象和體驗:車展上商湯絕影的新産品新技術

北京車展今天剛剛開幕。智能車參考粗略統計了一下,整個車展上,大約有八九十款不同的品牌、車型,都搭載了商湯絕影的技術或方案。

在整整一年前的上海車展,這個數字還是三四十款。

這些技術和方案,都是已經量産傳遞給使用者的。

比如大熱的小米SU7,之前官方展示過一個引起熱議的互動場景:

使用者指着前方的一輛車,詢問語音助手這是什麼品牌什麼車型,車機立刻做出了準确的回答。
商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

實際上,背後是絕影的一系列大模型協作展現出的能力。比如大語言模型準确了解使用者指令及給出相應回答;多模态大模型則将視訊、聲音、圖像等等資料相關聯,形成環境了解、邏輯思維和内容生成能力。

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

智能駕駛方案上,廣汽埃安旗下主打實用性的中型SUV LX Plus,搭載具備高速領航輔助能力的ADAS系統,背後的支援,是商湯絕影的環視BEV感覺能力和通用目标感覺能力。

而商湯絕影的高速領航全棧智能駕駛能力,搭載在新勢力哪吒的轎跑新車S上。

已傳遞量産的成熟方案産品之外,絕影還在北京車展上展示出了更多即将量産上車的“黑科技”。

比如今年蘋果的Vision Pro大熱,讓人們領略到了3D互動的魅力。絕影則推出了兩大全新座艙3D互動,包括3D Gaze高精視線互動和3D動态手勢互動。

其中3D Gaze高精視線互動将讓使用者通過眼神控制中控圖示;3D 動态手勢互動是行業領先的支援動态手勢和手部微動作識别的智能座艙技術,能讓使用者通過手勢“隔空”進行各類座艙互動。

兩個功能配合,體驗幾乎就是“Vision Pro”裸眼上車,智能座艙的互動更加符合人類直覺,更自然。

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕
商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

2022年末,商湯提出了行業首個感覺決策一體化自動駕駛通用模型UniAD,次年,這篇論文獲得了計算機頂會CVPR 2023年的最佳論文。

剛剛在北京車展,商湯絕影宣布這篇最佳論文要“上車”了!

體驗方面,潮汐車道對于傳統智駕方案來說是很大的挑戰,但是端到端大模型在經過相關資料的訓練之後,可以對訓示文字、圖示以及車流變化等外部資料進行解讀并了解這些資訊,進而主動變更路線,駛入或離開潮汐車道。

又比如鄉村道路上經常碰到這樣的場景:在對向來車的情況下,前方有行人在跑步:

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

在確定安全的情況下,搭載UniAD的測試車先加速向左行駛繞開行人,而後快速向右打方向避開對向來車,順利通行。

之前的智駕産品在有地圖資訊的情況下也能機會能通過,但成功率不敢保證,因為背後是一套複雜規則定義的“被動觸發”機制,但路上情況稍有不同,系統就無計可施。

UniAD不再依賴人工窮舉的感覺“白名單”,規控層面也不再是傳統手寫規則,通過資料學習和驅動,AI司機僅憑攝像頭的視覺感覺,能夠應對城區甚至是無标線和交通辨別的鄉村道路等複雜環境。

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

智能駕駛今年開啟了鋪天蓋地的時代,功能上高速NOA成了标配門檻,價格也下探到了15-20萬元的車型。

但熱鬧之下,最近卻有不少行業技術大牛都發出了相同的警告:

必須要認真考慮技術路線了,以前基于規則的技術棧能走多遠,是個問題。

這背後是智能駕駛算法,從以往子產品化、規則驅動,向端到端的一體化模型、資料驅動演變。

是以,比“上了多少車”更加重要的,是商湯絕影的端到端模型的率先上車,代表着中國智能車行業發展趨勢和今後新技術範式。

技術:絕影端到端,「真」在哪?

商湯絕影提出的UniAD,是國内玩家中首個端到端自動駕駛大模型。

而且令人吃驚的是,量産上車的進度,也是最快的。

除了剛才提到的體驗優勢,UniAD還有4個關鍵點:

高效開發疊代

“純視覺、純無圖”高階智駕與生俱來

感覺決策一體化的真·端到端

體量輕,代碼量數千行

分别來看,端到端模型能夠通過完全資料驅動的模式,将其學到的駕駛能力和技巧遷移泛化到其他場景當中,自主且高效解決行泊場景中新出現的各類長尾問題,具備更快的疊代效率,可以有效降低開城成本,幫助車企更快速實作“全國都能開”的目标。

而現在大家都在卷的“無圖NOA”功能,以及很多玩家都在積極推進的純視覺城市NOA能力,這些都将是端到端模型與生俱來的天賦,因為它隻需要導航資訊就能把車駕駛到目的地。

這種“純無圖”、“純視覺”的能力,自然就可以幫助車企降低軟硬體成本,徹底告别高精度地圖覆寫低、更新慢,以及需要靠雷射雷達等傳感器備援才能解決各種Corner case帶來的成本難題。

更重要的是,從UniAD的描述中可以看出,其最大的不同就是和人類駕駛思維模式無限接近,主動學習、思考和推理,了解複雜的交通環境,而不是根據不同場景被動觸發對策。

怎麼做到的?

其實,所謂“端到端”是針對傳統技術範式而言的,其中自動駕駛的感覺、決策、規控等等互相獨立。傳感器采集到的資料,需要通過這一系列不同的算法子產品,最終才能“變成”操作指令。

并且這樣的技術體系中,通常隻有感覺子產品應用AI模型,其餘子產品都是基于人為定義的手寫規則。

每個獨立子產品之間的資訊是逐級傳遞的,在這個過程中必然會存在資訊的丢失和誤差,而且前一個子產品的誤差會影響到下一個,多個子產品之間的資訊誤差會不斷累積,進而影響到自動駕駛方案的整體效果。

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

其次,規則主導的智駕功能,行為上刻闆僵硬,面對不同路況不能采取靈活應對措施,導緻整個産品不好用、不敢用。

王曉剛表示,Waymo、特斯拉,包括商湯絕影在内,都嘗試過對基于規則的傳統智駕方案進行優化和疊代,但都無法突破這套算法架構的局限性。

想要從感覺開始就實作資訊的無損傳遞,必須要有一個全新的算法範式——端到端算法模型。

目前,市面上不少端到端方案是在感覺和決策兩個子產品分别搭建一個大模型架構,因為這樣更容易實作落地。但“兩段式”方案的兩個模型之間傳遞的依然是人為定義的顯性資訊,避免不了資訊損失和誤差,降低了難度,也拉低了它能力的上限。

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

商湯絕影UniAD方案則是将感覺、決策、規劃等子產品都整合到一個全棧Transformer端到端模型,實作感覺決策一體化,不需要對感覺資料進行抽象和逐級傳遞,“所見即所得”:

将傳感器采集的原始資訊輸入到模型中,然後以自車軌迹規劃為準進行指令輸出。
商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

這就是UniAD被稱為“真·端到端”的關鍵原因——并非隻是把決策規模子產品“神經網絡”化,而是從一開始,就完全将感覺到決策整個過程當做一個整體,來思考和解決問題。

“端到端”的自動駕駛模型其實不是一個很新的東西,2016年就由英偉達首次提出。但之是以現在開始落地實踐,是因為端到端大模型“黑盒子”缺乏可解釋性,卡住了大部分玩家:性能體驗不佳,但卻不知道該怎麼調參…

商湯的方案是這樣:與不可解耦得端到端方案相比,UniAD将多個子產品整合到一個端到端模型架構之下,仍可以對各個子產品進行分别的監測和優化。

王曉剛認為,端到端模型上車量産是一個趨勢,類似“輸入資料輸出油門刹車信号”這樣的模型,目前上車仍然具有安全風險。

“一體化”的程度不是一蹴而就,是一個過程,逐漸将感覺、決策、規控等的各環節融入一個大模型之中。

UniAD之是以能稱得上是國内首個“真”端到端,是因為它的一體化程度最高,融合之路走的最遠。

也正是因為做到了真正的一體化,使得整個系統中需要人工手寫代碼維護的比例,降到了最低,總共隻有幾千行代碼的體量。

絕影率先實作,王曉剛歸因為商湯長久以來投入的AGI(通用人工智能)能力。

從2018年開始,商湯開始布局算力基礎設施,在上海臨港投入超過50億元人民币建設智算中心AIDC,當時很多人不明白為什麼一家算法公司會在基礎設施建設上投入如此巨大。

商湯CVPR「最佳論文」上車!數千行代碼實作端到端智駕

但現已經驗證,強大的算力是AI大模型發展必不可少的。而依托AIDC加持的商湯大裝置,商湯絕影也有了行業領先的算力儲備,營運算力規模達到12,000P,預計到2024年第四季度,峰值算力将達到16,000 P。

在強大算力的基礎上,商湯又建立了自己的“日日新大模型體系”,涵蓋大語言模型、文生圖/視訊模型、多模态模型等等,能夠解決衆多開放式任務,率先摸到了通用人工智能的門檻。

是以,王曉剛認為,絕影在端到端模型的領先進展,以及智駕/座艙/車雲業務全面布局,其實是商湯AGI技術最好的落地和實踐載體。

趨勢:端到端reset智能汽車

傳統自動駕駛公司生存空間越來越小,這是王曉剛最新的判斷。

這樣的觀點仍然是從技術演變的角度出發:

端到端的興起,reset自動駕駛賽道,競速上車,是自動駕駛賽道新階段的名額和“試金石”。

細化地說,端到端模型第一次真正實踐了“自動駕駛第一原理”,從體驗和技術疊代兩個次元,完美解決了過去難以解決的問題。

正因為這樣,它給了所有玩家新的機遇:更好的智駕體驗、更低的維護、泛成本,以及更有競争力的智駕方案成本。

但代價是以往子產品化的、規則驅動主導的技術體系,必須推倒重構。

是以它同時也是門檻極高的挑戰,從商湯絕影的例子來看,至少需要要具備這些能力:

算力基礎設施、基礎大模型積累、多模态大模型…

當然還有技術路線切換的“沉沒成本”:以往投入的資金、時間。

老牌明星可能會優勢歸零重置,“後來者”也會獲得領先優勢。

2024自動駕駛洗牌,表面上是看項目落地、賬上資金,其實背後主要驅動因素是技術路線的重構。

新趨勢下,商湯絕影值得重點關注。