天天看點

别吹了,自動駕駛大模型PPT們

作者:宇多田侃科技
别吹了,自動駕駛大模型PPT們

這篇文章的源頭,是4月上旬有朋友把長城汽車旗下某“自動駕駛GPT”甩給我,表示這套“新型表演方式”,屬實沒有看懂。

而在上周高通的技術大會上,這家中國自動駕駛公司的PPT再次讓我感歎中國文字的博大精深與誇大能力。

出于疑惑,寫下此文,歡迎批評。

作者| 宇多田

封面| 電視劇《消失的M》

人工智能産業(包括自動駕駛)有一個不可忽視的人性缺陷:

除了天然受制于技術語言,也有不少人故意把東西說的模棱兩可、艱澀難懂、天下第一…以達到讓人不明覺厲、讓資本掏錢的目的。

有些自動駕駛公司就善于此道。

或者說,如今市面上,把汽車工業與“超大模型”“GPT”以及“AIGC”強綁定的說辭,基本可以歸于“非蠢即壞”的商業炒作行徑。

特别是,在“大模型”到底有多大都沒法定義的情況下,有人拿出幾億參數值說大,有人搬出幾十億也說大,而GPT2的“大”就有150億,GPT3則是1750億。

當然,大不大無所謂,很多人最關心的問題是,開始有公司向汽車産業推出所謂的自動駕駛GPT…到底有什麼用?

答案是,或許真的沒太多用處。

首先,就像寫Paper占坑一樣,它的确有一小部分研究價值,屬于學術界的任務;

其次,忽悠資本,因為不少資本會對汽車産業與大模型的雙倍規模與估值買賬。

但事實上,包括自動駕駛産業與深度學習圈,許多開發者們對“自動駕駛GPT”的說法很不認同,甚至是極為惱火的。

我們請教了多位曾在大廠、中美科技獨角獸做自動駕駛研發的資深工程師,以及包括OEM在内的汽車産業人士看法,再結合部分部落格文章,總結了一些觀點,或許會對汽車工業、資本以及更廣闊的大衆群體有一些啟發。

01

把GPT吹上車

以某家公司給出的“自動駕駛GPT産品”為例,其神經網絡概念圖讓内行都一頭霧水,不知所雲。

此外,1200億的參數量的确夠大,相當于對标了GPT3。

那麼這意味着支撐這龐大資料量訓練的硬體資源支援,同樣不菲。

但是,他們雖背靠主機廠,卻并沒有自建昂貴的資料中心,而是跟其他企業一樣租用雲上資源。

很明顯,這是将某大廠雲服務整合包裝為自己的資料基礎設施服務體系。

别吹了,自動駕駛大模型PPT們

其次,最重要的,大模型到底怎麼落地?

把跟ChatGPT一樣的“黑匣子”塞進汽車裡,做從“感覺、規劃到決策”(這是自動駕駛技術三個組成部分)的端到端輸出?

從這一方向,各方非常嚴謹地表示,目前離落地非常遙遠。

ChatGPT有着自己天然的生存環境,那就是昂貴的資料中心裡。而所有關于AIGC的應用都要跟資料中心聯網,這沒有任何問題——在光纜的連接配接體系裡,做到極快反應。

但作為大型移動裝置,車唯一靠的就是無線,但目前連5G也非常不穩定。是以,包括特斯拉在内,大家都隻能選擇走一條路——

将高性能且輕量化的算法模型,塞進一枚成本效益足夠高的晶片裡。

本質上,英偉達從Tegra 2、Xavier,過渡到Orin,再到2000Tops的Thor,算力的确是沿着自動駕駛AI算法模型在車内的瘋狂擴充與變化而一路往上爬的。

而估算一下,GPT3需要的算力至少是Thor的10的N次方倍。

當然,就像GPT3.5開源之後,有開發者已采用量化技術用蘋果M2晶片運作起ChatGPT,是以,不排除未來有人會把它塞進英偉達的晶片裡。

但是!除去車輛感覺、規劃與決策過程本身的複雜性,汽車工業瘋狂追求的成本效益、以及延遲兩秒就會出人命的嚴苛交通環境,對一切“不可解釋性”有着天然的回避姿态。是以,業内認為,可行的時間點極為遙遠。

(當然,這家公司說自己的模型對于駕駛政策是可解釋的,請拿出更詳細的證據。)

别吹了,自動駕駛大模型PPT們

圖檔來自紐約時報

目前來看,自動駕駛前裝市場普遍情況是:“唯有‘感覺’子產品用上了模型”。

業内清楚,感覺最好做,且各家已成功落地——從CNN(卷積神經網絡)開始,它就是一套相對成熟的流水線。而晶片裡的GPU部分也基本被“感覺”占用。

當然,“決策”與“規劃”兩個部分,并非沒有人做AI化嘗試,隻是汽車工業大多在當下,依然采用最為穩健的方法——

一系列來自機器人等領域的經典規則理論。譬如以“蒙特卡羅搜尋樹”為代表的啟發式搜尋算法。

以“規劃”為例,其上車最常見的方式是把“縱向規劃”和“橫向規劃”分開,做“時空分離”。而在這一點的創新上,就分出了幾個“流派”——

  • 以B大廠與蘇Q廠為代表,做時空聯合規劃。相當于把縱向控制與橫向控制的問題結合在一起,更容易搜尋出全局最優值。

這個流派的優點是,在面對極為困難或複雜場景,局部最優算法很難搜尋出一個更智能路徑,但全局可能性更大。但缺點是占用更多算力。

  • 以蘇M廠等很多從深度學習領域“出道”的公司為代表,在經典決策規劃裡融入AI算法,把其中一部分子產品用AI算法替代掉,而非上來就做大一統。

的确,五六年前“計算機視覺”的大火,早就證明了深度學習具備巨大的應用潛力。但它的缺點也是顯而易見的——“不可解釋性”,以及通過大量資源投入來持續燃燒資料。

是以,要想上車,大部分企業在努力采用折中的方式——經典理論輔以AI算法,既保留經典方法的穩定性,又能提升性能表現。

“譬如,規劃裡的‘路徑生成’,就可能用AI做替代;而路徑的選擇、判定以及決策,以及後面的縱向規劃,仍基于規則去做,形成一種複合方法。”

是以,大模型當然是一個終極理想狀态,但上車的最好方法卻是“分步驟推進”,與成本之間做更多權衡。

當然,如今也有高端玩家們已經在研究“單模型多任務”的所謂“大一統”形式,不過一切沒有定論。

02

大小可能不重要

我們從來都沒想到,就像當年“自動駕駛分級”概念的模糊不清,讓國内不少公司鑽過空子一樣;大模型這個“大”竟開始也被鑽空子——

你有10億,我有100億,他有1000億參數。

然而,在國外,對大模型的“大小”雖然有讨論,卻從來不是重點。況且,國外工業界已經有了“去大用小”的勢頭。因為“大模型”絕不是越大越好,越大就意味着越不透明,越具有排它性。

包括蘇黎世聯邦理工大學的科學家在内,一群年輕學者已發起一個叫做“BabyLM”的迷你模型挑戰賽,用規模為大型語言模型千分之一(一億參數左右)做更适用工業界的模型。

此外,2022年,諸多國内自動駕駛公司蹭的所謂“Transformer”大模型,更多指代的,是包括GPT在内諸多大模型背後的深度學習基礎架構,而非僅指代大模型本身。

它最早出現在2017年谷歌的論文裡。但這個被常用在自然語言處理(NLP)的Transformer模型,之是以突然在自動駕駛視覺界火了,是因為特斯拉将這一深度學習模型的“原理”,極具創造性地用在了“圖像空間轉化為矢量空間”的感覺預測中。

簡單來說,特斯拉工程師思考的是,既然這是一個優秀的語言翻譯模型,那麼為何不能将“攝像頭擷取的圖像空間‘翻譯’為3D矢量空間”?

是以,Transformer發源于NLP但轉入了CV(計算機視覺);而2023年最火的BEV大模型,則是基于Transformer在自動駕駛領域的衍生物。

如果感興趣,可以直接看Medium上關于特斯拉FSD的技術部落格。工程師全程從沒提過所謂的BEV模型到底有多大(雖然BEV被印證的确是燒資料的),而是設法解決目前車載攝像頭資料融合産生的問題——

純攝像頭系統對閉塞區域與大型物體的預測結果比較糟糕,那麼便從神經網絡源頭改變算法模型的設計理念——從圖像過渡至BEV。

效果也确實有了質的提升。

别吹了,自動駕駛大模型PPT們

事實上,特斯拉更多值得稱道的,是對各種各樣已存的如RNN、LSTM、RegNet(上圖)等普通模型進行創新,且把它們的潛力發揮到極緻;

同時,強大的工程能力,又讓特斯拉把這些模型都塞進了車裡。

“特斯拉是在從大模型原理入手,去試圖做一些有益于自動駕駛整個模型的設計,同時又考慮到汽車必要的輕量化和小型化,再結合自己的AI晶片(TRIP)工藝往車上搬。

我認為這是一件更趨向于實幹的事情,而不是像國内一些公司吹牛蹭熱點。”

03

從1到1.X?

不能上車,那麼大模型做離線支援的“資料閉環”工作總可以吧?

“資料閉環”這個概念,可以參考被說爛了的特斯拉Autopilot資料引擎架構——

确認模型誤差、資料标注和清洗、模型訓練,再到重新部署。

與此同時,全球各地的特斯拉車輛源源不斷的回傳資料進入這套流程,使之迅速流轉起來,形成一套閉環系統。

但有趣的是,沒有“大模型”,這些工作也可以做,不是非大模型介入不可。

譬如,資料閉環裡的“預标注”,國内無論是早期的B大廠,還是H大廠的某生物工具鍊,做的這套東西已經非常成熟,那麼大模型的“增益”就有待評估,沒有PPT們渲染地那麼厲害。

實際上,資料閉環的概念既簡單又複雜。

簡單在于,它可以被直接看做是“錘煉算法的大型基礎設施”,從它裡面出來的模型上車後足夠智能,足夠見多識廣。

而複雜之處在于,它的每個環節,幾乎可以作為一個小型創業項目——

如何做到樣本的自動化挖掘,如何清洗掉備援資料留下最有營養的部分,如何做好資料的冷存儲與熱存儲?如何分門别類組織好資料?如何做到更有效的預标注…

是以,這套閉環的工程量極為龐大,每個環節都需要專門的人才維護。

而對于自動駕駛創業公司來說,由于極度燒錢,一般會選擇“把A部分做好,把B部分外包出去”的輕量化模式,有強項也有短闆。

目前,雖然各家東西細節無從比較,但L4獨角獸P廠的資料閉環工具鍊“CQ”,竟然得到了業内不錯的評價。

對于這隻早期L4巨獸,不談商業模式,被認為“在建構基礎設施上的積累比較厚實”,是一家在技術層面有真東西的企業。

此外,維持這套東西的運轉,必然需要投喂更多的新鮮血液——資料與人才。是以,不是誰都能玩得起。

而特斯拉與比亞迪,是被認為最有可能把這個東西做好的商業組織。

隻不過,基于人工智能的特性,資料閉環短期内是看不到成效的。它更像是春播秋收,把該澆的水、該施的肥、該播的種都做到位,不會立竿見影且巨燒資源,但效果出現後,便是馬太效應形成的開始。

是以,要比大模型在資料閉環上的應用,不如比誰更有錢。

04

寫在最後

當然,以上内容無意在狙擊誰,也無意表揚誰(否則不會用字母指代),而是希望産業能回到一個正常的對比參照系内,以及重點放在實際效果上。

以及,建議企業把辦公室内的“牌匾”換成特斯拉的成功三要素:

堅持第一原則思考方式,工程能力,以及執行力。

END

别吹了,自動駕駛大模型PPT們