機器之心原創
作者:澤南
毫末智行的 HPilot,不到一年時間就站上了國内智能駕駛第一。
自動駕駛前進的速度,比我們想象得要快一些:今年,全場景輔助駕駛就會在國内落地了。
4 月 19 日,毫末智行在 AI DAY 活動正式推出「城市智慧領航輔助駕駛系統」NOH,并預計将于年中量産落地。

「2021 年,毫末智行提出中國自動駕駛的新範式,也就是毫末智行的緻勝公式:以領先的資料智能體系,乘以穩定的量産能力乘以安全,之後再乘上生态的 N 次方。毫末智行的緻勝公式源于毫末對自動駕駛行業的深刻了解,是毫末智行自動駕駛技術産業化落地的重要舉措,」毫末智行董事長張凱在活動中說道。
随着技術的發展,進階别智能駕駛正處在大規模量産的前夜。為毫末所有智能駕駛産品提供技術動力支撐的自研資料智能體系 MANA 正發揮出巨大優勢。
智能駕駛領域裡,毫末智行已經進入領先者隊列,這家公司剛剛公布了最新輔助駕駛總裡程記錄:已突破 700 萬公裡,使用者使用總時長超過 13 萬小時。
在毫末産品規模量産的進展上,去年 3 月,毫末智行在品牌開放日活動中展示了 HPilot 1.0 系統,5 月實作量産落地。截止今年 4 月,HPilot 已登陸魏牌摩卡、坦克 300 城市版、魏牌瑪奇朵 DHT、魏牌拿鐵 DHT、哈弗神獸、坦克 500 六款車型,成為國内應用量最多的自動駕駛系統。
「最近一年,自動駕駛的基礎技術發生了很多變化,車載晶片算力不斷提升,Transformer 跨模态模型獲得應用,攝像頭清晰度增加。在感覺技術進化的前提下,輔助駕駛實作的方法也在發生改變,」毫末智行 CEO 顧維灏說道。
在城市輔助駕駛任務上,MANA 從感覺到認知層面的能力都有了大幅度更新。
MANA 進化:學會看紅綠燈,多模态 Transformer
從高速路到城市輔助駕駛,路況的複雜程度成倍增長,讓汽車學會如何看紅綠燈并識别對應的車道線就是重要的挑戰之一。
從 AI 技術的角度看,這就是一個小目标檢測問題:交通燈的狀态會動态變化,又具有明顯地方特色,橫着的、豎着的、三個的、五個的、有待轉的、有倒計時的,形色各異。智能駕駛系統必須區分每個燈具體訓示哪條線路。
毫末給出的解決方法是通過圖像合成和遷移學習加快技術的疊代,其中主要的挑戰是實作真實資料和合成資料的混合訓練。通過圖像合成技術,毫末的工程師擴大了機器學習的樣本量,彌補了真實場景資料樣本不均衡的問題。
在不完全依賴高精地圖的情況下,若想成功實作紅綠燈識别,需要完成燈型和狀态的檢測,同時也要完成在視野中多組紅綠燈中識别目标燈組的綁路操作。毫末智行設計了一個針對紅綠燈檢測及綁路的「雙流」感覺模型,将紅綠燈檢測和綁路問題分解成兩個通道。
據毫末介紹,這種技術類似于人腦的視覺感覺通道,其中 ventral stream 主要攜帶物體檢測及識别資訊,主要負責識别通路(what),dorsal stream 主要攜帶視野中位置及空間關系的資訊,主要負責尋找路線(where)。
在雙流模型中,ventral 通路主要負責紅綠燈的識别資訊,包含對紅綠燈燈箱的檢測和燈型的分類,分别輸出紅綠燈的顔色、形狀和朝向資訊。Dorsal 通路主要負責紅綠燈綁路,輸出目标車道的紅綠燈燈組,其通過訓練生成特征圖,獲得真實圖像中經常出現紅綠燈位置的位置機率。
随後,模型利用空間注意力機制将二者結合起來,雙流模型将輸出綁路後的目标車道紅綠燈通行狀态。
訓練完成後,毫末智行對這些模型進行了大量測試,在不同城市、不同距離、不同轉向目标、不同光線的條件下均實作了準确的效果。
Transformer 架構是目前人工智能領域最熱門的技術。過去一年裡,視覺 Transformer(ViT)已經成為視覺識别的強大支柱。由于性能強大,其在自動駕駛的各獨立傳感器中都獲得了應用。
人們發現,Transformer 結構可為自動駕駛帶來幾種優勢:更高效地利用模型體量和資料,通過注意力結構融合多模态資料,減少對于标注資料的依賴。
在多傳感器融合的嘗試中,交叉注意力機制(Cross Attention)被用來作為多模态資料的融合工具,大量減少了人工先驗的介入,可以讓基于優化的端到端算法和資料驅動更友善的結合,進一步發揮 Transformer 架構的潛力。
毫末智行根據智能駕駛任務的特點提出了自己的 BEV Transfomer,利用注意力機制解決了多相機視角拼接問題,在車道線識别任務上取得了進步。
具體來說,新系統在得到攝像頭資料後,首先對 2D 圖像用 Resnet + FPN 進行處理,之後進行 BEV Mapping,利用 Cross Attention 來動态的确定某一幀圖像中的内容在相機所屬 BEV 空間中的位置。通過多個 Cross Attention,最終組成一個完整的 BEV 空間。
當視覺特征完成 BEV 投射之後,就天然具備了和 LiDAR 模型的融合能力。最後,算法又通過 History BEV 加入與時間有關的特征,進一步提升識别的準确率和連續性。
在自動駕駛中應用 Transformer 可謂最前沿的嘗試,獲得的回報也非常可觀。特斯拉 AI 總監 Andrej Karpathy 曾介紹了特斯拉 FSD 基于 Transformer 的 BEV 網絡結構,由于 BEV 空間下的感覺結果與決策規劃所在的坐标系是統一的,是以感覺與後續子產品通過 BEV 變換可以緊密聯系到一起。此外,BEV 方法可以有效融合多傳感器的輸出,讓近處大目标尺寸估計和追蹤都變得更加準确。該方法的使用确立了 FSD 在視覺感覺的領先地位。
那毫末 BEV Transfomer 的實作效果如何呢?毫末表示新的方法對自車姿态的容忍度更高,在複雜路面縱向誤差表現更好,對于路面起伏的魯棒性更高。另外,利用多相機輸出内容互相輔助,擴充了檢測視野,自動駕駛對周圍事物的響應也更快。
目前在業内,隻有毫末智行和特斯拉在自動駕駛視覺上大規模應用了 Transformer 架構。此類感覺算法在穩定成熟後,将逐漸替換基于 CNN 的感覺算法。
用大模型實作自動駕駛「認知」能力
城市自動駕駛面臨的複雜問題往往超過感覺層面。在更高層次的認知問題上,毫末智行也有一些新成果。比如非常微妙的路口博弈場景的左轉待轉時,輔助駕駛車輛需要等待前方掉頭車,還需觀察避讓對向直行車輛、與對向右轉車互動。
處理這樣的場景,過去自動駕駛算法需要寫非常多的規則式場景判定和參數,代碼難以調試。當規則越來越多的時候,就會引發邏輯爆炸,導緻規則失效。毫末則使用機器學習模型來替換手寫規則和參數,獲得更廣泛的适用性。
毫末提出的 TarsGo 模型目前可以處理很多複雜的輔助駕駛場景,如環島、輔路彙入、壓速變道等等。
去年,阿裡提出了 10 萬億參數超大規模中文預訓練模型 M6,成為國内首個實作商業化落地的多模态大模型。毫末智行和阿裡達摩院進行了合作,使用 M6 對自動駕駛資料進行圖像可解釋性标注,獲得了前所未有的效果。
通過注意力機制,AI 模型可以用熱力圖方式量化出與周圍交通參與者的安全風險,近距離用紅色表示,輸出 Attention High,而中距離用黃色表示,輸出 Attention Middle。
M6 在自動駕駛領域的應用展現了 AI 能力的普惠化 —— 以往被其他行業使用的資料,現在也可以疊代提升自動駕駛能力了。
毫末智行還與阿裡合作,基于 128 卡 A100 叢集,實作了 Swin Transformer 模型分布式訓練,探索了混合精度訓練、算子和編譯的優化,使大模型訓練成本降低了 60%,加速比超過 96%。
在機器學習任務中,資料處理經常占用大部分時間。毫末智行還通過标注過程自動化,将資料标注的效率自動化率提升到了 80%,大幅減少了自動駕駛算法訓練的成本。
通過與大算力平台深度融合,自動駕駛認知能力得到了飛速提升,這些技術進步終于讓城市智能駕駛成為了可能。
國内首個量産城市輔助駕駛系統 HPILOT 3.0,今年上線
目前,國内高速公路裡程約 16 萬公裡,城市道路裡程則早已突破 1000 萬公裡,在其範圍内還有 40 萬個城市路口和 130 萬個紅綠燈。根據毫末的資料,在城市場景下的通勤,有 85% 是擁堵和半擁堵情況。擁堵變道、借道繞障、路口博弈、非機動車出現是城市輔助駕駛必須面臨的問題。
毫末目前已完成了城市 NOH 的全部功能開發,其資料智能體系 MANA 的學習時長達 197273 小時,虛拟駕齡相當于人類司機 2 萬年。
毫末即将推出的下一代城市智能駕駛系統 HPilot 3.0 将配備 AI 算力 360T,高速緩存 144M,CPU 計算能力達到 200K+DMIPS 的新一代自動駕駛晶片。全車搭載 2 個雷射雷達、12 個攝像頭,5 個毫米波雷達形成的多備援感覺體系。
城市 NOH 能夠根據導航路線在城市環境中應對各種複雜交通場景,實作城市區域内點到點安全、輕松的智慧出行。根據目前的測試,該系統實作了 70% 路口通過率,變道成功率 90%。
僅用一年多時間,毫末智行就幫助長城完成了智能駕駛能力的更新,率先站在了下一階段城市智能駕駛的起跑線上。在國内除毫末智行外,目前僅有小鵬明确表示将在今年上線城市輔助駕駛能力。
毫末為今年制定的目标是 NOH 系統覆寫超過 30 款新車。在未來兩年,搭載毫末輔助駕駛系統的乘用車數量将超過 100 萬台。按照這一目标,毫末将在未來持續保持中國量産自動駕駛第一名的位置。
「随着自動駕駛、輔助駕駛的成熟,這些新技術不僅能夠有效保障交通參與者的生命安全,還能夠逐漸釋放駕駛者的駕駛時間,緩解駕駛疲勞,獲得出行效用的提升,」顧維灏表示。
在大規模量産後,毫末智行智能駕駛的核心——MANA資料智能,勢必将會随資料和技術的積累,在業内樹立标杆。