雲+端自動選型訓練、Swin-Transformer、最高4卡ICU3.0平台，毫末智行的自動駕駛野心曝光！

「唯快不破」的自動駕駛，更要有資料智能的深思考與慢功夫。

「唯快不破」四個字，在當下的自動駕駛行業較量中，是一種戰術，也需要極強的資源支撐。截至目前，毫末智行駕駛輔助産品已積累 100 萬公裡的真實資料，預計未來三年内裝車量還将達到100萬輛。這家被比作「中國 Cruise」的公司，正在沿着預定路線快速前進，但仍在量産應用中遇到了新的挑戰。

9 月 28 日，與傳統觀念中釋出會的「花哨感」不同，毫末智行第三期品牌日在一種「理工男」的氛圍下進行。這場活動更像是一場技術幹貨分享會，市場情況和量産産品較少被提及，花了更多時間分享有關資料智能的新思考。

雲+端自動選型訓練、Swin-Transformer、最高4卡ICU3.0平台，毫末智行的自動駕駛野心曝光！

「我們發現了大量量産前想不到的情況，現實世界遠遠比我們想的複雜。」毫末智行 CEO 顧維灝表示，有許多問題在規模化量産後才會遇到，比如車端感覺可能遺漏很多潛在的高價值場景，能否挖掘出更有價值的資料，将海量資料訓練的比别人更快，将決定誰能占領自動駕駛制高點。

雖然遇到許多諸如此類的意外，但毫末智行搭建的資料智能閉環，仍可解決這些問題。

雲 + 端架構選型，高效篩查有價值資料

顧維灝曾表示：「想要真正訓練出高普适性的自動駕駛系統，首先必須用更快速度收集到大量真實資料，其次必須有能力快速将資料用于算法訓練。」

背靠長城汽車的量産優勢，毫末智行能夠從使用者端擷取足夠多的原始資料。但而後的步驟更加重要，作為商業化技術，不但要有能力發現高價值資料、快速用于訓練模型，同時還要保證這個過程足夠經濟。

目前，毫末智行每天可産生幾千萬桢資料，如何找到對目前能力最有價值的資料，成為了能否高效訓練模型的前提。毫末智行把找到有價值場景資料的行為叫做診斷，通過雲 + 端上模型對照的方式，快速找到有價值資料，以此為核心優化現有模型。

毫末智行在雲端和車端部署兩個模型，雲端模型叫做 Fundamental Model，是一個基于 Transformer 的全任務感覺大模型。車端的小模型是 Domain Model，通過灰階測試的模式感覺環境資訊，但這種這種方式不夠完備，可能導緻很多潛在的高價值場景被遺漏。

這些遺漏很多都是受到車端模型性能限制導緻的誤判，是以它們通常也意味着是車端模型的缺點，也是更高效訓練模型的方向。

為此，毫末智行通過雲端大模型，對比驗證車端模型的判斷結果，相當于建立了一種對照篩選機制。這種選型可以更高效的找到有用資料，之後再針對這些資料補充足夠的樣本，訓練現有模型。

顧維灝在現場介紹：「通過這種自動診斷，我們可以發現小目标漏檢、目标被遮擋和截斷。同樣，自動診斷也包括收費站、異形車輛、雨天、黑夜的目标漏檢問題。」

無監督聚類，全自動訓練模型

毫末智行現在已經有了百萬公裡的真實資料，通過無監督聚類自動在裡面找到更多相似資料，先以無監督學習方法将圖像向量化，轉化為特征向量，然後通過譜聚類将相似的圖像聚類在一起。

得到聚類結果以後，會找到大量與問題場景相同類别的相關資料作為正樣本相似易混的其他類别資料作為負樣本，并且在類别當中隻挑選類中心和類邊界附近的資料出來提升标注效率。

聚類算法不但具備處理大的資料集的能力，而且對噪聲不敏感，支援處理任意形狀，能發現任意形狀的簇，包括有間隙的嵌套的資料。

另外在資料輸入屬性方面，處理結果還與資料輸入順序無關，算法可以獨立于資料輸入順序進行計算，并有處理多屬性資料的能力，也就是對資料維數不敏感。

「通過這種方式，可以有效的與『異源資料』進行混用，提升最終模型的效果。」顧維灝做出總結。另外，這種全自動化的過程，還可以大幅節約人力，保證效率，有利于投入商用。

更适用于計算機視覺的 Swin-Transformer

毫末智行雲端平台采用的 Swin-Transformer，複雜場景的感受、觀察比傳統 CNN 更好，同時也更能兼具訓練速度與準召率的平衡。

Transformer 原本用于自然語言處理領域，優勢在于利用自注意力機制捕獲全局上下文資訊，進而對目标建立起遠距離的依賴，提取出更強有力的特征。

在資料量充足的情況下，Transformer 可以穩定提升準召率，而 CNN 卻由于難以獲得足夠大的感受野，面對大的資料集存在長尾問題。

現階段，Transformer 在分類（ViT），檢測（DETR）和分割（SETR），三大圖像方面的應用都取得了不錯的效果。同時，它也可以有效利用海量資料進行無監督的預訓練。

但是，Transformer 應用于計算機視覺領域要面臨兩大難題：固定的 token 尺度無法适應大範圍變化的目标尺寸；自注意力機制會帶來非常龐大的計算。

毫末智行所采用的 Swin-Transformer 是一種改良架構，通過小圖像片元和逐層進行鄰域合并的方式建構層級特征表達，将自注意力限制在一定範圍内，大幅度削減了計算量，同時也使得非局域視窗間的互動成為可能。此外，毫末智行還在資料并行做出了更多思考。

簡單來說，這是一種更适用于視覺領域的改良模型。

但在如今的大模型時代，巨量的模型參數給模型訓練帶來很大的難度，稍微改動一下網絡結構、參數配置、或者是更換資料，疊代一次得到結果的周期是要近百個小時。但這種調整經常發生，嚴重影響了創新速度。是以，不管是 CNN 還是 Swin-Transformer，優化提速都非常重要。

毫末智行為了提升訓練速度，除了常見的資料并行之外，還做了更精細的模型并行方法。

針對 Swin-Transformer，毫末智行采用了資料和模型同時并行的混合方案: 将模型橫向拆分，将不同層對應的 block 組，拆分到不同顯示卡的顯存中，騰出空間存放更大的 batch size 對應的向量組。

此外，毫末智行還優化了模型前向計算。當後向傳播過程中，中間結果的顯存被占⽤，包括 Optimizer States, Gradients Parameters 等，通常可以減少 20%-30% 的整體顯存占用量。

顧維灝表示：「基于 Swin-Transformer 的優化效果，整體可以提速 50%-80%。」

CSS+ ICU 3.0，保證模型準确度

在獲得更快疊代的模型後，如何保證模型判斷的準确度，也是很重要的一點。

「毫末智行開發了語義場景的自動化轉化工具和參數泛化工具，可以将 CSS 中場景庫的描述文本自動轉化為仿真測試場景，并且在合适的範圍内離散采樣得到巨量的仿真測試用例。同時通過在雲端并行，每天可以自動生成一萬多個仿真測試用例。」顧維灝對這項技術做出了詳細介紹。

可以簡單打個比方，如果要做一個無保護左轉的仿真驗證，系統可以自動調整道路寬度、遮擋等環境資訊，以及交通參與者類型、數量和位置，衍化出衆多不同的無保護左轉測試環境。

據毫末智行介紹，仿真驗證的重點是互動過程，這方面可以做到 100% 還原，但場景自動轉化還需要看 CSS 庫中是否有對應材質。

此外，硬體性能也是決定模型判斷結果準确度的因素之一。

毫末智行明年中期将與長城 SOP 800 萬像素的産品，可以看清 150-200 米左右椎桶，而且是清晰到紋理細節。目前，市面上主流的還是 100 萬像素攝像頭。

毫末智行在活動上還展出了自動駕駛計算平台 ICU 3.0，晶片部分是高通 8540+9000 組合，單卡算力達到 360TOPS，未來最多可以擴充到 4 卡，算力可達到 1440TOPS。

該平台已經開始上車測試，顧維灝表示：「Int8 的算力有效率超過 50%，單卡 144M 的高速緩存可以大幅加快 AI 計算速度，也可以同時支撐多個高分辨率的視訊流進行實時感覺推斷，端到端的時延已經低于 30ms。」

另外，毫末智行在高通晶片上也做了很多小模型，主幹網是經過優化後的 Resnet50。基于這個主幹，毫末智行做了一層多特征融合層，這樣後續的車道線和障礙物識别等任務就可以基于共同的特征要素進行，提高了識别效率，降低多次特征計算所産生的負擔。

在感覺輸出方面，毫末智行仍采用先判斷後融合的松耦合方式，但其要求單張圖檔也探測到深度資訊，有助于提升整體的感覺能力。據顧維灝透露：毫末智行部分車端攝像頭，也用到了 Transformer。

無論是松耦合還是緊耦合，提升單傳感器的感覺能力，都是正确方向。

安全是 1，其它是 0

顧維灝表示：「所有的一切都要以安全為基礎，安全是 1，其它是 0。」

這種安全是非常系統性的考慮，比如将協同場景安全、功能安全、預期功能安全放在最高層面。不僅通過研發體系優化，保證安全設計，還通過仿真驗證、調低接管标準、設計安全備援等次元，保證全流程的安全性。

同時，顧維灝還透露了他們選擇高通晶片也有安全方面的考慮：「打動我們的還有晶片結構，除了 AI 計算的部分，還有車規級的安全設計。」

搭載該晶片的自動駕駛計算平台 ICU3.0 已具備三層安全結構：

第一層是高算力 SOC 晶片上的主功能邏輯以及衛兵系統，會監控 SOC 上的軟體錯誤和 ODD 失效；
第二層是高可靠性晶片上的晶片級監控系統，負責監控 SOC 晶片硬體失效；
第三層是具有獨立傳感器的預備系統，可以在主系統失效的情況下緊急生效，保證系統的 Fail Operational。

顧維灏曾提出，自動駕駛産品為王、規模制勝。他表示，規模是所有自動駕駛制勝的必然基礎，算法再強也不能取代資料的不夠。3 年時間，毫末智行輔助駕駛系統已達到百萬裝車量，積累百萬真實資料。

打好基礎，毫末智行視角轉向了資料智能。快速奔跑背後的深思考與慢功夫，讓毫末智行正在完成從「感覺智能」到「認知智能」的轉變，實作自動駕駛的新布局。

雲+端自動選型訓練、Swin-Transformer、最高4卡ICU3.0平台，毫末智行的自動駕駛野心曝光！

雲 + 端架構選型，高效篩查有價值資料

無監督聚類，全自動訓練模型

更适用于計算機視覺的 Swin-Transformer

CSS+ ICU 3.0，保證模型準确度

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希