深耕10年之久，上半年要開300城！百度智駕靠的是AI？

“百度智駕的優勢還是在AI，包括算法、資料和人才，以及大模型時代我們對AI原生思維，對大模型算法的了解，還有我們儲備的AI算力。”

3月17日，正在北京參加中國電動汽車百人會論壇（2024）的百度智能駕駛事業群組（IDG）首席研發架構師 IDG技術委員會主席王亮接受了太平洋汽車等多家媒體的采訪。當被問及相比于華為、大疆等頭部智駕玩家的優勢時，他如此說道。

一天前，百度集團副總裁、智能駕駛事業群組總裁王雲鵬也在百人會高層論壇上表示，華為智駕确實遙遙領先，隻比百度差一點點了，做成這樣相當不容易。

外界不禁好奇，百度的智駕實力究竟怎樣？AI又将如何賦能百度智駕？智駕的未來是端到端嗎？

上半年要開300城

不少人調侃說，百度自動駕駛“起個大早，趕個晚集”。但在王雲鵬看來，前半句話沒有錯，百度投入自動駕駛起步最早，2014年就開始做了。但是後半句不對，因為自動駕駛剛剛見到曙光，真正的大集還沒有開始。電動化趨勢已定，智能化才剛剛開場。

王亮也深有同感。他說今天的智能駕駛的發展、普及還處在早期，消費者對于智駕的了解還比較淺，智駕功能距離成為消費者購車的頭部考慮因素還欠些火候。他認為智駕的終局要以使用者是不是能形成依賴、是不是能長期使用為标準。第一要支援城市點到點的駕駛；第二要全國都能跑，不能是幾個樣闆間；第三，使用起來廣度擴起來之後，體驗安心感要比較一緻，讓使用者有信賴感；第四要具備一個自身的資料飛輪和自演化能力。

“今天同時滿足四個必要條件的智駕産品，嚴格意義上市場上還沒有，各家都在努力的卷功能、卷體驗。”王亮介紹說，去年百度智駕産品實作了技術能力和産品體驗的雙重突破，基于BEV+Transformer的技術，在極越01上量産了國内唯一的純視覺城市領航輔助駕駛産品。今年一季度最新版本已經率先落地了純視覺占據網絡技術，安全性和使用者體驗比市面上絕大多數搭載了雷射雷達的産品還要好。

之是以敢這麼說，王亮表示這得益于AI的賦能。百度智駕系統的AI占比非常高、模型可以高頻的疊代，過去一年中系統的核心關鍵模型累計疊代多達300多次，在客戶SOP後的四個多月中，百度OTA給使用者的智駕新增功能和體驗優化項多達90多個。

另據官方資訊顯示，截至今年第一季度，百度城市智駕已經開了4個城市。像上海、北京、深圳、杭州的使用者已經可以全量去使用。另外值得期待的是，到今年6月底，百度會做一個輕圖的開城，直接把開城數量提升至300個。凡是百度地圖導航能到的地方，百度的城市智駕都可以覆寫。

視覺決定智駕終局之戰

2023年是城市智駕元年，百度、華為和小鵬站在了第一梯隊。但與華為和小鵬不同，百度智駕走的是純視覺路線。王亮認為，強大的視覺技術是智駕産品能夠實作體驗跨溝的充分必要條件，視覺能力的高低決定了産品能否走到競争的終局。

“今天的智駕産品研發過程和傳遞絕對不是一錘子買賣，上市僅是起點。”王亮強調，如何在後續使用者的使用過程中通過回報驅動産品力持續提升是技術路線選擇的關鍵考慮因素，其中比初速度重要的因素是加速度這個跟時間相關的變量。

“初速度決定了産品原型的研發速度，這點上雷射雷達确實占優，厘米級精度的三維測距能力能讓感覺算法實作的難度大幅降低，工程師很快就能上手完成自動駕駛的閉環。”王亮坦言，相比來說，視覺的初速度就慢得多，從二維象素恢複三維資訊是計算機視覺領域十幾年、幾十年幾代科研人員在力圖解決的難題。但一旦技術進入軌道，圖像裡天然蘊含的資訊量優勢會在其在疊代加速度上比所有主動光傳感器都靈活、都迅猛。同時，配合大模型、AI算法，視覺能達到的能力天花闆也更高。

“在大模型時代指導AI研發的一條規律就是OpenAI在2020年提出的Scaling Laws概念，中文可以分成規模法則。随着資料大小、模型大小和用于訓練的計算點數的增加，模型的性能就會提高，為了獲得最佳性能，所有三個因素必須同時放大。”王亮稱，目前搭載百度智駕方案的極越上使用的普通800萬象素攝像頭。攝像頭的采樣密度是今天主流雷射雷達的160倍，等接下來最好的雷射雷達上市之後，攝像頭的密度仍然是它的20倍。

“依靠雷射雷達肯定是走不到智駕終局的。”王亮強調，一圖勝千言。雷射雷達蘊含的資訊量，相比圖像（視覺）來說少得非常多，少好幾個量級。它的優勢在于可以很快上車。

基于上述原因，王亮認可雷射雷達是拐杖的說法。“做視覺研發，工程師也有惰性，如果同時有雷射雷達也有視覺，遇到困難、又在時間很緊迫、老闆要求你解決問題的情況下，大部分人還是從雷射雷達上想辦法。好比一個很大的樹下，下面小草能長大，大樹把陽光遮蔽了，生長很緩慢”。

百度智駕優勢在AI

過去的一年，以文心一言、ChatGPT為代表的大語言模型所呈現的智慧湧現能力，讓人們看到了實作通用人工智能的曙光和路徑，也加速了大模型上車。

王亮表示，相比于華為和大疆，百度最大的優勢就在于AI。“傳統的模型疊代範式，每個模型由主幹網絡backbone和任務頭head構成，backbone主要負責提取圖像的特征。backbone在模型層面決定了模型的泛化能力和它的識别能力。”

但過去幾年，算法從規則過渡到機器學習、資料驅動、車端模型的數量快速增長，在有限算力的資源下任務和模型增加帶來很多顯性問題。王亮距離說，一是backbone這個核心主幹網絡的參數量漲不起來、算力競争讓各個單一模型的參數量都受到限制。二是計算存在備援，多任務之間的主幹往網絡他們在特征提取的步驟中有大量的計算是備援的，每個都在做，對算力是一種侵蝕。最後，多學習任務之間是隔離的，難以學習圖像的通用表征，各任務需要長期補充大規模人工标注的資料，來彌補模型泛化能力的不足。

基于此，百度決心改變雲端和車端的感覺架構。用一個多任務共享的統一基礎感覺模型代替原來模型的主幹網絡，在預訓練階段使用多元的圖像資料，訓練基礎大主幹網絡，來學習圖像的通用表征。而且這裡的資料不再局限于自動駕駛場景下的資料，也包括物聯網的資料，包括疊加公開資料集的圖像資料。王亮透露，這個模型的參數規模可以做到原來backbone的數十倍甚至百倍。

王亮告訴太平洋汽車，支撐百度自動駕駛大模型發展的背後是百度在自動駕駛領域持續高強度的研發投入。規模法則裡面很重要的一條是算力，多大算力決定你的模型能走多遠。在目前的訓練算力方面，百度在智駕這個項目上投入的總算力資源達到了2.2eflops的量級，現在對算力的使用是上不封頂的。

當被問及百度在端到端技術方面的看法和規劃時，王亮表示，特斯拉也不是一蹴而就的。他之前在BEV Transformer把視覺感覺能力疊代得非常好，路上測試兩年以後，開始把決策規劃用機器學習的方式去解決。

“如果你前面一步沒有做到，沒有那麼紮實，直接蹦到端到端，我個人不是很看好。”王亮判斷，今年大機率能看到很多車企關于端到端的一些示範，但是量産應該是在2025年。

在采訪的最後，王亮表示，十分希望特斯拉FSD能早日進入中國，但他相信它在中國的體驗不會比極越、華為、小鵬更好。即便有那麼多卡也需要很多時間去适配中國的道路結構、駕駛習慣。

深耕10年之久，上半年要開300城！百度智駕靠的是AI？