天天看點

劉澍泉對話周光:順應人工智能2.0,端到端讓自動駕駛更有“人味”

作者:娛樂甜瓜妹妹

随着人工智能浪潮的發展,端到端模型在自動駕駛領域嶄露頭角,通過将感覺、規劃、決策等關鍵子產品整合到統一的神經網絡之中,讓自動駕駛更像人類司機一樣駕駛,進一步推動了高階智駕的量産程序,也随之催生了對資料、算力等底層基礎設施的新需求。

近期,元戎啟行CEO周光邀請騰訊智慧出行副總裁劉澍泉,在北京市區道路上體驗了雙方合作打造的業内首個“無圖”(僅使用導航地圖)高階智能駕駛量産方案,并圍繞自動駕駛量産、人工智能2.0時代等話題展開了一場精彩對話。

劉澍泉對話周光:順應人工智能2.0,端到端讓自動駕駛更有“人味”

周光認為,智能汽車是打開實體世界通用人工智能的鑰匙。智能汽車是人類首個達到千萬級資料體量的機器人,對實體世界形成了海量共識的了解,将沉澱形成一個實體世界的基礎模型,未來也會更容易遷移到其他機器人場景。周光表示,元戎啟行一直順應人工智能的發展,在端到端、大語言模型、生成式AI為核心的人工智能2.0時代,元戎啟行能夠早于行業多數人意識到并發掘這個事情,是一種來自于技術上的直覺。

面向自動駕駛領域,騰訊扮演的是一個比較純粹的數字助手角色。劉澍泉表示,騰訊面向行業提供自動駕駛雲、合規雲以及地圖相關的服務。希望和衆多的合作夥伴,把整套的雲加端的一個架構打通,進而通過高速的疊代、資料訓練不斷優化算法。

在今年1月份的CES期間,元戎啟行與騰訊宣布在地圖領域達成合作,推出了行業首個僅使用導航地圖資料的高階智駕量産方案,預計将于今年投入消費者市場。

以下是雙方對話節選:

智能汽車是打開實體世界通用人工智能的鑰匙

劉澍泉:今年越來越多有智能駕駛功能的車上市,而且價格在不斷的下探,疊代在加快,整體的這個技術路線、方案路線慢慢開始趨同了,我想聽聽你的看法。

周光:經曆了一年“無圖”的方案,我覺得已經形成了行業的共識了,我們的這個方案是業内首個僅使用導航地圖的自動駕駛方案,能夠提供非常優質的城市NOA自動駕駛體驗。

我們做了泛化測試,涉及了大概數十個城市,整體來說,我覺得騰訊地圖的資料的品質還是挺高的。但可能在一些個别的城市,我們還是會有一些更新的問題,一些像二線、三線城市,它們修路的速度比較快,它的道路拓撲結構改變了,這種可能還需要做一些更新。但我相信随着高階自動駕駛量産,有了實時的回報,地圖的更新也會更快。

劉澍泉:其實這就是騰訊所謂的雲圖一體嘛。通過這種雲加端的架構,當車輛發現實體世界的差異,實時地把這種差異傳回到雲端,我們再做更新地圖下發下來。

劉澍泉:要怎麼了解,智能汽車是打開實體世界通用人工智能的鑰匙呢?

周光:其實更早一點的自動駕駛系統,是經典機器人,都有感覺決策定位子產品。這些子產品都是特殊針對這個場景所設計的,缺乏了實際上的通用性。而端到端的智能駕駛系統是由神經網絡驅動的,包含感覺子產品、決策子產品,通過神經網絡、向量矩陣直聯,并沒有預先定義好的接口,是以它也是适用于機器人的。

我認為人類首個能達到千萬級的機器人就是智能車,其他的機器人是不可能有這麼多海量資料的,當你有了千萬級的海量資料之後,慢慢地你會對實體世界形成一些共識的了解,你會對這個實體世界有一個基礎模型,以後把這個模型遷移到其他機器人場景是更加容易的。

劉澍泉:元戎啟行是準備怎麼達成這樣的目标呢?

周光:這不是一步就能達到,其實我們也前前後後經曆了非常多的階段,第一個階段就是多傳感器前融合,而且做了點雲渲染。

但是在那個時間點上,其實還沒有想到居然會成為端到端的一個環節。比如說今天我們這個車有七個攝像頭,一個雷射雷達。在前融合階段之前,它需要有不同的七個算法,都去負責感覺,然後做後端的融合,再去開這個車。做前融合實際上是把所有的東西放在一個坐标系裡面,用統一的算法來做感覺識别。

前融合是第一步,第二步是去高精地圖。高精地圖其實是能幫助我們做進階的語義判斷,比如說像今天我們開車,不僅僅隻是要看周圍的100米,可能你需要知道這個路的曲率等比較難的任務,都是交給這個地圖了。随着人工智能的發展,我們意識到,下一步其實我們是可以通過神經網絡把靜态元素、道路拓撲全部都複現,就有了這個“無圖”的方案。

元戎啟行從2020年初期開始的,前前後後經曆過兩年的時間,在2022年首次達到了一個相對還可以的效果,在2023年我們就把所有的動靜态的感覺放在同一個神經網絡裡面做。但是在那個點上我們就意識到了我們一直都要做減法。于是我們又做了下一件事:用資料驅動的預測決策系統。整個系統形成了兩個子產品,感覺大模型以及規劃決策大模型。

在去年年初的時候我們意識到,這兩個模型其實通過這個神經網絡直聯,就是一個資訊無減損的端到端結構。是以去年8月份就跑通了端到端,到今年3月份的時候,在NVIDIA的GTC大會上,我們對外官宣。

圖、雲一體化,為智能駕駛量産提供底層“加速器”

周光:剛才聊了很多關于元戎的端到端的技術,我現在也想問一下騰訊作為一個雲商也是一個圖商,怎麼去面對這個賽道?騰訊的優勢在于哪裡?

劉澍泉:首先我們的戰略定位是非常清晰的。騰訊做的是一個比較純粹的數字助手角色,面向行業去提供自動駕駛雲、合規雲以及導航、地圖相關的一些服務。

我覺得有幾個比較有特色的服務:首先,剛才提到,我要有一個端到端的網絡,但是在這個過程中你必須要有一個更精準的導航服務,它需要更精準的車道級的連接配接性,像騰訊從去年開始做的,也是雙方把導航的能力和元戎端到端的大模型算法結合起來,去達到最好的調優狀态。

第二點,自動駕駛相關的業務它是一個強資料驅動類的業務,是以它一定會需要更高的算力,更高的存儲以及更廣泛的網絡覆寫,這一塊是騰訊雲的強項。我們把網絡、存儲、計算統一,能夠做到更高的成本效益,在這個方面也有一些優秀案例:例如和NVIDIA的合作、和博世的合作,當然也包括和元戎的合作。形成整體的一個資料閉環。我們特别希望和衆多的合作夥伴,把整套的雲加端的一個架構打通,進而通過高速的疊代、資料的訓練再去finetune我們的這樣一個算法。

順應人工智能2.0時代潮流,端到端讓自動駕駛更“有人味”

劉澍泉:實際上自動駕駛端到端的模型,它是把感覺規控一體化的輸入進來,最後得到一個更像人的一個決策結果,是以這個過程是一個偶然嗎?還是說從一個學術發展也好,或者說技術演進裡面有這樣一個預判?有這樣一個推導嗎?

周光:我覺得是有這種感覺:就是說從一開始做融合、做BEV,都是你感覺這樣是對的,但是你其實不知道終局的。因為當時那個點上還有這個高精度地圖之争、後融合前融合之争,但是直到你看懂了端到端的時候你會發現,其實你所有的鋪墊都是為了最後這一步——做一套端到端系統DeepRoute IO。

我們最大的優勢就是我們一直順應了人工智能的發展,尤其是人工智能2.0時代,2.0時代就是端到端、大語言模型、生成式,分别針對了語言的、數字生成式的以及這個機器人實體實踐,我們能夠早于行業多數人去意識到、去發掘到這個事情,然後去開始去投入布局。可以說這是一種來自于技術上的直覺。

劉澍泉:您提到了一個很重要的點,就是今天感覺的模型規控模型之間的這個直通,在這一塊的話你有什麼可分享的技巧嗎?

周光:我們做一個生物學的解剖:我們人腦肯定是一個神經網絡,但是它也會分為感覺、視覺和語言中樞各種子產品。今天的端到端它也是由不同功能的子產品構成的,隻不過都是通過直聯,這個直聯其實牽涉到你的訓練方法、你的訓練步驟、你的資料,這個其實是今天的核心競争力,真的不是那些網絡。

劉澍泉:今天我們有了一個端到端的大模型,但是模型參數太多了,模型太大了,我們今天算力是受限的。怎麼能夠把它去合理的“減脂”,把它部署到車上呢?

周光:今天的端到端大模型它也并不是一個完全Transformer-based,是以說它對算力的需求相對來說沒有那麼大,另外來講,一個端到端系統它并不意味着它一定就是大,像我們這次的産品叫DeepRoute IO,IO就是input、output(輸入、輸出),它隻是講你是input,然後我有output,中間沒有人類程式設計而已。端到端跟大模型是兩碼事,會根據你資料的情況、你的網絡的容量情況以及你要達到的場景情況,去選合理選擇你的模型大小。當然你基本的這些模型優化裁剪,這就是一些基本功了。

劉澍泉:自動駕駛過程中經常遇到一些特殊場景,要面對車流、行人、自行車等等大量不确定的因素,像這種情況元戎有什麼自己的獨門絕技嗎?

周光:之前的這種預測都是基于速度推斷的,就是做一個勻速的假設或者做一些速度的二階導,這是比較初級的做法,基于資料驅動的、基于端到端的這個預測,會是更加豐富的一個預測場景。比如說在一個安全島上的一個人,可能你的預測是他不太會亂跳下來,但是在路口的一個人他可能就竄出來機率比較高,它會考慮整個場景的前後表現,這樣車子開起來就很“有人味”。

劉澍泉:剛才,周光博士提到了打造實體世界通用人工智能大門這樣的一個願景,騰訊也有一個願景:做好數字化助手、做好底層的雲服務、做好底層的地圖服務、做好大模型的基礎設施,我們共同打造整體的一個合作夥伴體系,共同去打開實體世界的大門,我認為是我們的共同的一個偉大的目标。

周光:我覺得我們在整個的這個産業鍊、生态鍊、還要繼續攜手,然後一起共赢,向着目标前進。

繼續閱讀