天天看點

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

作者:量子位

編輯部 整理自 MEET2024

量子位 | 公衆号 QbitAI

“未來一到兩年,智能汽車其實處在一個關鍵突破的時間點。”

在MEET 2024智能未來大會現場,商湯聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛這樣講道。

他還指明了具體會出現的三件事情:

一是端到端資料驅動的自動駕駛;

二是以大模型為核心、為基礎的座艙大腦的出現;

三是駕艙融合,所有座艙和駕駛的體驗在同一顆晶片、同一個域控上實作,大幅降低成本和算力。

而所有這些都是以大模型為基礎的。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

商湯科技從2018年開始布局大模型,而商湯絕影則是商湯旗下的智能汽車業務闆塊,堅持駕、艙、雲三位一體的發展政策。

在大會上,王曉剛以回顧過去十幾年AI的發展引入,探讨了通用人工智能和大模型給智能汽車帶來的技術突破和未來發展。

為了完整展現王曉剛關于大模型賦能智能汽車的思考,量子位在不改變原意的基礎上,對他的演講内容進行了編輯整理。

關于MEET智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,緻力于探讨前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平台報道直播了MEET2024大會,吸引了超過300萬行業使用者線上參會,全網總曝光量累積超過2000萬。

演講要點

  • 通用人工智能大模型的發展,軟硬體基礎設施的能力必不可少。
  • 能在強大的基礎設施上不斷高效探索,才能夠在短時間内積累大量的know-how,才能夠訓練好千億規模甚至更大規模的模型。
  • 大模型的出現讓打造智能座艙的大腦成為可能,通過一個大模型可以調動艙内的各種APP和硬體裝置。
  • 未來一到兩年,智能汽車處在一個關鍵突破點。

(以下為王曉剛演講分享全文)

軟硬體基礎設施必不可少

今天分享一下通用人工智能和大模型給我們智能汽車帶來的技術突破和未來發展的機遇。

回顧過去十幾年人工智能的發展,2012年人工智能的突破使機器人臉識别超過肉眼識别率,帶起了一系列人工智能在工業上的落地和應用。

但是它的問題是針對不同的任務,需要定制化的模型定制解決方案。

在過去的幾年裡,商湯科技輸出的商業化模型超過3萬個,一方面我們看到AI廣泛的被應用,另一方面也看到研發成本大、研發周期較長。

去年年底ChatGPT的出現,帶來了人工智能新的範式,基于一個或者幾個非常強大的大模型能夠解決衆多開放式的任務,給人工智能的規模化産業應用打開了一個新的道路。

過去幾十年人工智能的發展都是解決小樣本的問題,當時資料量非常小。我們用到的這些計算資源、模型的規模也都是比較小的。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

但是2012年随着深度學習的出現,我們看到算力得到了大幅的增長,包括後面出現了Transformer,還有大模型的出現,算力更是增長到了更大規模。

在智能汽車領域,我們的行業标杆是特斯拉。

今天特斯拉有14000塊GPU,到明年,它的算力要增加10萬塊。這樣一個增長規模背後,強大的算力支撐給我們未來行業發展指引了一些方向,也是今天國内很多主機廠難以匹敵的投入。

商湯從2018年開始布局大模型,在上海臨港投入了50多億,建造了一個人工智能資料中心。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

當時很多人都奇怪,作為一個做算法的公司,為什麼在基礎設施的建設上有這樣大的投入?

今天,我們看到通用人工智能大模型的發展,軟硬體基礎設施的能力是必不可少的。

我們目前有3萬塊高端GPU,包括6500P的算力,實際上到明年這個算力還會大規模地增加,預計增加到16500P的算力。

我們談到的大模型,包括感覺的模型,各種生成式的模型,文生圖多模态的模型,還有決策智能的各種模型,所有的這些,都是建立在強大的軟硬體基礎設施系統能力的之上。

我們做了一些統計,在過去的幾個月裡面,像百億規模參數級的模型,訓練都超過了100次,10億規模超過1000次。

正是經過在強大基礎設施的基礎上不斷進行高效探索,才能夠在短時間内積累大量的know-how,才能夠訓練好千億規模甚至更大規模的模型。

而且這些模型之間也有很大的關聯度,比如多模态的模型是在語言模型,還有視覺等模型的基礎上發展起來的。

我們的決策智能的模型也是利用了語言模型的強大的推理能力。

大模型賦能智能駕駛

在智能汽車裡面有很多應用例子,比如自動駕駛從高速到城區有很多複雜的場景。

基于大模型可以打破以前我們對于手寫規則的依賴,可以針對場景進行一些複雜地推理。

例如左邊給了這樣一張照片,問“去黃石東路應該怎麼走?”,模型會告訴我們今天的天氣狀況、前方行駛的車輛、路标、根據路牌的訓示應該走左側車道。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

在右邊這幅圖裡面,我們看到在一個複雜路口的場景中,問“白色的小轎車應該做出怎樣的決策?”。

我們的大模型也可以根據圖像對路口交通狀況進行分析,而且能夠看到這裡面有救護車出現,也知道應該做出怎樣的避讓。

絕影是商湯智能汽車的業務闆塊。我們在智能汽車的時代作為大模型和通用智能的核心供應商,主要是聚焦智能駕駛、智能座艙和AI雲服務。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

在智能駕駛方面,提供軟硬一體的智能駕駛的解決方案,也離不開大模型。

因為未來智能駕駛的發展趨勢更多是基于視覺,而且是通過一個大模型、神經網絡,端到端地實作自動駕駛的系統,之前我們也做出了UniAD的工作。

在智能座艙方面,現有的智能座艙是由各個AI的供應商去提供一些單點AI的功能,主機廠基于一些規則把這些功能組織起來,形成一些産品或者一些方案。

大模型的出現使我們有可能打造出智能座艙的大腦,通過一個大模型可以調動艙内的各種APP和硬體裝置。

這其中也依賴了強大的AI的雲服務。今天很多主機廠他們也希望能夠擁有AI基礎設施,包括形成資料的閉環。

從大量的量産汽車裡面采集海量的資料,快速高效低成本地針對這些資料進行分析、處理和标注,這裡面也展現出大模型的優勢。

我們會基于大模型建立一整套研發體系,從大模型的訓練、低成本的部署,包括模型層,還有資料生産的管線。在此之上,這些連接配接層裡面各種Function Call、資料模型的技術支撐駕駛和座艙,包括車路協同的應用。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

在智能座艙裡面打造座艙的大腦,座艙大腦的核心也是基于語言模型的能力控制艙裡面各種軟硬體。車内和車外有各種各樣的傳感器,通過多模态的模型就能夠全方位的感覺環境和乘客,包括駕駛員的需求。

我們有記憶子產品,對乘客和駕駛員有長短期的記憶,通過外挂知識庫跟大模型的結合,進行知識融合,就能夠形成千人千面的服務。

AIGC也能夠實作AI虛拟的助手,提供各種拟人化的服務,還有通過大模型進行各種智能控制。

下面給大家看到的是基于大模型在智能座艙裡面開發的一系列智能座艙的應用和産品,包括隔空繪畫、内容生成、AI說明書、健康問診、旅遊規劃等等,能夠把我們在座艙的智能化體驗提升到新的層次。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

未來是用大模型實作端到端自動駕駛

我們看到,智能駕駛未來發展的趨勢,第一是往純視覺的方向發展。

今天智能駕駛系統還是依賴各種傳感器,在硬體上更多依賴攝像頭,大幅降低硬體的成本。

智能駕駛系統實際上有很多子產品,有感覺、融合、預測、定位、決策、規控,現在隻有感覺這一部分用的是AI、神經網絡,其它的很多都是基于手寫規則。

當我們自動駕駛覆寫的場景從相對來說比較簡單的高速領航到更加複雜的城區的時候,場景的複雜度大幅增加,這時候依靠手寫的規則解決各種Corner case,更多需要依賴資料驅動。

背後通過一個模型将感覺、融合、定位、決策、規控,所有的子產品串聯起來,用資料驅動覆寫盡可能多的場景,這也是行業裡面能夠看到的未來自動駕駛發展的路線。

今年9月份,特斯拉宣布未來量産的自動駕駛的路線就是端到端的基于大模型的解決方案。

去年年底,我們提出了UniAD,用一個神經網絡實作預處理、感覺、預測、決策,各個子產品的連通,這項工作還獲得了今年CVPR最佳論文獎。

在這項工作中我們可以看到,通過網絡資料驅動,可以使裡面各個子產品的性能都得到大幅的提升,未來低成本視覺的方案、擺脫對高精度地圖的依賴成為了可能。

而且我們的多子產品大模型,更多的語言輸出也能夠給我們自動駕駛的各種決策提出更多的語言解釋,現在自動駕駛就不再是一個黑盒子,做出每一個決策能夠給我們推理和邏輯。

還能夠跟人對話,通過語音控制自動駕駛的各種行為。

我們也能建造世界模型,通過大模型生成各種逼真的自動駕駛仿真資料,實作自動駕駛的資料驅動和端到端的訓練。

商湯絕影王曉剛:未來一兩年是智能汽車突破關鍵期,大模型是基礎

最後我們可以看到,未來一到兩年裡,智能汽車其實是處在一個關鍵突破的時間點,實際上有三件事:

一是端到端資料驅動的自動駕駛;

二是以大模型為核心、為基礎的座艙大腦的出現;

三是駕艙融合,所有座艙和駕駛的體驗在同一顆晶片,同一個域控上實作,大幅降低成本和算力,在産品級實作更好的融合,實作更好的智能駕駛和座艙的智能化的體驗。

所有這些也都是以大模型為基礎的。

我們非常期待未來智能駕駛能成為安全可靠的司機,智能座艙能成為懂你的溫馨的好管家,實作更好的人機共駕。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀