天天看點

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

機器之心專欄

作者:鑒智機器人

2021年10月25日,特斯拉市值站上萬億美金,成為美股第五家市值破萬億的企業,幾乎超過美股全部主要車企市值的總和。特斯拉在資本市場的成功,刺激着投資者的神經,也促使市場再一次将視野聚焦在自動駕駛領域,進一步思考自動駕駛技術路線的發展方向。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

本文希望從技術角度客觀分析和回答以下問題:自動駕駛等級提升需要解決什麼關鍵問題?怎樣的自動駕駛方案更加具有實作大規模無人駕駛的可能性?自動駕駛作為現實世界的AI問題,難點在哪裡?以上問題促使我們理性客觀地思考該如何去實作自動駕駛——這一承載了太多期望、不斷挑撥大衆神經的技術生産力變革,進而推動行業冷靜且務實地向前發展。

1.自動駕駛的眼睛:

基于高品質圖像成像的視覺雷達

随着自動駕駛等級的不斷提高,控制權和責任主體逐漸從駕駛員轉換為車輛,智駕系統的定位也将由擴增人的感覺能力到接管車輛自主駕駛。由此對智駕系統之于實體世界環境了解的要求完全不同,将由對實體世界部分資訊的提取提升到事無巨細的全面感覺與了解。而這種變化,首要就是對2D圖像成像與3D模組化的越來越高的要求:1)更高分辨率和環境适應度的2D圖像成像;2)對實體世界準确且稠密的實時3D模組化。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

Camera是自動駕駛感覺實體世界最重要的傳感器,其分辨率的提升将極大的提升圖像的資訊承載量,使得自動駕駛系統能夠感覺更加細節和更遠距離的行車環境。目前主流自動駕駛前視攝像頭的分辨率已經到800萬像素以上,而更高的分辨率也是未來必然發生的事情。自動駕駛汽車面臨的是一個開放性的外部環境,除了分辨率的提升,還需要提升自動駕駛在各種行車路況下的圖像成像品質,比如不同的光線環境,傍晚、夜晚等,不同的氣候環境,雨雪霧天等。相對于傳統汽車應用的車載成像,自動駕駛對于車載成像品質的要求将極大提升,如何通過成像計算擷取更高品質的圖像就成為一個要解決的關鍵性問題。

自動駕駛汽車在三維實體世界中運作,必然要求對實體世界進行更加深刻的三維了解。目前的進階别輔助駕駛在道路上不斷出現各種各樣的事故,這些事故的發生很大程度上是由于沒有識别到未被樣本庫所覆寫的異形、非标等物體,比如一輛拉着一棵樹的貨車等,而這些corner case是無法被窮盡的。對于行車環境的實時稠密3D模組化不僅可以識别異形和非标等物體,還能判斷路面坑窪與起伏,這無疑将大大提升自動駕駛的安全級别。目前自動駕駛的3D環境感覺,主要依賴雷射雷達等主動投射測量裝置,但其在分辨率上遠低于Camera,也不具備顔色資訊。随着深度學習的發展,單目深度估計、雙目立體視覺、SFM、MVS等問題已經可以被深度神經網絡所模組化,進而可以基于多目視覺通過AI的方法實時生成3D點雲,其視覺點雲天然與圖像對齊,并且其分辨率也能達到圖像分辨率的級别。是以,如何通過多目視覺實作高分辨率的實時稠密3D模組化,即視覺雷達,是另外一個要解決的關鍵性問題。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

視覺傳感器的資訊承載量極高,目前遠未被充分挖掘,但無論2D圖像成像還是實時稠密3D模組化都需要強有力的算法和算力進行支撐,這需要算法和算力進行協同設計。視覺傳感器+算力+算法的傳感器計算模式,将更加本質的推動解決自動駕駛目前面臨的關鍵問題,即從2D和3D層面對實體世界進行事無巨細的感覺與了解。

鑒智機器人核心團隊擁有超過十年的圖像處理、AI算法和算力設計的行業經驗,将以視覺傳感器為核心,通過解決車載ISP、視覺雷達等視覺傳感器2D、3D成像的核心問題,打造更加強大的自動駕駛之眼,進而推動自動駕駛安全等級的提升。

1.1 從手機ISP到車載ISP

ISP(Image Signal Processor)是指通過一系列數字圖像處理算法完成對數字圖像的成像處理。在錄影機成像的整個環節中,ISP負責接收感光元件的原始信号資料,可以了解為整個錄影機圖像輸出的第一步處理流程。ISP在提高圖像品質、增強資料的一緻性等方面有着極其關鍵的作用。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

得益于智能手機的發展和手機攝像頭像素越來越高,手機ISP在過去幾年得到了快速的發展和進步,手機拍照和錄像的品質也越來越高,甚至到了驚豔的地步。比如在夜晚等場景,可以拍到比人眼看到的更清晰、光照更充足、色彩更豐富的照片;比如在進出隧道等光照變化劇烈的場景,也可以錄制出比人眼表現更穩定、更清晰的視訊。這些效果除了源于手機攝像頭硬體上的更新,專門的AI ISP處理算法和處理晶片也起到了至關重要的作用。

随着自動駕駛對車載成像品質的階躍式提升需求,車載ISP,特别是針對駕駛場景優化的AI ISP處理算法和處理晶片,将迎來爆發式的發展。AI在車載ISP整個流程中将變得越來越重要,特别是在降噪、去模糊、HDR等問題上,可以在夜晚、陽光直射、進出隧道等暗光、強光、高動态場景得到遠超人眼的成像效果,同時最大程度上解決由Sensor引起的噪點、模糊等問題。将AI計算前置在ISP計算Pipeline中,通過流式計算,使得ISP的計算Pipeline不被打斷,也将大大提升AI ISP的性能功耗比。

鑒智機器人擁有全鍊路的晶片級ISP IP的設計能力,将解決ISP特别是AI ISP在車載場景的核心問題,讓車載攝像頭成像更清晰,進而進一步提高視覺雷達點雲生成和圖像語義感覺等後續任務的準确性。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

(鑒智機器人擁有全鍊路的ISP算法和算法硬核化設計能力)

1.2 從2D感覺到視覺雷達

面對大規模自動駕駛,對3D點雲的資訊稠密程度、場景泛化性、性能可擴充性方面提出了更高的要求。基于視覺雷達,通過雙目或者多目立體視覺計算,産生實時稠密的3D點雲是更優的方式。

雙目立體視覺是機器視覺的一種重要形式,與人眼類似,它是基于視差原理,通過計算圖像對應點間的位置偏差,來擷取物體三維幾何資訊的方法,和基于TOF、結構光原理的深度相機不同,它不對外主動投射光源,完全依靠拍攝的兩張圖檔(彩色RGB或者灰階圖)來計算深度。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

傳統的雙目立體比對算法針對弱紋理、反光等區域效果比較差,同時對于物體語義資訊利用比較少,算法适用範圍具有局限性,點雲效果上限比較明顯。随着深度學習技術的發展,基于CNN、Cost Volume、Transformer的立體比對算法展現出來了極強的算法效果和潛力。目前知名自動駕駛資料集KITTI上的立體比對任務排名靠前的基本都是基于深度學習的算法。基于深度學習的雙目立體比對算法對于計算晶片的AI算力提出了比較高的要求,對于研發模式也提出了新的要求,需要從傳統的雙目相機研發模式變成以AI為核心、軟硬結合、資料驅動的研發模式。

從雙目立體視覺更進一步,充分利用相機的運動資訊和多個相機間的幾何限制,通過相機姿态估計、深度估計、光流估計、MVS等算法,以及任務之間互相監督的一系列自監督算法,可以得到360度的點雲資料,也就是視覺雷達,進而形成與圖像分辨率相比對的稠密點雲。同時,以攝像頭+算力+算法為核心的視覺雷達,還具有産業鍊成熟可控、成本可控、器件穩定性有保證、滿足車規等優勢,更容易實作大規模前裝量産上車使用。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

(鑒智機器人視覺雷達Roadmap)

2.自動駕駛的大腦:

全流程資料驅動的強單車智能

自動駕駛的大腦負責從感覺到決策的駕駛全流程,也是自動駕駛最複雜、最核心和難度最高的部分。傳統的以規則為核心的軟體1.0工程化系統,在可維護性、擴充性和進化性上都具有一定的局限性。以AI和軟體2.0為核心,全流程資料驅動的感覺、預測、規控算法和強單車智能的解決方案,無疑是實作大規模無人駕駛更可行的方案。

鑒智機器人核心團隊在AI算法和應用、軟體2.0的基礎設施、資料驅動的大規模實踐上擁有豐富的經驗,将通過全流程資料驅動的自動駕駛大腦,建立強單車智能,進而降低對外部基礎設施的依賴,更加利于自動駕駛的複制與推廣。

2.1 深度學習帶來的2D感覺技術突破

感覺是自動駕駛擷取資訊的第一步, 所謂感覺是指通過攝像頭或其他傳感器識别所看到的物體并了解該物體是什麼,這對自動駕駛是至關重要的環節。自動駕駛車輛首先是要識别車道線,然後還要識别紅綠燈、标志牌,除此之外就是識别障礙物比如前後左右有沒有車輛,有沒有行人,才能夠進一步規劃行駛路線。

過去十年是人工智能技術的黃金十年,深度學習改變了計算機視覺整個領域,也帶來了2D感覺各個方向技術的突破。2D感覺主要有圖像分類、圖像(物體)識别、細粒度識别(人臉識别)等方向,所采用的技術也從最早的模闆比對、線性分類到現在所廣泛使用的深層卷積神經網絡,再到最近重新整理各大視覺任務榜單的Transformer。随着硬體計算能力的不斷提升、算法範式的不斷改進、可利用資料資源的不斷增長,基于攝像頭的2D感覺已經成為了乘用車智能駕駛的主流方案,同時也成為了很多解決方案的核心差異點。

鑒智機器人核心團隊在國内最早基于深度學習在2D視覺感覺各個方向開展系統性研究和大規模落地應用,在衆多全球最具影響力的2D感覺AI比賽和評測中獲得冠軍,發表頂級會議和期刊論文幾十餘篇,在多個業務領域實作了人工智能2D感覺技術的大規模應用落地。

(鑒智機器人在2D感覺方向具有世界一流的核心能力)

2.2 從2D感覺到4D感覺

如果說2D感覺還是在平面上檢測、識别、分割物體,那麼加入深度資訊後,基礎的2D感覺即轉化為3D感覺。如果進一步在3D的基礎上加入時間這一次元,進化得到的則是4D感覺。在自動駕駛領域,4D感覺可以完整且連續的探測車輛周圍的物體。

基于深度學習和三維視覺技術不斷發展,随着Cost Volume、Optical Flow、differentiable Homography、Transformer等技術的成熟,以及多傳感器融合、衆包重建、稠密重建、自動标注等方向不斷發展,可以高效率的提供高品質、大規模的4D場景資料,端到端的4D感覺正在成為技術趨勢。相比于傳統的2D感覺+後融合的方案,端到端的4D感覺擁有很多優勢,可以解決測距抖動較大、多攝像頭拼接不準确、時序結果不穩定、疊代效率較低等一系列問題。

更進一步,基于端到端的4D感覺,可以進行更好的4D預測,一方面可對于交通參與者進行更優的運動軌迹預測,進而實作性能更加優異的規劃控制;另一方面可對于道路行駛區域預測更加精細的3D結構化資訊,線上生成局部實時3D地圖,降低對高精地圖等基礎設施的依賴。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

(鑒智機器人針對複雜路口駕駛場景的4D感覺結果)

自動駕駛被認為是目前最重要的硬科技創新之一。在汽車行業百年未有之大變革的曆史性時刻,中國由于在電動汽車領域的提前布局、全面開花,以及完整産業鍊的巨大優勢,國内企業在自動駕駛方向擁有非常好的機會和産業優勢,有機會通過電動化和智能化實作百年汽車工業這一最重要的支柱産業的超車和領先。但自動駕駛的發展速度仍然低于大衆和市場的預期,這裡存在若幹影響自動駕駛等級提升的關鍵性問題亟待解決,鑒智機器人基于自身在AI算法、AI算力層面的積累,緻力于解決自動駕駛成像計算和下一代自動駕駛方案的關鍵性問題,進而推動自動駕駛的創新發展。

作者簡介

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

都大龍:鑒智機器人聯合創始人,碩士畢業于中科院計算所,現清華大學創新領軍博士在讀。曾任某AI科技公司研發副總裁,地平線算法總監,百度IDL架構師。曾深度參與國内首款AI晶片的産品研發,并實作AI2B産品的大規模落地。因其在卷積神經網絡、序列學習、神經網絡訓練架構方面的突出貢獻,曾連續兩次獲得百度工程師最高榮譽-“百度百萬美金最高獎”。發表數十篇AI領域國際頂級會議,并帶領團隊在MSCOCO、FRVT等多項AI比賽中獲得世界一流成績。

投稿|視覺攝像頭vs雷射雷達,高階自動駕駛的路線将傾向哪邊?

黃冠:鑒智機器人算法負責人,擁有十年的深度學習/機器學習/計算機視覺經驗,在國内最早開始深度學習在目标檢測、分割、關鍵點等方向的系統性研究和應用。多次獲得FRVT、COCO等全球最具影響力AI比賽冠軍,釋出全球最大的公開人臉資料集WebFace260M,在人工智能頂級會議和期刊上發表論文十餘篇,支撐了多個領域人工智能技術的大規模落地應用,擁有豐富的學術研究和産業落地經驗。目前緻力于研發全流程資料驅動的算法,用于下一代自動駕駛解決方案。

關于Auto Byte

Auto Byte 為機器之心推出的汽車技術垂直媒體,關注自動駕駛、新能源、晶片、軟體、汽車制造和智能交通等方向的前沿研究與技術應用,透過技術以洞察産品、公司和行業,幫助汽車領域專業從業者和相關使用者了解技術發展與産業趨勢。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀