天天看點

幹掉ISP,特斯拉“純視覺路線”的關鍵一躍

對特斯拉死磕的“純視覺路線”,筆者一直是持質疑态度的。質疑的點在于:算法的進步,能彌補攝像頭實體性能的局限性嗎?比如,視覺算法足夠牛逼時,攝像頭就有測距能力了?晚上就能看見了?

前一個疑問,在2021年7月份被打消——當時,特斯拉被曝已開發出“純視覺測距”技術。而後一個疑問,則持續存在。

筆者甚至一度認為,如果把攝像頭類比為人眼、把視覺算法類比為人的大腦中“跟眼睛配合的那一部分功能”,那麼,“視覺算法足夠牛逼時,就可以不需要雷射雷達”這種觀點就相當于說“隻要我的腦子足夠聰明,眼睛高度近視也沒關系”。

但前段時間,馬斯克提到的HW 4.0将“幹掉ISP”的計劃,卻颠覆了筆者的認知。在接受Lex采訪時,馬斯克說,接下來特斯拉全車攝像頭的原始資料不會再經過 ISP 的處理,而直接輸入FSD Beta 的 NN 推理,這将讓攝像頭變得超緊急強大。

帶着這一話題,筆者跟地平線BPU算法負責人羅恒、于萬智駕CTO劉煜、均聯智行首席架構師汪浩偉、摯途科技首席科學家黃浴、車右智能聯合創始人等諸多業内專家都做了一系列交流,然後明白,自己先前的那些質疑,純屬“自作聰明”。

視覺算法的進步,确實在一步步拓展着攝像頭實體實體性能的邊界。

一.何為ISP?

ISP的全稱Image Signal Processor,即圖像信号處理器,是車載攝像頭的重要構成元件,主要作用是對前端圖像傳感器CMOS輸出的信号進行運算處理,把原始資料“翻譯”成人眼可以看懂的圖像。

通俗地說,隻有依賴于ISP,駕駛員才能借助攝像頭“看”到現場細節。

基于第一性原理,自動駕駛公司也用ISP,主要是根據周圍環境的實際情況對攝像頭資料進行白平衡、動态範圍調整、濾波等操作,以獲得最佳品質的圖像。例如,調節曝光以适應明暗變化,調節焦距以專注在不同距離的物體等等,盡量地讓相機性能接近人眼。

幹掉ISP,特斯拉“純視覺路線”的關鍵一躍

(圖為特斯拉的FSD晶片)

不過,讓相機“盡量接近人眼”顯然還無法滿足自動駕駛的需求——算法需要攝像頭在強光及弱光等人眼也“失靈”的場合下也能正常工作。為了實作這一目标,有的自動駕駛公司不得不專門定制能增強攝像頭在強光、弱光及幹擾情況下性能的ISP。

2020年4月8日,阿裡達摩院宣布依托其獨有的3D降噪和圖像增強算法自主研發出用于車載攝像頭的ISP,保障自動駕駛車輛在夜間擁有更好的“視力”,“看”得更清晰。

據達摩院自動駕駛實驗室的路測結果顯示,使用該ISP,車載攝像頭在夜間這個最富有挑戰的場景下,圖像物體檢測識别能力相比業内主流處理器有10%以上的提升,原本模糊不清的标注物也得以清晰識别。

二.幹掉ISP的動機及“可行性”

然而,ISP的設計初衷是為了在多變的外部環境下獲得一張“好看”的圖檔,但這究竟是不是自動駕駛最需要的圖檔形式,業界尚無定論。按馬斯克Elon 的說法,神經網絡不需要漂亮的圖檔,它需要的是傳感器直接擷取的原始資料、是原始光子計數(Raw photon counts)。

在馬斯克看來,無論ISP采用何種處理方法,總有一部分原始光子在通過鏡頭到達CMOS、轉換成可見光子的過程中會被丢失。

關于原始光子丢失與未丢失的差别,摯途首席科學家黃浴說:“光子轉化成電子信号時候,确實有噪聲被抑制了,更不用說ISP對原來的電信号做了很多處理。”

車右智能聯合創始人在《From photon to control——從光子到控制,Tesla的技術口味越來越重》一文中拿人眼對感覺資訊的處理做類比,做了比較詳盡的解釋,在此摘要如下:

(圖檔摘自公衆号“車右智能”)

如上圖所示,人類的視覺系統和電子成像系統在邏輯上是完全一緻的。視網膜顔色和像素矩陣其實是更可以代表外部客觀世界的資訊,而真正的人類感覺顔色,是需要大腦(等同于ISP和更高層的後端處理)的參與的。

幹掉ISP,特斯拉“純視覺路線”的關鍵一躍

上圖左側是一幅标準的帶有飽和度漸變和強度漸變的顔色圖,右側是其對應的帶元顔色的原始圖幅。對比可見,以人類視覺感官為核心而設計的成像系統會給我們提供愉悅和符合人類主觀的圖像資訊,卻未必全真反映客觀的真實世界。

馬斯克認為,為了做得“更好看”、更适合“給人看”,很多原本很有用的資料卻在ISP負責的“後期處理”環節被處理掉了。但如果隻是為了給機器看,這些被處理掉了的資料其實也是有用的,是以,如果“後期處理”這一步可以被省略,則有效資訊量便會增加。

按于萬CTO劉煜的解釋,馬斯克的邏輯是:

1.由于有了更豐富的原始資料,未來,相機的探測範圍可能比人眼大,即光照強度很低或者很高的時候,我們人眼可能就看不見了(因為太黑或者太亮),但機器仍然可以測光子數量,因而仍然能有圖像輸出;

2.相機對光照強度的分辨率可能更高,即看上去很類似的兩個光點,人眼可能分辨不出那麼細小的亮度或者顔色差别,但是機器或許可以。

某AI四小龍工程師的解釋是:好的攝像頭的動态範圍比人眼大很多(在相對靜止狀态下),即攝像頭能觀測到的“從最亮到最暗”的範圍,比人眼所能觀測的更寬。在極暗的條件下,人眼看不到什麼東西(幾乎沒有光子),但是攝像頭的CMOS可以接收到很多光子,因而能看到黑暗狀态下的事物。

多位專家在接受《九章智駕》采訪時均表述認可馬斯克的邏輯。

地平線BPU算法負責人羅恒解釋道:“特斯拉現在的資料标注有人工标注和機器自動标注兩種,其中,人工标注其實并不全是基于目前的圖像資訊,也包含了人類對世界的知識,這種情況下,機器同樣有機率利用資訊更豐富的原始資料;而機器自動标注是結合事後觀測、結合大量幾何分析一緻性得出的,如果使用原始資料,機器有很大機率找到更多的相關性,做出更準确的預測。”

除此之外,均聯智行首席架構師汪浩偉解釋道:“特斯拉在原始圖像資料進入DNN網絡前就對其做了拼合,是以,就不需要對每個攝像頭的感覺結果做後處理。”

通過幹掉ISP來提升攝像頭在夜間的識别能力,這看起來跟阿裡達摩院自研ISP的思路是相反的啊。那麼,這兩者沖突嗎?

據曾某自動駕駛公司視覺算法專家解釋:兩家的訴求其實是相同的。在本質上,無論阿裡達摩院還是特斯拉,都是希望通過晶片和算法的配合來提升攝像頭的能力。

但兩者的差別在于,阿裡達摩院的思路是,為了人眼能看到,對原始資料進行了各類算法處理和增強;而特斯拉則是去除了算法中為了“照顧”人眼所做的那部分資料處理,轉而開發了用于增加攝像頭在弱光下及強光等環境下的算法所需的資料及相應能力。

除此之外,馬斯克還說,不經ISP 處理可以實作 13 毫秒的延遲下降,因為有 8 個攝像頭,每個攝像頭 ISP 處理會産生 1.5 - 1.6 毫秒的延遲。

一旦馬斯克這一設想經過實踐驗證是可行的,其他晶片廠商應該也會“跟進”。甚至,有的晶片廠商已經在這麼做了。

如安霸中國區總經理馮羽濤1月份在接受焉知采訪時就提到:“如果客戶想把原始資料直接喂進神經網絡進行處理,CV3 完全可以支援這種方法”。

三.攝像頭的“實體性能”也需要提升

并非所有人都完全相信馬斯克這一計劃。

某頭部Robotaxi公司技術VP說:“特斯拉說的也沒錯,但我覺得算法的開發難度會非常大、周期會很長,然後開發的時間可能會非常久。如果加個雷射雷達,首先可以直接把三維的問題解決了,拿純視覺去建構三維當然也可以,但要消耗很多算力。”

車右智能聯合創始人認為,馬斯克是個“煽動大師”,“他的宣傳方式是把你搞暈,讓你不由自主地産生技術崇拜”。

他說:“有的圖像學專家認為放棄所有ISP級别的後處理是不現實的,比如擷取強度和顔色的debayer圖像,會給後續的NN識别head造成很多困難。”

在《車右智能》最近的一篇文章中提到,原始資料染過ISP直接進入神經網絡的方案在哪種場景下可行?是可以相容特斯拉現有的攝像頭還是需要更好的視覺傳感器?是否存在于FSD beta全部的NN head任務還是局部NN head任務?這都是不确定的答案。

我們再回頭筆者開頭提出的那個問題:視覺算法的提升,能突破攝像頭的實體性能本身的瓶頸嗎?

某視覺算法背景的Robotaxi公司CEO說:“逆光或者是車輛從隧道裡出來突然面對強光時的感覺,人眼很難解決,攝像頭也不行,這個時候,就必須要有雷射雷達了。”

劉煜認為,理論上,如果你不計成本,可以造一個攝像頭,性能是可以超過人眼的,“但我們現在這些車上用的這種低成本的攝像頭,似乎還遠沒有達到這個性能級别。”

言外之意,解決攝像頭在弱光或強光下的感覺,并不能僅靠視覺算法的提升,還得圍繞着攝像頭的實體性能“做文章”。

如攝像頭若要在夜間探測目标,就無法通過可見光成像,而是得基于紅外熱成像原理來做(夜視攝像頭)。

某“AI四小龍”工程師認為,photon to control非常有可能意味着特斯拉跟HW 4.0晶片搭配的攝像頭會更新成多光譜。

這位工程師說:目前,行車攝像頭都将非可見光部分濾去,但現實中,物體發出的光線光譜非常廣泛,可以用來進一步區分物體特征。比如白色的貨車和白雲,在紅外波段可以被輕易區分;有行人或者大型動物防撞,用紅外攝像頭會比較容易,因為恒溫動物身體發出的紅外線是很容易區分的。

《車右智能》在文章中也提到了這樣一個問題:Tesla是否會針對photon to control的概念而更新相機硬體,推出真正的光量子相機,或者還是基于現有的camera進行ISP旁路? 與此同時,作者也指出,如果攝像頭硬體也要更新,“那特斯拉将不得不從頭開始完全重新訓練其神經網絡算法,因為輸入是如此的不同”。

此外,無論攝像頭技術如何進步,可能都無法擺脫鳥屎、泥水等髒污的影響。

雷射雷達采用的是主動光源,先發光、再接收光,像素點很大,一般的髒污很難将其完全遮擋掉。據某雷射雷達廠商提供的資料,在表面有髒污的情況下,其雷射雷達的探測距離隻衰減15%以内;而且,有髒污的時候,系統會自動發出警報。但攝像頭是被動傳感器,每個像素點很小,很小的灰塵技能擋住幾十個像素,是以,在表面有髒污的時候就直接“瞎了”。

如果不能解決這個問題,那試圖通過視覺算法的進步來省掉雷射雷達的成本,豈不是個妄想?

幾點補充:

1.晶片廠商怎麼設計隻是問題的一個方面,但客戶如果沒能力充分利用好原始資料,他們也無法繞過ISP。

2.哪怕晶片廠商和客戶都有能力繞過ISP,在今後相當長一段時間裡,多數廠商仍然會保留ISP,一個關鍵原因在于,在L2階段,駕駛責任主體依然是人,而ISP處理後的資訊顯示到螢幕上,友善互動,也可以給駕駛員“安全感”。

3.要不要繞過ISP,仍然是“純視覺派”與“雷射雷達派”兩種技術路線之争的延續,對此,上文提到的Robotaxi公司技術VP的觀點很有啟發性:

其實純視覺方案跟雷射雷達方案并不是拼“誰行誰不行”,真正拼的就是純視覺方案算法開發能開發到雷射雷達方案這種水準要多長時間,以及雷射雷達的成本降到跟純視覺方案成本差不多的時候需要多長時間。簡言之,是前者的技術進步快,還是後者的成本降得更快。

當然,若日後純視覺派需要增加傳感器,而雷射雷達派需要減少傳傳感器,算法受到的影響有多大、修改算法需要多長時間、成本如何,這些都是有待進一步觀察的問題。

參考文章:

馬斯克最新訪談:自動駕駛最難的是建立向量空間,特斯拉FSD或年底達到L4|阿爾法講故事

特斯拉選擇純視覺:攝像頭測距已成熟,雷達缺陷不可彌補

https://m.ithome.com/html/564840.htm

繼續閱讀