天天看點

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

作者: 北澤

如果機器人有大腦,它會是什麼樣子?

在科幻電影《機械師》中,全球最大的搜尋引擎公司藍皮書(Blue Book)的首席執行官内森(Nathan)向觀衆展示了他發明的機器人大腦,并留下了這樣的話:"人們認為搜尋引擎是人們的想法,但這就是人們的想法。"

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

這部電影于2015年上映,被譽為人工智能愛好者必看的電影之一,赢得了多個國際電影獎項,包括奧斯卡金像獎。但在衆多獎項中,單冠是"最佳女配角"艾麗西亞·凱斯( Alicia Keys)。維坎德,也在片中飾演智能機器人艾娃。

"艾娃"是内森給"她"起的名字,為了創造獨立思考的人工智能,内森用自己的搜尋引擎"藍皮書"算法建構了艾娃的大腦"思考",讓它學會了人們思考的方式。

希望機器具有人類思維是獨一無二的,就像特斯拉的自動駕駛AI所看到的那樣。在特斯拉2019年自動駕駛日,特斯拉人工智能負責人安德烈·卡帕西(Andrej Karpathy)向公衆明确表示,特斯拉的自動駕駛是在模仿人類駕駛,因為目前的交通系統是基于人類的視覺和認知系統設計的。

于是,特斯拉研發出了"人工神經網絡",并利用大量有效的駕駛資料對其進行了訓練,在這個過程中不斷改進和疊代視覺算法,最終在今年年中移除了毫米波雷達,并随着超級計數道場的出現,長期受苦的特斯拉,隻能算作輔助司機, 離真正的自動駕駛又近了一步。

從學習駕駛,到成為一名優秀的"老司機",再到成為比人類更好的司機,特斯拉的自動駕駛汽車是持續優化的底層邏輯。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

<h1類"pgc-h-right-arrow"資料軌道>01的"雲驅動程式"的神經網絡</h1>

Pure Vision Autopilot是特斯拉獨一無二的特技,但它建立在計算機視覺的深度訓練之上。

計算機視覺是研究機器如何"看"的科學,當人類看到一張圖檔時,可以清楚地分辨出事物的圖檔,比如美麗的風景照片,或者一張小狗的圖檔,但計算機看到的像素(pixel),像素是由小方塊組成的圖像,這些小方塊具有清晰的位置和相應的顔色值, 計算機"記住"的是這堆數字字元,而不是具體的東西。

如果想讓計算機像人類一樣快速準确地識别圖檔中的事物,機器還有一個人工大腦,來模拟人腦處理圖像資訊的過程,分為輸入層、隐藏層、輸出層,有很多人工神經元,可以看作是人腦初級視覺皮層中的視錐細胞和中間神經元。

整個訓練過程還可以比較孩子看地圖,通過反複輸入、比較、校正,完成機器圖像的認知。通常在訓練的早期階段,人工神經網絡識别結果的準确率很低,輸出結果與實際值的相似度可能隻有10%,為了提高精度,有必要将誤差從輸出層逆向到輸入層,并在反向傳播中,校正神經網絡隐藏層的參數值, 經過數百萬次訓練後,誤差會逐漸收斂,直到輸入輸出比對達到99%。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

這個過程是了解特斯拉自動駕駛AI的關鍵,隻不過特斯拉的人工神經網絡專注于駕駛,是一個全職的雲司機。對于它來說,最好的學習材料是駕駛資料,而龐大、多樣化、現實世界的駕駛訓練資料集是自動駕駛AI應對各種路況和交通問題的寶庫。

在影子模式的支援下,特斯拉全球百萬車隊的駕駛資料是雲"老司機"提高駕駛能力的養分。如今,特斯拉Autoloit已經能夠即時完成對道路上各種動态目标、路标、交通符号的語義識别,反映速度甚至比人腦狀況還要快。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

除了處理日常駕駛場景外,AI駕駛員還需要處理一些不太常見的長尾情況(角落情況)。在2020年Metroid機器學習大會上,Kappasi以交通訓示器STOP為例,解釋了Autoloit如何應對這些長尾情況。

在日常駕駛過程中,車輛總會經過各種STOP訓示燈,最正常的情況是站在路邊或路上,紅白STOP标志,但現實生活中總會有一些意想不到的情況,駕駛員偶爾會遇到一些奇怪的事情,需要結合具體的背景來了解訓示燈的含義, 包括但不限于以下内容:

無效的STOP名額,例如被握在某人的手中,但毫無意義;STOP名額,下面有文字描述,例如右行沒有限制;停止被樹枝,建築物遮擋的字母...這些都是頻率不高但不多的情況。

在這些情況下,人類駕駛員在絕大多數情況下可以輕松識别"STOP"并快速做出反應。但對于計算機來說,情況變得複雜起來,畢竟它看到的不是一個特定的"STOP",而是一堆毫無意義的數字代碼,如果遇到在現有的訓練資料集中沒有出現,比如上面一些奇怪的、相對罕見的名額,自動駕駛神經網絡是無法處理的。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

這部分罕見的長尾資料通常是無窮無盡的,但必須學會在最短的時間内處理,如果一切都是人為的,毫無疑問會花費大量的時間和資源。盡管Kappasi在8月20日的AI大會上透露,特斯拉的團隊目前隻有1000人,但面對海量的駕駛資料,成千上萬的人似乎仍在支付薪水,特斯拉為此開發了資料自動标記和自動化訓練架構"資料引擎"。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

首先,一旦特斯拉神經網絡團隊了解了這些長尾,他們将編譯一個樣本資料集,并建立一個本地小型神經網絡來學習、訓練(與其他神經網絡并行),并通過OTA将它們部署到世界英語地區的特斯拉汽車上。

重用車輛陰影模式,但在實際駕駛和自動駕駛AI決策不一緻的情況下,這部分駕駛資料會自動上傳到特斯拉背景資料引擎,經過自動标記後,重新整合到現有的資料訓練集中,繼續訓練原來的神經網絡,直到掌握了新的資料。

這樣,在大量訓練資料的饋送下,神經網絡變得"知識淵博",更加智能,能夠在不同條件下識别STOP識别,準确率從40%逐漸提高到99%,完成單一的學習任務。

然而,這僅僅是為了學習一個靜态信号,在駕駛汽車的過程中會出現無數的靜态和動态信号,靜電如路邊的樹木、路障、電線杆、動态行人、車輛等,而這些信号經過神經網絡的訓練、學習後被攝像頭捕捉到。特斯拉的自動駕駛神經網絡現在已經開發了九個主要神經(HydraNet)和48個神經網絡來識别1000多個目标。

然而,僅僅讓自動駕駛AI學會駕駛是不夠的,而是讓它像老人類駕駛員一樣輕便、安全和平穩地駕駛。

< h1級""pgc-h-arrow-right-track"資料軌道""25">02擺脫拐杖,自動駕駛儀成長</h1>

任何有經驗的駕駛員都可以輕松判斷不同路況下我們前方車輛之間的距離,進而為車輛的安全留出一定的距離。

但對于傳感器來說,要判斷一個物體有多遠,就要了解物體的深度,否則在他們眼中,兩輛一模一樣的汽車相距10米和5米,就會被認為是一種大大小小的關系。

作為回應,一些汽車制造商選擇了雷射雷達路線來探測深度,而特斯拉則選擇了模仿人類視覺的純視覺算法來感覺深度,但特斯拉首先建構了毫米波雷達-視覺傳感融合路線,直到今年5月才正式宣布,當時它起飛了毫米波雷達,推出了純視覺版的Autopilot。

這件事,社會上一片嘩然,很多人不明白為什麼特斯拉拿出單價隻有300元,也為汽車的安全增添了一個高成本效益的雷達保障。我們不知道的是,在特斯拉早期的多傳感器融合路線中,毫米波雷達像孩子的步行者一樣存在,幫助神經網絡學習訓練深度标記。

"神經網絡學習預測深度的最佳方法是使用深度标記的資料集進行訓練,但比手動标記的深度更準确,"Kapasi在2019年自動駕駛儀釋出會上說,引入了毫米波雷達,它基本上用于訓練和改進神經網絡對深度的預測。

值得注意的是,在他解釋的背景幻燈片的右下角,清楚地注意到帶有毫米波雷達的自動駕駛算法是"半自動自動駕駛",翻譯為半自動,顯然是半成品特斯拉自動駕駛儀。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

特斯拉的視覺算法并不是真正獨立的,直到他們預測物體的深度、速度、加速度達到替代毫米波雷達的水準。

在2021年6月的CVPR會議上,卡帕西表示,毫米波雷達資料收集中存在"間歇性翻車",甚至誤判。他舉了三個具體的例子,前車的急刹車,橋下前車的速度,以及路邊靜止的卡車的判斷。

情況1:車輛前方緊急刹車,毫米波雷達在短時間内與目标車損失6倍,随前車位置的下降狀态、速度和加速度均為零。

場景2:當移動的汽車經過橋下時,雷達将靜态物體視為靜止物體,而視覺傳感計算移動車輛的速度和位移,導緻資料融合曲線發出前車減速和制動的錯誤消息。

場景3:一輛大型白色卡車停在高速公路邊上,純視覺算法發現距離目标車180m的白色卡車做了預測,但融合算法直到110m才給出回報,延遲5秒。

在上述情況下,純視覺算法輸出穩定且明顯優于雷達視覺融合算法,準确跟蹤前車的行駛狀況,制作深度、速度、加速度等資料。

不僅如此,純視覺算法還可以在霧、煙、塵等環境中保持車輛前方的速度範圍、測距工作,是以帶走毫米波雷達也就不足為奇了。根據特斯拉AI日釋出的最新資訊,特斯拉現在每周都可以通路1萬條人們在惡劣環境中駕駛的短視訊,包括大雨、雪、霧、夜、亮光等,神經網絡可以學習和訓練這些标記材料,在沒有毫米波雷達的情況下準确感覺前方車輛的距離。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

可以說,特斯拉宣布拆除毫米波雷達基地,是自己純視覺算法的成熟信心,而随着無監督自學的加入,特斯拉純視覺算法的疊代和改進明顯加快。

7月10日,特斯拉純視覺版FSD在美國正式上線,2000名受邀車主通過OTA更新到FSD Beta V9.0版,其中大多數是特斯拉粉絲和中小型KOL,包括Youtube部落客Chunk Cook(CC),他也擁有一些工程和航空航天專業知識。

系統更新結束後,CC 立即打開新版本的 FSD 道路測試,并将測試視訊上傳到管道。在視訊中,他前往一個擁有更多車輛和更快速度的丁字路口進行轉彎測試,這表明隻有七分之一的FSD成功完成自動駕駛,其餘的需要手動接管方向盤才能完成駕駛。

但很快,随着FSD在7月底推出新版本的V9.1,CC發現更新後的FSD讓他大吃一驚。他還在同一條路上進行了七次自動駕駛測試,結果顯示,七次中有四次在自動駕駛方面比較成功,但有些"磨"輪流速度,沒有表現出老司機的決心,但在總體得分方面,新版Autopilot比舊版要好。

8月16日,特斯拉FSD更新為V9.2的新版,CC也是首次線上測試和上傳視訊,但測試時間改為夜間,他公開表示,最明顯的改進是Autotopilot的加速度,在轉彎時就像人類駕駛員一樣具有決定性。

前後一個月,純視覺Autotoilot在同一條道路上快速進步,背後是人工神經網絡強大的自學能力。馬斯克表示,FSD測試版V9.3和9.4已經在為V10版本的重大變化做準備,基于所有者的使用細節。

< h1級"pgc-h-right-arrow"資料軌道"45">03道場,模拟極限</h1>

值得注意的是,當你對特斯拉Autotopilot的各種老司機的純粹願景感到驚訝時,你不能忘記這些道路測試大多發生在北美,那裡的城市道路交通複雜性與人口稀少的北美在非英語地區(如人口稠密的亞洲)非常不同,如何讓神經網絡學會應對各種交通中的交通是值得思考的。

收集現場資料是一種方法,但前提是您在該地區有一支大型車隊駕駛,另一種解決方案是模拟自動駕駛。簡單地說,仿真使用真實世界的資料來重新建構和再現計算機系統中的真實世界實時動态。

除了模拟不同城市的交通狀況外,模拟測試還可以模拟極端場景,例如各種交通緊急情況或極其罕見的交通狀況。在AI DAY上,特斯拉工程師給出了具體的例子,包括在高速公路上奔跑的行人,大量的行人,或者非常狹窄的行車路徑。

這些情況往往是極端的,在日常駕駛場景中發生的機會很小,但這就是為什麼通過模拟來訓練神經網絡真的很有價值,隻有通過訓練,神經網絡才能學會正确響應。

為了進行真正的訓練,這些模拟測試必須完全還原現實世界的場景,包括行人、車輛、綠色森林、路障、信号燈等,包括你在路上看到的幾乎所有交通元素。特斯拉已經建立了3.71億張車載網絡訓練圖像,以及4.8億個标簽,資料規模正在迅速擴大。

特斯拉自動駕駛的底層邏輯01 “雲端司機”的神經網絡02 擺脫拐杖,Autopilot初長成03 Dojo上馬,模拟極限

請注意,仿真測試可以達到與計算機可以提供的資料處理能力成正比的真實感。特斯拉AI的仿真能力越強,對硬體計算、讀寫速度的要求就越高。

馬斯克告訴waIC 2020,計算機視覺現在超過了人類專家的水準,但確定計算機視覺的關鍵是計算能力的大小,特斯拉已經準備好提供頂級Dojo,以確定所有操作都高效,準确地完成。

AI Day上,Super-Dojo揭開了廬山的真面目,内置了3000個Dojo 1晶片,并組裝成1.1EFLOPS ExaPOD的峰值計算力,超越了目前世界上最快的超算Ofe Japan Fuyue,成為全球第一。在釋出後,在Twitter上回答一位使用者的問題時,馬斯克表示,ExaPOD的計算能力足以模拟人腦。

現階段,道場這個性能野獸專注于訓練特斯拉自動駕駛神經網絡,有了它,神經網絡的學習潛力突然變得深不可測,而到目前為止,特斯拉還收集了自動駕駛、資料、算法、計算三大要素,以推動L5級自動駕駛的硬體和軟體的準備。

但特斯拉要走到自動駕駛的盡頭還有很長的路要走,包括法律和道德測試。

繼續閱讀