天天看點

為什麼說特斯拉在自動駕駛上比Waymo更占優勢計算機視覺預測路徑規劃/駕駛政策結論

https://www.toutiao.com/a6690749591517659655/

2019-05-14 13:25:33

商業分析師、記者和普通公衆的大多數觀點,似乎是Waymo在自動駕駛方面遙遙領先,而特斯拉相差很遠。但當你研究神經網絡的基本原理時,這種觀點是沒有意義的。

原文載于Medium,作者:Trent Eady

訓練資料,是決定深度神經網絡性能的基本因素之一。 (另外兩個是網絡結構和優化算法。)

作為通用原則,更多的訓練資料能帶來更好的性能。這就是為什麼,我相信特斯拉擁有世界上最有前途的無人駕駛汽車項目,而不是Waymo。

為什麼說特斯拉在自動駕駛上比Waymo更占優勢計算機視覺預測路徑規劃/駕駛政策結論

△可視化的特斯拉車隊(圖檔由特斯拉提供)

特斯拉的車隊中有大約50萬輛,配備了特斯拉所說的全自動駕駛硬體。每天,特斯拉的車隊行駛裡程約為1500萬英裡,相當于Waymo車隊有史以來的總體行駛裡程。

每天1500萬英裡,一年就是54億英裡,比Waymo預計的一年總裡程多200倍。而且,特斯拉的車隊也在以每周大約5000輛的速度增長。

在以下三個關鍵領域,資料會産生影響:

  • 計算機視覺
  • 預測
  • 路徑規劃/駕駛政策

計算機視覺

計算機視覺中,一個重要的任務是目标檢測(object detection)。有些東西,比如馬,很少出現在路上。每當特斯拉遇到神經網絡認為可能是一匹馬(或者可能隻是一個無法識别的阻礙道路的物體)的東西時 ,攝像頭就會拍下照片,然後通過無線網絡上傳。

車輛每年行駛數十億英裡是有幫助的,因為你可以找到許多稀有物體的例子。顯而易見的是,随着時間的推移,特斯拉在識别稀有物體方面,将比Waymo更出色。

對于普通物體來說,Waymo和特斯拉的瓶頸,很可能是花錢讓人們手動給圖檔貼标簽。捕捉更多的圖像,要比付錢給人們貼标簽容易。

但是對于稀有物體來說,Waymo的瓶頸可能在于首先要收集圖像,而對于特斯拉來說,瓶頸可能僅僅是貼标簽和開發軟體,以便在合适的時間觸發拍照功能。相比之下,特斯拉占據更有優勢的地位。

在下面的這段視訊中,特斯拉的人工智能總監安德烈·卡帕斯(Andrej Karpathy)解釋了特斯拉是如何擷取圖像訓練目标檢測算法的:

視訊位址:https://youtu.be/33K3id2xNAE

預測

預測,是提前幾秒預測汽車、行人和騎自行車的人的動作和行為的能力。

Waymo頂尖工程師之一安東尼·萊萬多夫斯基(Anthony Levandowski)最近寫道,

“之是以沒有人實作完全自動駕駛,是因為現在的軟體還不足以預測未來。”

萊萬多夫斯基聲稱,自動駕駛汽車的主要故障類别,是錯誤地預測了附近汽車和行人的行為。

特斯拉擁有大約50萬輛汽車的車隊,在這裡是一個極好的資源。任何時候,特斯拉對汽車或行人做出錯誤的預測,特斯拉都可以儲存資料快照,以備以後上傳并添加到特斯拉的訓練資料集中。

特斯拉或許能夠上傳由其計算機視覺神經網絡生成的場景抽象表征(其中物體被視覺化為彩色編碼的長方體形狀,而像素級資訊被丢棄) ,而不是上傳視訊。 這将從根本上降低上傳這些資料的帶寬和存儲要求。

雖然用于訓練目标檢測的圖像需要人工标記,而預測神經網絡,可以僅僅通過事件的時間序列就可以學習過去和未來之間的相關性。什麼行為先于什麼行為,是任何記錄(視訊或抽象表征)所固有的。安德烈·卡帕斯在下面的視訊片段中解釋了這個過程:

視訊位址:https://youtu.be/A44hbogdKwI

由于不需要人類給資料貼标簽,特斯拉可以盡可能多地收集有用的資料來訓練它的神經網絡。

這意味着,它的訓練資料集的大小将與它的總裡程數相關聯。

和目标檢測一樣,特斯拉相對于Waymo的優勢,不僅僅在于預測常見行為的資料更多,還在于能夠收集罕見情況下的罕見行為的資料,以便預測這些行為。

路徑規劃/駕駛政策

路徑規劃和駕駛政策,指的是汽車采取的行動:在限速時保持在車道的中心,變更車道,超車,在綠燈時左轉,看到亂穿馬路的人停車,等等。

制定一套包含汽車在任何情況下可能需要采取的每一個行動的規則,似乎極其困難。解決這個難題的方法之一就是讓神經網絡模仿人類的行為。這被稱為模仿學習(imitation learning),有時也稱為學徒學習(apprenticeship learning),或從示範中學習。

訓練過程,類似于神經網絡通過繪制過去和未來之間的相關性,來學習預測其他道路使用者的行為。

在模仿學習中,神經網絡通過它所看到的(通過計算機視覺神經網絡)和人類駕駛員所采取的行動之間的相關性,來學習預測人類駕駛員會做什麼。

為什麼說特斯拉在自動駕駛上比Waymo更占優勢計算機視覺預測路徑規劃/駕駛政策結論

△特斯拉自動駕駛示範的靜止畫面

模仿學習,最近獲得了迄今為止最大的成功:AlphaStar。DeepMind使用了數百萬人玩的星際争霸遊戲資料庫中的樣本,來訓練神經網絡,使其能夠像人類一樣玩遊戲。

這個網絡學習了遊戲狀态和人類玩家行為之間的互相關系,進而學會了預測人類在面對特定遊戲狀态時會做什麼。

僅通過這種訓練,AlphaStar就達到了DeepMind預估的能力水準,在星際争霸的競争排名中處于中等水準。随後,AlphaStar通過強化學習得到了增強,提升到了職業玩家水準。(自動駕駛汽車可能有也可能沒有類似的增強——這就是另一個話題了。)

特斯拉正在将模仿學習應用到駕駛任務中,比如如何處理高速公路立交橋上的陡峭彎道,或者如何在十字路口左轉。聽起來,特斯拉計劃将模仿學習擴充到更多的任務上,比如如何以及何時在高速公路上變更車道。在下面的這個視訊片段中,卡帕斯描述了特斯拉如何使用模仿學習:

視訊連結:https://youtu.be/v5l-jPsAK7k

與預測一樣,上傳汽車周圍場景的抽象表征就足夠了,而不用上傳視訊。 這将意味着更低的帶寬和存儲要求。

與預測一樣,一旦資料上傳,就不需要人工标記。由于神經網絡是預測人類司機在給定世界狀态下會做什麼,它所需要的隻是世界狀态和司機的行為。模仿學習,本質上是預測特斯拉司機的行為,而不是預測特斯拉司機周圍其他道路使用者的行為。與 AlphaStar 一樣,所有需要的資訊都包含在所發生事情的回放中。

根據卡帕斯關于預測超車的評論,特斯拉可以在無法正确預測前方車輛是否會駛入特斯拉車道時,來觸發汽車儲存這一場景。

類似的,當涉及路徑規劃或駕駛政策的神經網絡,不能正确預測特斯拉實際的行為時,特斯拉可以捕獲可以回放的資料。

埃隆·馬斯克(Elon Musk)過去曾提到過這種能力(或類似的能力),盡管目前還不清楚它是否在特斯拉汽車上運作。

相反,當特斯拉處于自動駕駛狀态,或即将到來半自動駕駛模式時,這可能會帶來豐富的資料,其中系統做錯了一些事情,然後人類司機迅速示範如何正确地執行此操作。

其他可能會捕捉回放的情況是:突然刹車或轉彎,自動緊急刹車,撞車或碰撞警告等等,以及更複雜的機器學習技術,被稱為異常檢測( anomaly detection)。

如果特斯拉已經知道它想要捕捉什麼,比如在十字路口左轉,它可以設定一個觸發器,在視覺神經網絡看到交通燈和左轉信号燈被激活,或者方向盤向左轉時捕捉回放。

結論

由于擁有大約50萬輛汽車,特斯拉在三個關鍵領域優于Waymo (及其它競争對手):

  • 計算機視覺
  • 預測路徑規劃 / 駕駛政策

關于收集正确的資料,付錢給人們貼标簽,或者付錢購買帶寬和存儲并不能消除這些優勢。通過設計好的觸發器,使用不需要人工标記的資料,以及使用抽象表征(回放)代替原始視訊,這些問題都得到了解決。

商業分析師、記者和普通公衆的大多數觀點,似乎是Waymo在自動駕駛方面遙遙領先,而特斯拉相差很遠。但當你研究神經網絡的基本原理時,這種觀點是沒有意義的。

更重要的是,AlphaStar是複雜任務大規模模仿學習概念的一個證明。如果你懷疑特斯拉的方法是否正确,或者路徑規劃/駕駛政策是一個易于處理的問題,你必須解釋為什麼模仿學習适用于星際争霸而不适用于駕駛。

我預測,除非Waymo采取激進的行動,以增加其車隊的規模——在未來1-3年,認為Waymo遙遙領先,特斯拉是遠遠落後的觀點,将被廣泛摒棄。

人們一直過于關注那些沒有告訴我們系統穩定性的示範,非常有限的脫離名額,以及Google/Waymo與頂級機器學習工程師和研究人員的接觸。

他們對訓練資料的關注太少,特别是在Waymo沒有足夠的資料來做好識别稀有物體和行為方面。

為什麼說特斯拉在自動駕駛上比Waymo更占優勢計算機視覺預測路徑規劃/駕駛政策結論

△特斯拉的駕駛模拟(圖檔由特斯拉提供)

模拟不是Waymo的優勢,因為特斯拉(像所有自動駕駛公司一樣)也使用模拟。更重要的是,模拟不能生成罕見的對象和行為,而這些對象和行為,是模拟的創造者無法預料或不知道如何精确模組化的。

純粹的強化學習,并不适用于AlphaStar,因為星際争霸的行動空間太大,不适合随機探索,無法找到好的政策。

是以DeepMind必須通過模仿學習來引導學習。這顯示了一個假設的弱點,就像 AlphaGo Zero 一樣,純粹的模拟體驗可以解決任何問題。

特别是遇到像開車這樣的問題時,預測人類的行為是一個關鍵組成部分。預測人類行為需要關于現實世界的經驗資訊。

自動駕駛汽車領域的觀察者,可能低估了特斯拉吸引頂尖機器學習人才的能力。一項針對技術人員的調查發現,特斯拉是舊金山灣區第二受歡迎的公司,僅次于Google。

調查還發現,特斯拉在全球最受歡迎公司中排名第四,僅次于排名第二的Google。 (Shopify 在全球排名第三,SpaceX 排名第一。)

值得注意的是,機器學習的基本進步通常是由學術界、 OpenAI 以及 Google、 Facebook 和 DeepMind的企業實驗室公開分享的。

特斯拉能做什麼和Waymo能做什麼之間的差别可能沒那麼大。

兩家公司最大的差別在于資料。随着特斯拉的車隊增長到100萬輛汽車,它每月的行駛裡程将達到10億英裡,是Waymo每月100萬英裡行駛裡程的1000倍。

這1000倍的差異,對特斯拉來說意味着對稀有物體的檢測更精确,對罕見行為的預測更準确,以及在面對罕見情況時,能夠更好地制定路徑規劃/駕駛政策。

自動駕駛的挑戰更多的是處理0.001%包含罕見邊緣情況的裡程,而不是99.99%不引人注目的裡程。

是以,能從這0.001% 的裡程數中收集大量訓練資料的公司,比那些不能的公司做得更好,是合情合理的。

繼續閱讀