資料不夠，Waymo用GAN來湊：生成逼真相機圖像，在仿真環境中訓練無人車模型

雲栖号資訊：【點選檢視更多行業資訊
】

在這裡您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！

疫情當下，Waymo等自動駕駛廠商暫時不能在現實世界的公共道路上進行訓練、測試了。

不過，工程師們還可以在GTA，啊不，在仿真環境裡接着跑車。

模拟環境裡的場景、對象、傳感器回報通常是用虛幻引擎或者Unity這樣的遊戲引擎來建立的。

為了實作逼真的雷射雷達等傳感器模組化，就需要大量的手動操作，想要獲得足夠多、足夠複雜的資料，可得多費不少功夫。

資料不夠，無人車标杆Waymo決定用GAN來湊。

這隻GAN，名叫SurfelGAN，能基于無人車收集到的有限的雷射雷達和攝像頭資料，生成逼真的相機圖像。

用GAN生成的資料訓練，還是訓練自動駕駛汽車，這到底靠譜不靠譜？

SurfelGAN

那麼首先，一起來看看SurfelGAN是怎樣煉成的。

主要有兩個步驟：

首先，掃描目标環境，重建一個由大量有紋理的表面元素（Surfel）構成的場景。

然後，用相機軌迹對表面元素進行渲染，同時進行語義和執行個體分割。接着，通過GAN生成逼真的相機圖像。

表面元素場景重建

為了忠實保留傳感器資訊，同時在計算和存儲方面保持高效，研究人員提出了紋理增強表面元素地圖表示方法。

表面元素（surface element，縮寫Surfel）适用于動态幾何模組化，一個對象由一組密集的點或帶有光照資訊的面元來表示。

研究人員将雷射雷達掃描捕獲的體素，轉換為具有顔色的表面元素，并使其離散成 k×k 的網格。

由于光照條件的不同和相機相對姿勢（距離和視角）的變化，每個表面元素在不同的幀中可能會有不同的外觀，研究人員提出，通過建立一個由 n 個不同距離的 k×k 網格組成的編碼簿，來增強表面元素表示。

在渲染階段，該方法根據相機姿勢來決定使用哪一個 k×k 塊。

圖中第二行，即為該方法的最終渲染效果。可以看到，與第一行基線方法相比，紋理增強表面元素圖消除了很多僞影，更接近于第三行中的真實圖像。

為了處理諸如車輛之類的動态對象，SurfelGAN還采用了Waymo開放資料集中的注釋。來自目标對象的雷射雷達掃描的資料會被積累下來，這樣，在模拟環境中，就可以在任意位置完成車輛、行人的重建。

通過SurfelGAN合成圖像

完成上面的步驟，模拟場景仍存在幾何形狀和紋理不完美的問題。

這時候，GAN子產品就上場了。

訓練設定了兩個對稱的編碼-解碼生成器，從Sufel圖像到真實圖像的GS→I，以及反過來從真實圖像到Sufel圖像的GI→S。同樣也有兩個判别器，分别針對Sufel域和真實域。

上圖中，綠色的線代表有監督重建損失，紅色的線代表對抗損失，藍線/黃線為周期一緻性損失。

輸入資料包括配對資料和未配對資料。其中，未配對資料用來實作兩個目的：

提高判别器的泛化性能；
通過強制循環一緻性來規範生成器。

另外，由于表面元素圖像的覆寫範圍有限，渲染出的圖像中包含了大面積的未知區域，并且，相機和表面元素之間的距離也引入了另一個不确定因素，研究人員采用了距離權重損失來穩定GAN的訓練。

具體而言，在資料預處理過程中，先生成一個距離圖，然後利用距離資訊作為權重稀疏，對重構損失進行調節。

實驗結果

最後，效果如何，還是要看看實驗結果。

研究人員們基于Waymo Open Dataset（WOD）進行了實驗。該資料集包括798個訓練序列，和202個驗證序列。每個序列包含20秒的攝像頭資料和雷射雷達資料。此外，還包括WOD中真的對車輛、行人的注釋。

他們還從WOD中衍生出了一個新的資料集——Waymo Open Dataset-Novel View。在這個資料集中，根據相機擾動姿勢，研究人員為原始資料集裡的每一幀建立了新的表面元素渲染。

此外，還有9800個100幀短序列，用于真實圖像的無配對訓練。以及雙攝像頭-姿勢資料集（DCP），用于測試模型的真實性。

可以看到，在檢測器的鑒定下，SurfelGAN生成的最高品質圖像将AP@50從52.1%拉升到了62.0%，與真實圖像的61.9%持平。

Waymo認為，這樣的結果為将來的動态對象模組化和視訊生成模拟系統奠定了堅實的基礎。

華人一作

論文的第一作者，是Waymo的華人實習生Zhenpei Yang，他于2019年6月至8月間在Waymo完成了這項研究。

Zhenpei Yang大學畢業于清華大學自動化系，目前在德州大學奧斯汀分校攻讀博士，研究方向是3D視覺和深度學習。

Waymo首席科學家Dragomir Anguelov，也是論文的作者之一。

【雲栖号線上課堂】每天都有産品技術專家分享！

課程位址：
https://yqh.aliyun.com/live
立即加入社群，與專家面對面，及時了解課程最新動态！

【雲栖号線上課堂社群】
https://c.tb.cn/F3.Z8gvnK

原文釋出時間：2020-06-15

本文作者：魚羊

本文來自：“

量子位公衆号

”，了解相關資訊可以關注“公衆号QbitAI”

資料不夠，Waymo用GAN來湊：生成逼真相機圖像，在仿真環境中訓練無人車模型

繼續閱讀

資料庫規範化設計理論摘要要

黑馬程式員——C#結構及常用基本類型

試分析如何把數組array中的所有元素循環右移p位

Flash AS3 連續加載外部若幹圖檔

DB2表壓縮功能

2021-08-20前言一、FDC2214基本資訊二、讀寫時序圖三、寄存器資訊四、配置步驟五、資料讀取六、部分代碼總結

bgfx跨平台渲染庫學習筆記:概述

華為筆試軟體

項目管理那些事兒

OS --written test1

OS-written test2

壓縮編碼M-JPEG、MPEG4、H.264

轉詳解C#資料庫存取圖檔三大方式

K-近鄰算法以及圖像分類應用

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名