作者:Jiaxu Wang | 編輯:3DCV
添加微信:dddvision,備注:3D高斯,拉你入群。文末附行業細分群
标題:Reinforcement Learning with Generalizable Gaussian Splatting
作者:Jiaxu Wang等人
論文:https://arxiv.org/pdf/2404.07950.pdf
1、導讀
這篇文章介紹了一種基于可推廣高斯濺射(3DGS)的新穎環境表示方法,用于強化學習。該方法利用3DGS明确表達環境資訊,同時捕捉局部幾何細節,并且建構出3D一緻性的特征。作者提出了一個通用的3DGS架構,可以直接從多視角圖像中預測3D高斯雲,無需每場景優化。通過在RoboMimic平台上與不同表示和算法進行比較,實驗結果表明該通用3DGS表示方法可以顯著提升強化學習的性能。這一工作拓展了3DGS在強化學習中的應用前景,并為未來基于視覺的強化學習提供了新的視角。
2、創新點
- 使用3D高斯表示作為強化學習中的環境表示,結合了顯式表示和隐式表示的優勢,既包含豐富的幾何資訊,又能描述複雜的局部幾何結構。
- 引入了一個通用的3D高斯預測子產品,該子產品可以直接從多視角圖像預測出3D高斯點雲,而不需要針對每個場景單獨優化,進而使得3D高斯表示可以用于強化學習。
- 将預訓練好的高斯預測子產品內建到強化學習環境中,将環境的觀測轉換為3D高斯表示,然後基于該表示訓練強化學習政策。
- 在RoboMimic環境中進行驗證,結果顯示該通用高斯表示在多個任務上優于其他基準表示,提高了強化學習的性能。
3、方法
通用3D高斯表示:作者提出了一種通用的3D高斯表示方法,用于預測給定單張或多張圖像對應的3D高斯點雲。這一表示方法包含了深度估計、高斯回歸和高斯精煉三個主要子產品。
深度估計:該子產品利用立體圖像對來預測每個像素的絕對深度值,進而将2D圖像映射到3D空間。
高斯回歸:此子產品以像素為機關預測每個3D高斯的其餘屬性,包括旋轉矩陣、縮放矩陣、顔色等。
高斯精煉:為了改善特征的連貫性,作者定義了高斯精煉操作,通過圖網絡平滑3D空間中的特征。
訓練政策:首先預訓練深度估計子產品,然後當機該子產品,并聯合訓練高斯回歸和精煉子產品。
損失函數:在訓練中使用了渲染損失和重構損失,以指導模型學習。
4、實驗
- 實驗設定:
- 作者在RoboMimic平台上進行了評估,并選擇了Lift、Can、Square和Transport四個任務。
- 采用了BCQ、IQL和IRIS三種離線強化學習算法。
- 對比了圖像、點雲、體素和通用高斯表示四種視覺觀測模式。
- 為了公平比較,作者使用相同的預設參數設定,并固定通用高斯預測子產品作為編碼器,将多視角圖像觀測轉換為3D高斯表示,然後讓強化學習政策在此表示上預測動作。
- 結果分析:
- 表1顯示了不同表示在四個任務上的性能比較,結果顯示通用高斯表示在大多數情況下優于其他基準方法。
- 表2評估了高斯點數對性能的影響,結果顯示方法對點數不太敏感,但點數增加時性能略有提高。
- 表3分析了3D高斯重構品質對強化學習性能的影響,結果顯示更精确的重構有利于提高性能。
- 表4對通用高斯架構中的某些基本設計進行了消融分析,結果顯示特征空間的級聯結構和高斯精煉都是有效的。
- 結論:
- 作者的通用高斯表示在四個任務上優于其他基準表示,特别是在最困難的Transport任務上,性能提升了10%、44%和15%。
4、總結
本文提出了一個名為GSRL的通用高斯表示架構,用于強化學習中的環境表示。該架構通過一個通用的3D高斯預測子產品,直接從多視角圖像預測出3D高斯點雲,進而避免了傳統3D高斯表示需要對每個場景單獨優化的缺點。作者将預訓練好的高斯預測子產品內建到強化學習環境中,将環境的觀測轉換為3D高斯表示,然後基于該表示訓練強化學習政策。實驗證明,該通用高斯表示在多個任務上優于其他基準表示,提高了強化學習的性能。這一架構創新性地将3D高斯表示應用于強化學習領域,為強化學習提供了高效的環境表示方法。
本文僅做學術分享,如有侵權,請聯系删文。
在這裡給大家推薦3D視覺工坊聯合Gigi主講老師推出的新課《基于NeRF/Gaussian三維重建的全新SLAM算法》
主講人介紹
課程大綱
課程亮點
- 本門課程從理論和代碼實作兩方面展開,帶你從零入門NeRF/Gaussian Based SLAM的原理學習、論文閱讀、代碼梳理等。
- 理論層面,從線性代數入手到傳統的計算機圖形學,讓大家明了現代三維重建的理論基礎和源頭;
- 代碼層面通過多個練習手把手教會大家複現計算機圖形學、NeRF相關工作。
學後收獲
- 入門基于NeRF/Gaussian的SLAM領域
- 學會如何在快速抓取一篇論文的關鍵點和創新點
- 如何快速跑通一篇論文的代碼并結合代碼掌握論文的思想
- 逐行NeRF代碼進行解析,掌握每個實作細節,并手動複現并作改進
課程設定
- 系統要求:Linux
- 程式設計語言:Python
- 基礎要求:有Python、PyTorch基礎
适合人群
- 對一篇新論文配套開源代碼無從下手的小白
- SLAM定位建圖、NeRF三維重建小白
- 從事三維重建工作的人員可參考
- NeRF論文的初始閱讀者
- 對SLAM、NeRF感興趣的學員
開課時間
2024年2月24日晚上8點(周六),每周更新一章節。
課程答疑
本課程答疑主要在本課程對應的鵝圈子中答疑,學員學習過程中,有任何問題,可以随時在鵝圈子中提問。
▲添加小助理:cv3d007,咨詢更多
備注:以上圖檔和視訊部分來自網絡,如果侵犯了您的權益,還請聯系删除!