天天看點

英偉達新技術将NeRF模型訓練速度提高60倍,最快隻需5秒

近日,英偉達使用一種新技術将訓練 NeRF 模型的時間縮減到僅需 5 秒。

對此,任職于谷歌的科學家喬恩·巴倫(Jon Barron)在 Twitter 上寫道:“18 個月前,訓練 NeRF 要 5 小時;2 個月前,訓練 NeRF 仍要 5 分鐘;而現在,英偉達的最新技術竟将訓練 NeRF 的時間縮減到 5 秒!”

據了解,英偉達能夠取得這一成績的主要原因是采用了一種被稱作多分辨率哈希編碼(Multiresolution Hash Encoding)的技術。同時,其在一篇論文《基于多分辨率哈希編碼的即時神經圖形基元》(Instant Neural Graphics Primitives with a Multiresolution Hash Encoding)中對這一新技術做了詳細說明。

英偉達表示:“計算機圖形基元基本上由參數化外觀的數學函數表示。數學表示的品質和性能特性對于視覺保真度至關重要。”其希望在保持快速和緊湊函數表示的同時,還能捕獲高頻、局部的細節。

為了達到上述要求,英偉達采用了多分辨率哈希編碼技術。據英偉達稱,該技術獨立于任務之外,有着自适應性和高效性兩大特性。其隻有兩個值進行配置,分别為參數的數量 T 和所需的最佳分辨率 Nmax。

利用該技術,隻需經過幾秒鐘的訓練,便能在各種任務中達到較高的品質。

英偉達新技術将NeRF模型訓練速度提高60倍,最快隻需5秒

圖 | 在一個 GPU 上對多個任務神經圖形基元的即時訓練示範(來源:GitHub)

利用 NeRF,能夠将一些靜态圖轉成十分真實的 3D 圖像。不過,NeRF 相當消耗算力,成本較高,特别是在渲染方面。

據論文中表述,“參數化全連接配接神經網絡的神經圖形基元的訓練和評估”成本相對較高,為了将成本降低,英偉達采用一新的通用輸入編碼,可以在一個較小的網絡,且不降低品質的情況下,顯著減少浮點和記憶體通路操作的數量。英偉達是以實作了“幾個數量級的組合加速,可以在幾秒鐘内訓練高品質的神經圖形基元。”

英偉達在神經輻射場(Neural Radiance Fields,NeRF)、神經輻射緩存(Neural Radiance Caching,NRC)、十億像素圖像(Gigapixel Image)、神經符号距離函數(Neural Signed Distance Functions,SDF)等四個較為有代表性的任務中驗證了多分辨率哈希編碼技術。

這裡重點介紹一下 NeRF 任務。

英偉達新技術将NeRF模型訓練速度提高60倍,最快隻需5秒

動圖 | 不同編碼的重建品質示範(來源:GitHub)

上圖每個圖像下面顯示的是可訓練參數的數量(神經網絡權重 + 編碼參數)和訓練時間。英偉達表示,由于參數更新的稀疏性和較小的神經網絡,訓練速度得到提升。另外,随着參數數量的增加,也可進一步提高近似品質,而訓練時間卻不會明顯增加。

同時,英偉達的技術還支援現實 360 度全景場景和“具有較多模糊、鏡面反射表面的複雜場景”,且都能夠對它們進行實時渲染,并“在 5 分鐘内通過随意捕獲的資料進行訓練”。

視訊 | iPhone 拍攝的 360 度全景場景(來源:GitHub)

視訊 | 34 張照片構成的複雜場景(來源:GitHub)

值得一提的是,多分辨率哈希編碼技術還支援從體積路徑跟蹤器的噪聲輸出中訓練類似 NerF 的輻射場。在訓練期間,光線被實時饋送到網絡,以學習一個去噪的輻射場。

最後,再對另外三個任務做一定簡述。

動圖 | 三角波編碼(左)和多分辨率哈希編碼(右)顯示結果對比(來源:GitHub)

從上面圖像對比中,可以看出,新的多分辨率哈希編碼能夠使網絡學習包括陰影區域在内的更多細節。

視訊 | 十億像素圖像任務(來源:GitHub)

上圖展示的是十億像素圖像任務的實時訓練進度。該任務主要指的是多層感覺器(Multi-Layer Perceptrons,MLP)學習“從 2D 坐标到高分辨率圖像的 RGB 顔色的映射”。

相比自适應坐标網絡(Adaptive Coordinate Networks,ACORN),英偉達的方法要達到 38.59 分貝的峰值信噪比(PSNR),需要 2.5 分鐘的訓練,而 ACORN 則要經過 36.9 小時。

英偉達新技術将NeRF模型訓練速度提高60倍,最快隻需5秒

動圖 | 對各種 SDF 資料集的實時訓練進度(來源:GitHub)

值得一提的是,神經符号距離函數任務的訓練資料是從地面實況網格動态生成的,并采用了 NVIDIA OptiX 光線追蹤引擎。

許多圖形問題依賴于特定任務的資料結構的稀疏性或平滑性,而多分辨率哈希編碼則提供了一個實用的基于學習的替代方案。它會自動關注相關的細節,甚至被用于時間受限的設定,如線上訓練和推理。

而在神經網絡輸入編碼的背景下,它也可以是一種臨時替代,例如,加速 NeRF 幾個數量級。

英偉達證明,對于許多圖形應用程式來說,單 GPU 訓練時間是可以達到以秒為機關的。這使得神經方法可以應用到更多的地方。

-End-

參考:

https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf

https://nvlabs.github.io/instant-ngp/

繼續閱讀