
在China VR 2021大會上,阿裡巴巴淘系技術釋出了業界首個基于神經渲染的自研商品三維模組化産品Object Drawer。目前,Object Drawer已經提供給部分天貓、淘寶商家使用,将在12月對外開放試用接口。屆時歡迎大家體驗。
在1920*1080分辨率下,Object Drawer的推理速度可以達到200FPS,在手機上可達到30FPS,實作了實時高清可互動的三維模型。與此同時,模型的訓練時間僅僅需要4小時,模型大小僅僅需要20M,同時,對于任意視角檢視,商品三維模型都達到實拍照片的展示效果,實作了三維模組化一直追求的自動高精度還原。Object Drawer不需要依賴特定裝置,隻需要手機環繞目标商品進行視訊拍攝,就可以完成自動重建,所生成的三維模組化效果達到高精模型還原度。
Object Drawer技術名額如下圖:
背景介紹
随着VR/AR應用的發展,商品三維模組化需求持續增加,商品模組化需求可能達到現在的100倍以上。目前的商品三維模組化依賴于手工模組化,模組化需要幾小時到幾天時間,費用為數百到數千元,即使是花費巨大的時間和金錢,商品還原度依然存在許多問題。傳統的自動三維模組化技術,需要對目标商品的形狀、紋理、材質進行還原。為了提升模組化成功率,模組化産品對于模組化環境、拍攝裝置提出了許多要求。即使是這樣的前提下,自動模組化的三維模型還原度依然存在嚴重問題,弱紋理物體比如鞋、瓷壺等無法很好的重建,需要人工修複。同時,高精度材質還原,也需要人工進行大量的工作。傳統模組化失敗案例與Object Drawer模組化對比如下圖:
近幾年,神經渲染技術正在飛速發展,其旨在利用神經網絡來model場景和物體并可控制以及互動的渲染出photo-realistic的圖像和視訊。其中,NeRF及其衍生技術利用神經隐式表達來存儲場景的實體幾盒以及材質紋理資訊,端到端的對于渲染效果進行優化,在novel view合成上取得了重大突破,也給三維重建帶來了新的使點。但NeRF相關技術在實際應用中存在許多問題,部分主要問題包括:第一,推理速度、訓練速度慢,1幀高清圖推理時間超過50s,一個物體的模組化時間長達2天以上。第二,細緻紋理無法還原。第三,視角魯棒性不好,部分視角渲染效果不理想。第三,隐式表達無法直接導入圖形學工具,不支援顯式使用,例如CAD場景搭配設計;同時由于隻能還原拍攝場景的光照也使得NeRF模型無法支援環境光照變化的場景應用。以下為Object Drawer針對上述問題的一些解決情況。
推理速度和訓練速度
神經渲染的推理速度是近期的研究熱點,原始NeRF利用volume rendering得到像素顔色值,渲染單像素通常需要forward一個MLP網絡上百次。部分突破性工作,例如FastNeRF和PlenOctree,通過優化網絡結構,探索幾何先驗,預存部分資訊,在保證渲染品質的同時顯著将1080p渲染速度提升到了100FPS左右,同時模型存儲要求壓縮到了400M左右。Object Drawer深入分析了神經推理過程中的備援計算,提出了新的模型表示,相比NeRF實作了10000倍的推理速度提升,模型大小也控制在20M以内。