開創全新通用3D大模型，VAST将3D生成帶入「秒級」時代

機器之心報道

機器之心編輯部

生成式 AI 在 3D 領域在很長一段時間内都在等待自己的「ChatGPT」時刻。

傳統 3D 模組化涉及遊戲、影視、建築等多個行業，普遍依賴專業人員手動操作，生産周期短則幾天，多則以月為機關，單個 3D 模型的建立成本至少需要幾千元。生成式 AI 技術在 2D 圖像生成領域的成功經驗，讓人們看到了 AI 在變革 3D 模組化這件事上的潛力。一個萬億美元級别的賽道似乎從此開啟，但目前市面上的 3D 生成類的 AI 技術仍然存在各種不足，大家都在期待出現一個讓自己眼前一亮的産品。

2021 年 1 月初，OpenAI 釋出 DALL・E，并以輸入文字 prompt「一把牛油果形狀的扶手椅」，豐富的形象、清晰的結構标志着文字生成圖檔的技術走向成熟。

MIT 科技評價道：「這把牛油果扶手椅可能是 AI 的未來（This avocado armchair could be the future of AI）」

Prompt（提示詞）：an armchair in the shape of an avocado. 圖源：OpenAI

2023 年 12 月，機器之心體驗了 VAST 自研的 3D 大模型 Tripo，當經典的「牛油果手扶椅」以精緻的形态快速絲滑地在眼前生成，我們立刻意識到，生成式 AI 迎來了又一個裡程碑時刻。

Prompt（提示詞）：avocado chair. 圖源 TripoAI

VAST 是誰？

經過一番搜尋，我們發現，最近走紅的兩項 3D 生成技術 Wonder3D 和 CSD 都與這家公司有關。

不久前，一個名為 Wonder3D 的開源項目被開發者發掘，它能夠在 3 分鐘内從單個圖像重建高保真紋理網格。在開源平台 GitHub 上，這個項目短時間内就斬獲了 3.3K Github Star：

體驗連結：https://huggingface.co/spaces/flamehaze1115/Wonder3D-demo

與此同時，一項利用圖像擴散模型實作 3D 生成的理論突破成果「CSD 」也引發了衆人關注：

VAST 此前僅有的公開亮相是創始人在圖形學盛會 SIGGRAPH 五十周年慶典中進行的 Keynote 演講。通過當時的報道可以了解到，VAST 是一家專注于通用 3D 大模型的技術研發及産品落地的初創公司。

作為首位在 SIGGRAPH 發表主題演講的中國創業者，VAST 創始人宋亞宸提到，VAST 的目标是減少制作高品質 3D 資産和環境所需的專業知識和成本，讓 3D 内容生成變成一件更容易的事。

「3D 技術代表了下一個前沿方向，開啟了沉浸式表達的新次元，我們相信 AI 可以讓任何人創造出令人驚歎的 3D 内容，且不受制于想象力之外的任何因素。」

作為一家初創公司，VAST 的創始人為何能夠與業内巨頭英偉達、索尼、Unity 的掌門人同台演講？它們又是如何推動了 Wonder3D 和 CSD 這樣的技術突破？

帶着這份好奇心，機器之心拜訪了 VAST 在北京的辦公室。

了解過團隊情況後，我們發現 VAST 可以說是「卧虎藏龍」：

算法團隊成員清一色來自海内外的頂尖高校和技術大廠，具有豐富的人工智能及圖形學經驗。

CTO 梁鼎師從戴瓊海院士，曾擔任商湯通用視覺和語言大模型發起人和垂類語言大模型負責人，著有論文 40 多篇，引用 7000 次，國内專利 100 多項，海外專利 14 項。

首席科學家曹炎培師從胡事民院士，前騰訊 ARC Lab 和 AI Lab 3D 方向專家，擁有論文 40 多篇，近期在 3D 生成方向的相關成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

還有一位出生于 97 年的青年科學家郭元晨，他是清華大學博士生，師從張松海副教授，也是知名 3D 生成開源項目 threestudio 的發起者、核心貢獻者。該項目已經在 GitHub 社群收獲了 4.4K 星标，是目前為止功能最完整、使用最廣泛的 3D 生成代碼架構。

threestudio 位址：https://github.com/threestudio-project/threestudio/

随後，VAST 和機器之心聊了聊他們正在進行的技術探索。

AI 在 3D 生成領域的壁壘，如何打破？

我們聊到的第一個問題是：在 3D 内容的生成上，AI 還面臨着哪些挑戰？

要了解這個問題，首先需要了解 3D 内容制作的特殊性。

數字 3D 内容起源于 20 世紀 60 年代的計算機圖形學，迄今已衍生出衆多細分領域。一般來說，完整的 3D 生産管線涵蓋概念設計、3D 模組化、紋理 / 材質、動畫和渲染等多個環節。

傳統流程中，3D 數字内容的生成均由積累⻓時間學習和⼯作經驗的專業藝術家進行創作，加⼊了⼤量的⼈⼯經驗設計，且不同藝術家⼯作流程不同，沒有絕對統一的标準。對于這些資深的專業 3D 創作者來說，3D 内容生成也是一項非常複雜且耗時的工作。

此外，3D 數字内容表達的多樣性，也為 AI 的學習過程增添了更多挑戰。多邊形⽹格、細分曲⾯、⻣骼動畫、頂點動畫、實體模拟動畫，不同的材質涉及不同的渲染管線。表達方式的不統一，導緻 3D 内容的制作本身比 2D 更具挑戰性。

以我們熟悉的視覺模型和語言模型為例，它們會通過對預訓練資料的「學習」來摸索規律，最終展現出一種非常接近「創造」的能力。實作這種學習能力的前提是圖像、視訊、語音、文字均有比較通用的表示形式。

對于現有的生成式大模型來說，3D 數字内容就像是一種很新的「語言」體系。是以，想讓 AI「學會」生成媲美人類水準的 3D 模型，同時保證速度，并不是一件容易的事。

已取得階段性突破的研究大多遵循 2D 優化路線：利用已有生成模型的 2D 生成能力，通過多視角優化将生成次元提升到三維。

斬獲了 ECCV 2020 最佳論文榮譽提名的 NeRF（Neural Radiance Fields，神經輻射場渲染）在多視圖重建靜态三維場景方面獲得了重要進展。這項基礎理論的突破開啟了新的一波 3D x AI 熱潮，在此基礎上，有研究者引入了擅長文本到圖像生成的擴散模型，比如 Google 去年釋出的 DreamFusion 算法，提出采用「Score Distillation Sampling」實作從文本到 3D 的生成。DreamFusion 的優點是幾乎不需要事先訓練，實作了在沒有 3D 資料的情況下生成物體 3D 表示，缺點是速度慢（長達數個小時）。

OpenAI 在去年同期釋出的 Point-E 則采用了在 3D 資料集訓練的方案，還強調了「可以用單塊 NVIDIA V100 GPU 在一到兩分鐘内生成 3D 模型」，但它在從文字到 3D 的轉換過程中偶爾還是無法了解文本叙述的内容，導緻生成的形狀與文本提示不比對，而且生成結果的精細度不足。

總之，沿襲此路線的後續研究很多，但始終沒有一個方案能兼顧模型的生成品質、速度、多樣性和可控性。

「通用 3D 大模型」的探索之路

知名計算機科學家 Rich Sutton 教授曾在 2019 年的《The Bitter Lesson》文章中給出過一個論斷：對于 AI 模型的訓練來說，要在短期内有所提升，研究人員可以利用專門領域的人類知識。但如果想要長期地獲得提升，更好地利用計算能力才是王道。

正如早期的 CV 領域，普遍認為隻要設計出更好的特征描述就可以持續進步，但後來大獲成功的深度學習方法僅使用卷積或注意力機制就能得到更好的效果。其中 ImageNet 等海量圖像資料集、GPU 提供的強大計算能力，以及 CNN、Transformer 等高可擴充性的模型架構起到了至關重要的作用。

VAST 認為，AI 要想在 3D 生成領域獲得長足發展，同樣需要跳出對人類知識的依賴，憑借更龐大的資料和更多的計算「學習」一種「通用方法」。

具體到 3D 領域，讓 AI 突破瓶頸獲得「通用能力」的方法論又是什麼呢？

在 VAST 看來，這個目标可以從三個方向的工作入手：表示、模型和資料。

充分利⽤算⼒的關鍵，最重要正是在于找到合适的「表示」。⽐如 3D 内容制作中常用三⻆⽹格來模拟複雜物體的表面，這種表示對 GPU 渲染算⼒友好，但是對深度學習算法來說并不夠友好。

VAST 希望尋找一種更加靈活、利于計算的 3D 統一表示，同時相容現有的圖形管線。

在最近的論文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》，他們提出了一種新的動态場景表示方法，通過将場景運動和外觀分解為稀疏控制點和稠密的 3D Gaussians，顯著提高了動态場景的可編輯性和渲染品質，在新視角合成和保持外觀的運動編輯方面均顯著優于現有方法。

另外一項研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers》則探索了基于三平面（triplane）和高斯潑濺（3D Gaussian Splatting）融合的 3D 表示，利用高度可擴充的 Transformer 架構即可實作 2 秒内的高品質圖生 3D。

此外，探索「3D tokenizer」也是一種不錯的思路。此前的一項研究表明，在相同的訓練資料、模型大小和訓練預算條件下，如果利用良好的視覺 tokenizer，掩碼語言模型在圖像和視訊基準的生成保真度和效率方面同樣可達到與擴散模型相同的水準。對于 3D 生成任務來說，将 3D 表示轉化為與語言 token 相近形式的 token 表示，或許有助于将現有的了解和生成大模型應用在 3D 領域。

在「模型」層面，VAST 近期的多項研究都探索了如何充分利用大模型在其他模态下的先驗、設計準則、訓練經驗，以提升模型對 3D 資料的學習能力。

比如近段時間爆火的 Wonder3D 就創新地提出了複用強大的 2D 圖像生成模型同步生成多視角一緻法向和 RGB 圖，實作了 2 分鐘高品質圖生 3D。他們利用多視角法向圖表示 3D 幾何資訊，進而可以有效利用大量 2D 資料先驗。

此外，VAST 還在最新的一項研究「UniDream」中提出了可輸出具有高品質 PBR 材質、可重光照 3D 模型的多階段文生 3D 架構。這一架構分為三個組成部分：1. 複用強大的 2D 圖像生成模型，以文字為條件，同步生成解耦的多視角一緻的法向和基礎色；2. 結合在大量 3D 資料訓練的可泛化 3D 重模組化型，從多視角圖檔生成基礎 3D 先驗；3. 利用材質解耦的 SDS 優化方法，得到最終具有高品質幾何和 PBR 材質的 3D 模型。

「資料」層面的挑戰同樣不容忽視。由于優質、原生、多樣化的 3D 資料集資源的稀缺，模型的最終表現受限，導緻可以生成的 3D 内容有限，泛化能力不足。這也是為什麼一部分研究者嘗試過直接用 3D 資料集進行訓練和微調模型，但都沒能取得太理想的效果的原因。

針對這個問題，VAST 自 2023 年初成立以來一直不斷積累在 3D 資料上的優勢，目前已擁有全世界最大的 3D 高品質原生資料庫（千萬級别）。

基于千萬 3D 原生資料訓練的大模型

已有落地産品

經曆了近一年的探索，VAST 在今年 12 月已經完成了通用 3D 大模型 Tripo 的研發。

視訊加載中...

Tripo AI Fantasy: Launched，與藝術家Rui Huang共創

Tripo 基于海量 3D 高品質原生資料庫訓練，是一個數十億參數級别的 3D 大模型。得益于 VAST 在「通用 3D 大模型」路線上的技術探索，Tripo 在生成的品質、速度、成功率上行業領先。目前，已經實作 8 秒鐘生成帶紋理 3D 網格模型，可以進入傳統管線進行二次編輯和調整。在此基礎上，可以再用5分鐘的時間進行優化，優化後的 3D 模型可以接近人類手工制作的 3D 模型品質，成功率超過 95%。

Tripo 也已經在 12 月 21 日正式上線，目前支援「文生 3D」和「圖生 3D」兩種能力。

前往 VAST 官網免費體驗 Tripo 3D 生成能力：www.tripo3d.ai

我們可以觀察到， Tripo 有着較強的泛化能力，不管是寫實、風格化任務，還是結構複雜的幻想生物，也能在短時間内完成，展現出了在 3D 創意内容方面的巨大潛力。

随着對高品質資料集的更深入利用和算法的不斷進步，Tripo 未來有望在極短時間内創造出品質媲美人工模組化水準的作品。

3D 生成，何時迎來「ChatGPT 時刻」？

在與 VAST 技術團隊的交流中，我們發現，在領先業界進行通用 3D 大模型的探索之外，這家公司在産業化探索上同樣做到了「快人一步」。

不到一年時間内，VAST 已經搭建起了針對國内外 B 端和 C 端使用者的端到端産品矩陣，并與數十家海内外遊戲、動畫、工業、雲計算等行業領軍企業在 3D 資料及 3D 内容生成等領域建立了戰略合作關系。

放眼未來，VAST 的「野心」不止于此。成立之初，這個團隊已經定下目标：讓任何人都可以成為「超級創作者」，充分實作自己的創意。

需要承認的是，目前的 AIGC 3D 技術距離目标還需要一段探索期。但在這次技術浪潮中，VAST 已經成為了從 0 到 1 的推動者之一。下一步，VAST 将攻克來自真實世界的更多難題。

在與 VAST 團隊的交流中，我們充分感受到了這種堅定的技術熱情：

「VAST 相信，當通用 3D 大模型的能力逐漸增強，使用者進行 3D 創作的門檻将不斷降低，真正的 3D 内容大爆發時代必然會到來，這就是屬于 VAST 這群年輕人的『OnePiece』。」CEO 宋亞宸表示。

目前，VAST 還在建構一個互動式 3D 内容平台，希望為全世界的專業人士和業餘愛好者打造一個共享創作、發現作品和通路定制 3D 資産的交流中心。

或許在不久之後，3D 賽道也會出現像「ChatGPT」這樣的現象級産品，而 VAST 這家年輕的中國初創公司格外值得期待。

開創全新通用3D大模型，VAST将3D生成帶入「秒級」時代

繼續閱讀

揭秘記憶之謎：艾賓浩斯遺忘曲線與思維模型撲克牌法助你成長飛躍

GPU之後，NPU再成标配，手機、PC如何承載AI大模型？

搶先看！位元組跳動破天荒！大模型驚豔亮相，價格低至99%！

3900 萬人圍觀雷軍直播試駕；馬斯克招募第二名腦機實驗患者；DeepMind 推出大模型危險性評估架構

從“天價”到“骨折價”，大模型要變天了

大模型想落地，先讓大家用得起

與億級使用者直接互動第三方AI大模型加速接入微網誌生态

訊飛星火大模型賦能，開啟虛拟人“全新意識”

當開源遇到大模型，将産生怎樣的變革？

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代

大模型價格普降，網際網路式“地盤争奪戰”再現大廠真的會虧錢嗎？

中國大模型資本往事：20位大模型局中人走上“生死牌桌”

AI大模型價格戰開打，一年決勝負？

百度首款文心大模型學習機 Z30 開售，8G +256G 售 6694 元