天天看點

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

作者:将門創投

如何設計一個具有豐富語義的表征成為3D表征學習。

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

論文連結:https://arxiv.org/abs/2212.08320

代碼連結:

https://github.com/RunpeiDong/ACT

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

一、引言

在過去的幾年裡,随着 Transformer 的普遍應用,NLP、2D vision 和圖文多模态在表征學習和預訓練領域經曆了井噴式的發展,大量的 foundational models [1] 被提出,如 BERT [2]、MAE [3] 和 CLIP [4] 等等。但在 3D 表征學習中,該領域還相對落後,這讓我們思考:

What makes 3D representation learning more challenging than 2D vision or NLP?

我們認為是以下三點導緻的:

  • Architecture Disunity

    像PointNet這樣的開創性架構隻能對3D坐标進行編碼,而不适用于NLP和2D視覺中常用的掩蔽去噪自動編碼(DAE)。Transformers現在已經縮小了這一體系結構差距,這使得能夠跨所有模态格式進行統一表示,并為擴充DAE以實作3D帶來了巨大潛力 [5, 6].

  • Data Desert

    與圖像和自由形式的語言相比,收集和标注3D資料更加困難,3D領域存在着嚴重的資料荒漠問題。這激發了跨模态Knowledge Transfer的使用。最近的一些工作通過與其他模态進行聯合訓練以獲得更有效的對比 [7],或直接圖像資料上預訓練的2D Transformers進行微調 [8]。

  • Pattern Difference
ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

上表顯示了語言、2D 圖像和 3D 點雲的資料模式比較,我們可以看到:

  • 與語言不同,3D 點雲通常是非結構化的,并且包含稀疏語義,這導緻BERT風格的 Tokenizer 在點雲上的離散識别學習更加困難。
  • 2D 圖像規則地分布在網格上,而 3D 點雲從物體表面不規則地采樣,這種結構差異導緻難以建構跨模态學習中雙方的局部語義的對應關系。

是以,如何設計一個具有豐富語義的表征成為 3D 表征學習的關鍵。

二、預備知識

2.1 基于點雲的Transformer

與 2D 圖像相比,點雲是無序的,是以很難實作固定位置的 patch embeding。一般的方法是,使用最遠點采樣(FPS)擷取位置中心用于位置編碼,在各位置中心進行 KNN 聚類以擷取局部 patch,通過一個輕量級的 pointnet 擷取局部 embeding,進而使用标準的 Transformer 進行特征提取。

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

2.2 知識蒸餾——掩碼資料模組化的統一視角

掩碼資料模組化可視為 denoising autoencoders(DAE)的一種特殊情況,他通過 delete token [9] 或将部分 token 替換為 [Mask] Token的方式 [5] 對原始資料進行擾動,并将完整資料或經過預處理的特征作為重建目标,在形式上可以視為一種特殊的帶 mask 的蒸餾。在這種訓練目标的設定下,模型将學習到 token 之間的一緻性或相關性。用公式的方法書寫,即為:

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

其中,

為 mask 訓示函數,

表示某種度量函數,

分别表示學生模型、教師模型的 Encoder 和 Decoder。

表示為

為哈達瑪積。這種表示成功将各種掩碼資料模組化方法變成一個統一的形式。舉例來說,對于語言 BERT 或者圖像 BEiT,教師模型為一個預訓練好的文本 tokenizer 或離散 VAE 圖像 tokenizer,而 decoder 變成了一個非線性投影的 softmax,度量函數則變成 Cross-Entropy 函數;對于MAE,教師模型變成一個同一映射(identity mapping),且 encoder 隻接受可見 token 輸入,度量函數變成 MSE 距離或者 3D 上的 Chamfer 距離。

三、方法

基于上述分析,我們提出 ACT,将跨模式教師訓練為自編碼器,利用經過 2D 圖像或自然語言預訓練的基礎 Transformers 作為跨模态教師,擁有深厚的知識和強大的表達能力。ACT 的 pipeline 如下圖所示:

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

第一階段:我們将經過預訓練的 2D 或語言 Transformer 遷移為 3D 自編碼器,通過域遷移的方式,使用 prompt tuning 将跨模态知識遷移至 3D 幾何結構。我們當機了預訓練的 2D 或語言 Transformer block,類似 VPT [10] 或 prefix tuning [11] 的參數高效微調方法,僅訓練 prompt token、3D dVAE 的 encoder 和 decoder。第一階段的訓練 loss 為:

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

其中,

表示離散 3D dVAE tokenizer,

為 dVAE decoder 輸出的離散 token,

以自動編碼器的方式重建輸入點雲。第二階段:我們将訓練好的 3D 自編碼器作為 Tokenizer,用于通過掩蔽模組化提取 3D 點雲 Transformer 學生的潛在特征,将 AutoEncoder 中的跨模态知識通過掩碼資料模組化向學生網絡進行蒸餾,即作為教師網絡,

作為學生網絡。第二階段的訓練 loss 為:

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

其中,我們使用

作為 teacher 和 student 的度量 loss。通過這種方式,3D 中的資料荒漠問題得到了緩解。Transformer 被用作通用的 3D 學習器,這縮小了在掩蔽模組化表示學習方面的架構差距。通過簡單地以自監督的方式将預訓練的 Transformer 調整為 3D 資料的自動編碼器,Transformer 可以使用 3D 點雲并将其編碼為具有豐富語義的表示。

為了儲存和繼承預先訓練的基礎知識,在該過程中使用了 prompt tuning。是以,我們的 ACT 使預訓練的 Transformers 自發地跨模态教師,為 3D 點雲提供語義豐富的掩蔽模組化目标。注意,Transformer 可以編碼任意長度的 embedding,是以我們可以自由的遷移語言或 2D Transformer blocks,直接接受 3D 的 embedding 序列進行特征編碼。

四、實驗

下表展示了我們在 ScanObjectNN 上了 classification 性能,包括 Full-tuning、Liner 和 MLP-3 三種配置,我們的 ACT 在遷移到 ScanobjectNN 分類任務的各種配置下均有大幅提升,這證明了跨模态教師作為自編碼器的效果。

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

下表展示了我們在 ModelNet40 上了 Few-Shot 性能:

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

我們還在 Scene Level 中進行了預訓練測試,我們以 3DETR [12] 作為模型和 baseline,ACT 在 ScanNetV2上 的 3D detection 效果如下表所示,可以看到 ACT 依然具有顯著的性能提升。

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

五、讨論

5.1 How does the 2D vision transformer understand 3D point clouds?

為了更好地了解 2D Transformer 如何通過 AutoEncoder 訓練了解 3D 資料,我們研究了 VIT-B 在我們的 ACT dVAE 模型中使用的位置嵌入的效果。從下表中可以觀察到:

  • 在沒有任何位置嵌入的情況下,預訓練的 VIT 仍然可以學習可傳遞的 3D 特征。我們認為,這是因為位置幾何資訊已經包含在輸入的 3D 坐标中,并且預訓練的. 2D 變換器可以純粹通過幾何特征處理 3D 資料,而沒有明确的位置提示。
  • 當使用僅具有 2D xy 平面坐标的位置嵌入時,精度顯著提高了+0.89%。我們認為,2D 位置嵌入是為了拟合當機的圖像變換器而學習的,使圖像變換器能夠以高發散性将 3D 輸入編碼到預訓練的 2D 特征空間中。
  • 對于用于位置嵌入的所有 3D 坐标,2D 圖像轉換器成功地利用了額外的坐标資訊來進行更好的特征編碼。
ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

5.2 Teacher Choice

為了了解不同 foundation model 對于 3D 預訓練的幫助,我們研究了 Vision Transformer 模型 ViT、DeiT,MLP-based 模型 ResMLP、MLPMixer,語言模型 BERT,以及 VL 模型 CLIP。結果如下圖所示,可以看到 ViT-B 取得了最佳效果,而 BERT 作為語言模型居然也帶來了非常顯著的提升。

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

5.3 Visualization

  • 3D Autoencoder. 我們比較了基于 2D Transformer 的 3D dVAE 和 Point-BERT 3D dVAE 模型的重建結果。結果表明,我們的 3D 自動編碼器可以重建物體的高品質細節。對于一些相對簡單的對象,如第二行的矩形桌子,ACT 和 Point-BERT 都可以很好地重建它們。然而,對于細節相對複雜的點雲,如第三行中的架子和扶手椅,我們的方法可以重建更具有詳細局部幾何資訊的對象。
    ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?
  • t-SNE. 為了分析 feature 在預訓練前後的分布變化,我們對預訓練模型在 ShapeNet 以及下遊模型在 ModelNet 以及 ScanObjectNN 上進行了 t-SNE mainfold 可視化,如圖所示:
    ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

六、相關工作

相關後續工作包括 ReCon:

https://arxiv.org/abs/2302.02318

以及 CLIP-FO3D:

https://arxiv.org/abs/2303.04748

作者:董潤沛

Illustration by IconScout Store from IconScout-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門技術社群以及。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

ICLR 2023 | 2D視覺或語言Foundation Model可以幫助3D表征學習嗎?

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀