【論文筆記】PCT: Point Cloud Transformer

2023-03-18 16:42:57

這是清華大學在2021年3月上傳的關于将transformer應用在點雲上的一篇論文。與其同期的還有兩篇相似論文。

本篇論文作者認為transformer本身具有很好的順序不變性，而且在二維視覺任務上表現出了很好的效果，理論上可以代替卷積操作，是以transformer能夠很好的應用在點雲資料上。

一、PCT的初始版本

相比于文本資訊，點雲特征中包含了位置特征，是以可以省略位置資訊的插入。

對于一個點雲P：N×D，N代表點的個數，D代表特征維數。首先經過一個Input Embedding子產品，是由兩層共享權重的級聯的LBR組成，每層的輸出次元都是De（LBR指Linea、BN和Relu），文中設定De=128。

接下來是四層self-attention子產品，在初始版本，PCT的SA和transformer是相同的：

【論文筆記】PCT: Point Cloud Transformer

其中Wq、Wk和Wv代表三個Linear層，Fin：N×De。

【論文筆記】PCT: Point Cloud Transformer

得到結果再與V相乘，得到Fsa，最後再經過一層LBR得到SA子產品的最終輸出：

【論文筆記】PCT: Point Cloud Transformer

二、PCT

相比于PCT的初始版本，捉着對其進行了一些改動。

首先是在self attention中，作者放棄了除以D的次元，而是直接進行softmax之後，對權重再進行一次計算：

【論文筆記】PCT: Point Cloud Transformer

這個改動的意義是增大權重值，以減少噪音的擾動。

作者參考了圖的譜域圖卷積的拉普拉斯算子，L=D-E。是以作者修改了最後對Fsa的處理：

【論文筆記】PCT: Point Cloud Transformer

修改後的SA子產品：

【論文筆記】PCT: Point Cloud Transformer

三、局部資訊

上面的處理經過多個LBR層提取到了全局特征，但是仍然沒有考慮局部特征。作者參考了PointNET++和DGCNN，在進行FPS采樣和knn_group之後，将局部的相對特征和中心特征送入LBR中進行訓練，最後經過Maxpooling得到最終輸出：

【論文筆記】PCT: Point Cloud Transformer

而對于分割和法向量估計任務來說，是對每個點進行分類，是以放棄了采樣，輸出和輸入的點一樣。而對于分類任務，在兩個SG内縮小到512和256個點。

雖然網絡對于大型點雲的處理效果有待商榷，但是在ModelNet40上取得了很好的效果，分類準确率達到了93.2%，分割效果和PointCNN不相上下。為了提高更好的效果，可以增加SG的層數。

繼續閱讀