天天看點

【論文筆記】PCT: Point Cloud Transformer

這是清華大學在2021年3月上傳的關于将transformer應用在點雲上的一篇論文。與其同期的還有兩篇相似論文。

本篇論文作者認為transformer本身具有很好的順序不變性,而且在二維視覺任務上表現出了很好的效果,理論上可以代替卷積操作,是以transformer能夠很好的應用在點雲資料上。

一、PCT的初始版本

【論文筆記】PCT: Point Cloud Transformer

相比于文本資訊,點雲特征中包含了位置特征,是以可以省略位置資訊的插入。

對于一個點雲P:N×D,N代表點的個數,D代表特征維數。首先經過一個Input Embedding子產品,是由兩層共享權重的級聯的LBR組成,每層的輸出次元都是De(LBR指Linea、BN和Relu),文中設定De=128。

接下來是四層self-attention子產品,在初始版本,PCT的SA和transformer是相同的:

【論文筆記】PCT: Point Cloud Transformer

其中Wq、Wk和Wv代表三個Linear層,Fin:N×De。

【論文筆記】PCT: Point Cloud Transformer

得到結果再與V相乘,得到Fsa,最後再經過一層LBR得到SA子產品的最終輸出:

【論文筆記】PCT: Point Cloud Transformer

二、PCT

相比于PCT的初始版本,捉着對其進行了一些改動。

首先是在self attention中,作者放棄了除以D的次元,而是直接進行softmax之後,對權重再進行一次計算:

【論文筆記】PCT: Point Cloud Transformer

這個改動的意義是增大權重值,以減少噪音的擾動。

作者參考了圖的譜域圖卷積的拉普拉斯算子,L=D-E。是以作者修改了最後對Fsa的處理:

【論文筆記】PCT: Point Cloud Transformer

修改後的SA子產品:

【論文筆記】PCT: Point Cloud Transformer

三、局部資訊

上面的處理經過多個LBR層提取到了全局特征,但是仍然沒有考慮局部特征。作者參考了PointNET++和DGCNN,在進行FPS采樣和knn_group之後,将局部的相對特征和中心特征送入LBR中進行訓練,最後經過Maxpooling得到最終輸出:

【論文筆記】PCT: Point Cloud Transformer

而對于分割和法向量估計任務來說,是對每個點進行分類,是以放棄了采樣,輸出和輸入的點一樣。而對于分類任務,在兩個SG内縮小到512和256個點。

雖然網絡對于大型點雲的處理效果有待商榷,但是在ModelNet40上取得了很好的效果,分類準确率達到了93.2%,分割效果和PointCNN不相上下。為了提高更好的效果,可以增加SG的層數。

繼續閱讀