卷積遞歸深度學習在3D物體分類中的應用

（Convolutional-Recursive Deep Learning for 3D Object Classification）

Richard Socher, Brody Huval, Bharath Bhat, Christopher D. Manning, AndrewY. Ng

Computer Science Department, StanfordUniversity, Stanford, CA 94305, USA

摘要

3D傳感技術的最新進展使人們有可能輕松地拍攝彩色和深度資訊并存的圖檔，以提高物體識别的圖像。目前，大多數方法對于這個新的3D方式依賴于非常精心設計的特征。引入一個基于卷積和遞歸神經網絡（CNN和RNN）組合的模型，用于特征學習和RGB-D圖像分類。CNN層用于學習低水準的平移不變性的特征，然後作為多個固定樹RNN的輸入，以組成高階特征。RNN可以被看作是結合卷積，并彙集到一個高效的、分層的操作。我們的主要結果是，甚至随機權重的RNN也組成強大的特征集。我們的模型在标準RGB-D對象集上獲得了較好的藝術表現力，與其他可比的架構相比（如兩層CNN），在訓練和測試的階段能更準确、快捷地得到結果。

1．簡介

物體識别是計算機視覺中最困難的問題之一，并對于實用化家庭環境下的機器人十分重要。新的傳感技術（如Kinect）可以記錄高品質RGB和深度圖象（RGB-D）資訊，并且現在已經結合标準視覺系統在家用機器人中運用了。深度模式為複雜問題的總體目标檢測提供有用的額外資訊，由于深度資訊是不随亮度或顔色的變化而變化的，并提供了幾何線索使得可以更好地從背景中分離。目前，大多數基于RGB-D圖像的物體識别使用手工設計的特征集，如二維圖像的SIFT [2]，三維點雲的旋轉圖檔[3]，或特定的顔色，形狀和幾何特征[4，5]。

本文介紹了用于對象識别的第一卷積遞歸深度學習模型，該模型可以借鑒原始RGB-D圖像。相比近期其他3D特征學習方法[6，7]，我們的做法具有更快速度、不需要額外的輸入管道（如表面法線）、藝術性地檢測家用物品的特點。圖圖1列出了我們的做法。訓練和測試代碼在www.socher.org上可以找到。

模型采用原始的RGB和深度圖像進行分析，并首次分别從中提取特征。每一種模式首先輸入一個卷積神經網絡層（CNN，[8]），這個網絡層提供了低層特征（如邊緣）上有效的平移不變性，并且允許對象在一定程度上變形。彙集的濾波器相應随後傳送給一個遞歸神經網絡（RNN，[9]），它可以學習成分特征和部分互動作用。通過綁定權重和非線性的多個層次，将RNN分層地投入到低維空間中。

本文也探索了計算機視覺中新的深度學習架構。之前，RNN在自然語言處理和計算機視覺[9，10]方面的工作中，（i）為每組輸入使用了不同的樹型結構，（ii）采用具有一組權重的單一RNN，（iii）限制樹狀結構為二叉樹，及（iv）通過結構的反向傳播訓練RNN[11，12]。在本文中，利用固定樹結構、輸入多個BNN和N叉樹的方法，針對這四個方面拓展基于RNN結構的可能性。由此表明，由于CNN層中固定的樹結構不僅不會降低性能，而且提高了識别速度。類似于近期的工作[13，14]可見，随着特征數量的增加，RNN模型的性能也随之提高。每種模式分層組成的RNN特征互相連接配接，作為聯合SOFTMAX分類器的輸入

圖1：模型概述：一個從RGB和深度圖像資訊中提取低層特征的單一CNN層。這兩種表示法都作為一組随機權重RNN的輸入。若幹個RNN（每個模式約100個）将特征遞歸映射到一個較低的維空間中，所有結果向量的串聯形成最終的SOFTMAX分類器特征向量。

最重要的是，經證明，随機權重的RNN也可以得到高品質的特征。到目前為止，随機權重僅被證明可用于卷積神經網絡[15，16]。由于監督訓練減少了最終SOFTMAX分類器的權重的優化，可以很快地發掘大量的RNN結構。綜上所述，得到了一個既能快速訓練，又能在測試階段高度并行的3D物體分類藝術系統。

首先，本文簡要介紹了過濾器權重及其卷積的無監督學習，由此得到低級的特征。其次，較長的描述了如何用多個随機RNN用來獲得整幅圖像的高水準特征。最後，讨論了相關工作。實驗中，定量比較了不同的模型，分析了模型的消融，描述得到Lai[2]等人的RGB-D資料集結果

2．卷積遞歸神經網絡

本節描述了建立立的CNN-RNN模型。首先，利用随機曲面的聚類使CNN過濾器進行無監督學習，然後将這些曲面轉化成CNN層。将所得低級别、平移不變的特征傳遞給遞歸神經網絡。由高階特征組成的RNN可被用于圖像分類。

2.1 CNN過濾器的無監督預訓練

根據Coates[13]等人描述的過程，學習在卷積中要使用的過濾器。首先，根據模式（RGB和深度）提取随機曲面到兩個集合中，然後對每組曲面進行規範化和白化。預處理後的曲面用簡單k-means方法進行聚類操作，圖2展示了兩種方法得到的過濾器，他們捕獲了标準邊緣和顔色特征。在深度通道應用此方法的一個結果是銳化物體邊界，這是因為物體邊界和背景較大的不連續性，雖然深度通道往往有很多噪聲，但是大部分特征依然平滑。

圖2：非監督預訓練後CNN層中k-means過濾器的可視化：（左）标準RGB過濾器（顔色顯示效果最好）捕獲邊緣和顔色。當此方法适用于深度圖象（中），由于物體邊界強烈的不連續性，所得到的過濾器具有較明顯的邊緣。與使用圖像的灰階資訊訓練得到的過濾器（右）相比，得到的結果是類似的，盡管邊緣銳化程度較小。

2.2 單層CNN

由于CNN結構具有平移不變性特點，選擇CNN生成RNN層的特征。 CNN的主要思想是，将輸入圖像卷積過濾，進而提取特征集。文中使用的單層CNN與Jarrett[17]等提出的類似，在矯正和局部對比度标準化（LCN）後包含一個卷積過程。LCN的設計靈感來自于計算神經科學，被用于在一個特征映射内對比特征以及相同空間位置的跨特征映射[17 ， 18 ，14 ] 。

将每個圖像的大小（高和寬）dI與K方形過濾器的大小dp進行卷積，每個次元大小為dI-dp+1，得到K濾波器的響應。然後用方形區域大小dl和步幅大小s取均值，彙集得到一個寬和高都等于r=(dI-dl)/s+1的響應。是以，一幅圖像通過CNN層得到的輸出X是一個K×r×r的三維矩陣。分别在顔色和深度圖像資訊中進行以上步驟。

2.3固定樹遞歸神經網絡

遞歸神經網絡[19，10]的思路是在一個樹狀結構中遞歸地應用相同的神經網絡，學習分層特征表示形式。本例中，樹的葉節點是K維向量（一張圖像切片的CNN彙集結果在所有K過濾器上重複），一共有r2個。

在我們之前的遞歸神經網絡的工作[9，10，20]中，樹的結構取決于輸入。雖然這樣做有更大的靈活性，但是對于在關聯CNN層的物體分類任務中獲得高性能是不必要的。此外，在最優樹上的搜尋大大降低了這個方法的速度，因為并行搜尋和并行化大矩陣産品不容易實作。後者可以從新的多核硬體（如GPU）中獲益匪淺。在這項工作中，重點在于設計出平衡的固定樹結構。之前的工作隻是合并了向量對，本文将RNN結構由合并向量對推廣到允許合并各層鄰向量塊。

由每個圖像的3D矩陣X∈RK×r×r開始（列是K維的），定義一個全為相鄰列向量的塊，合并為一個父向量p∈RK。為友善起見，下文隻使用方形塊，塊的大小為K×b×b。例如，如果以b=3合并一個向量組為一個塊，最終得到大小為128×3×3的塊和一張向量組結果清單（x1,…,x9）。一般情況下，在每個塊中有b2個向量，神經網絡中計算父向量的公式是

（1）

其中，參數矩陣W∈RK×b2K，f是非線性的（如tanh），由于偏置對下面的實驗沒有影響，省去這個術語。式1以相同權重W，應用于X中所有向量的塊。一般而言，有（r/b）2個父向量p組成一個新的矩陣P1。正如在矩陣X中運用公式1一樣，P1中的向量以同樣固定的權重合并成塊，形成矩陣P2。重複以上步驟直到隻剩一個父向量位置。圖3給出了一個從K×4×4合并輸出CNN及有4個子塊的RNN樹結構的例子

圖3：塊中應用遞歸神經網絡：對于每個節點，運用相同的神經網絡計算一組子向量的父向量。原始輸入矩陣是卷積合并的輸出。

目前為止，模型是非監督的。但是，最初的任務是将每個塊分類成許多對象類别。是以，選取頂層向量Ptop作為softmax分類的特征向量。為了盡量減小softmax的交叉熵誤差，可以通過遞歸神經網絡[12]和卷積層[8]反向傳播。實踐證明，該操作速度較慢，将在本文下一節中讨論其他方法。

2.4多元随機RNN

以前的工作隻使用了一個RNN，實際上可以采用3D矩陣X作為一組RNN的輸入，每N個RNN輸出一個K維向量。在通過所有RNN向前傳播後，将所有輸出串聯成N個K維向量，随後傳遞給softmax分類器。

采用RNN中W矩陣的導數需要通過結構反向傳播，實驗發現，随機權重的RNN能夠得到高品質的特征向量組，類似的結果在随機權重密切相關的CNN中也存在。在對比其他方法前，先簡要回顧一下相關工作。

3．相關工作

使用RGB-D資料進行目辨別别和場景了解一直是研究熱點，Silberman和Fergus已經發表了關于全場景了解的三維資料[21]，Koppula等人近期也整理出了室内場景分割的新資料集[4]。

如今在标準對象識别方面最常用的方法是利用基于方向直方圖設計的特征集，如SIFT、SURF和紋理基元，将他們作為分類器（如随機森林）的輸入。盡管這些方法有成功的方面，但是，也有一些缺點：如隻能适用于一種模式（SIFT隻能用于灰階圖像）；不容易适應新的模式，如RGB-D或不同的圖像域。本研究嘗試以下方法：通過顔色直方圖修改這些特征以适應彩色圖像，幹脆将SIFT方法拓展到深度通道中[2]。核心描述符[5]作為一種更先進的方法可以概括這些想法，并且可以結合幾個重要的RGB-D圖像特性（如大小、三維形狀和深度邊緣）。

另一條相關工作線是對象分類中的空間錐體，特别是與核心比對的錐體[24]。相似之處在于，設計的模型也學習了分層圖像表示，可用于對象分類。

上述問題的另一種解決方案，是（在其他方面）采用無監督的特征學習方法[25，26，27]，這個方法在對象識别方面已經取得了很大的進展。目前，許多深度學習的方法是從RGB圖像中學習得特征，幾乎沒有研究三維圖像的深度結構。最近，Blum等[6]在RGB-D資料中引入卷積k-means描述符（CKM）。他們采用了SURF相關的點，與[28]類似以k-means學習特征。在用非監督方法學習特征方面，他們的工作跟我們是類似的。

Bo[7]等最近的工作，是采用基于稀疏編碼的非監督學習的特征，從包括灰階強度、RGB、深度标量和表面法線的8個不同管道中學習詞典。這些特征随後用于包含兩層的分層比對追蹤，每層由三個子產品：批處理正交比對追蹤，合并最大錐體和标準化對比度。最後得到一個非常大的用于分類的特征向量，這個向量的次元大小是188300。

最後，Pollack[19]和Socher[10]等為在實驗環節中定量對比，引入遞歸自編碼。遞歸神經網絡已經被用于全場景分割[9]，但是他們使用的是手工設計特征。Farabet[29]等也在場景分割中引入了一個模型，這個模型基于多标度卷積神經網絡和學習特征表示形式。

4．實驗

實驗基于Lai等人[2]最近的RGB-D資料集。其中，有51個不同類别的家用物品和300個這些類别的執行個體，每個對象執行個體從3個不同的角度成像，每個執行個體獲得将近600幅圖像，資料集包含一共207920張RGB-D圖像。在600張圖像中以每5幀的間隔進行二次抽樣，對每個執行個體彙總成120張圖像。

此項工作注重于類别識别的問題，采用與[2]相同的設定以及他們所提供的10個随機分割。所有的動向在一個單獨的分割上進行，模型消融在這10個分割中的一個中進行。對于每個分割的測試集，從每個類中列舉一個對象，形成51個測試對象，每個對象有大約120張獨立分類的圖像，由此産生34000張圖像來訓練模型。在圖像被傳遞給CNN前，調整其大小為dI=148。

在所有實驗中對CNN過濾器都使用非監督預訓練，在從每個分塊的訓練集中随機抽取的500000張圖像曲面中運用k-means。在非監督預訓練前，分别将原值減去均值并除以方差，對9×9×3的RGB曲面和9×9的深度曲面标準化。此外，原始圖像采用ZCA白化去除像素間的關聯和備援特征[30]。執行一個有效的卷積包含K=128的過濾器組和長寬都為9的過濾器。執行合并界限為dl=10、步長為s=5的均值合并，每張圖像得到一個大小為128×27×27的三維矩陣。

每個RNN在空間上都有大小為3×3的不重疊的子集，由此，在樹的每個深度上可得：X∈R128×27×27到P1∈R128×9×9到P2∈R128×3×3最終得P3∈R128。在每種模式中用随機采用128個原始RNN。通過串聯最終維數為2×1282=32768的特征集，将RGB和深度資訊組合起來。

4.1 與其他方法的對比

表1：對比本文的CNN-RNN方法與其他多個相關方法。我們的方法優于出來Bo等人的其他方法，Bo等的方法利用了一個額外輸入模式：表面法線。

在本節中，對比在文獻中的其他相關模型。表1列舉了主要的精度資料，與[2，5，6，7]釋出的結果對比，Bo[5]等人最近的工作探讨了許多特征（包括3D形狀、對象的實體大小、深度邊緣、梯度、PCA核心、局部二進制模式等）上的多核心描述符。相反，我們實驗中的特征是從原始顔色和深度圖像中通過非監督學習得到的。Blum等人[6]的實驗中也學習了特征描述符，并且稀疏地應用于感興趣的方面。我們的方法優于除了Bo等[7]以為的其他方法，與我們的方法相比，他們的方法在需要5倍于我們記憶體大小的最終特征集的基礎上，比我們的方法效果大了0.7%。他們在RGB和深度通道的基礎上另外使用了表面發現和灰階資訊，并且用基于稀疏編碼的非監督方法學習這些輸入資訊。就大輸入維數的速度而言，稀疏編碼不能很好地擴充[31]。

4.2 模型分析

通過幾個消融和模型的變化，分析本文的模型。除非另有說明，本研究選取一個分塊作為實驗對象，重點在于RGB圖像和随機權重的RNN。

兩層CNN：圖4（左）展示了我們的CNN-RNN模型和一個兩層CNN的對比。對比了以前推薦的CNN體系和一個用k-means訓練的過濾器，在兩種設定中，CNN-RNN優于兩層CNN。因為它涉及的矩陣乘法更少，在實驗中，與一個第二層的CNN層比較大約快了4倍。然而，我們方法中的主要瓶頸仍然在第一層的CNN中。兩種模型均可受益于快速GPU的實作[32，33]。

無條件權重的樹型結構神經網絡：圖4（左）同樣給出了當随機RNN的權重在樹中各層中是無條件情況下的結果（TNN）。換言之，在樹的不同深度中使用不同的随機權重。由于權重仍然與各層相關聯，這樣的設定可看作步長大小與過濾器大小相等的卷積。由于在技術性這不是一個遞歸神經網絡，是以，稱之為樹神經網絡（TNN）。雖然這樣大大增加了參數，降低了性能，但是事實上，在RNN中配置設定權重是有益的。

訓練後的RNN：圖4（左）中展示了另一個對比，多個随機RNN和單個訓練後的RNN。對RNN訓練程式、目标（如同[10]所示，在各層中添加重建成本；在各層或隻在頂端節點中分類）、正規化、層的大小進行仔細的交叉驗證。與128個随機RNN（差異2%）相比，最佳性能仍然存在缺陷，訓練時間也更長一些。随着更有效的基于GPU的實施，訓練多個RNN有可能實作。

随機RNN數：圖4（中）表明，增加随機RNN數目可以提高性能，在這個資料集上，最後當數目取64時趨于穩定。

RGB與深度的組合及特征集：圖4（右）表面，從RNN中将RGB和深度特征集結合起來可以提高性能。兩種模式互相補充，産生的特征集具有充分的獨立性，因而，分類可以從他們的組合中獲益。

像素和深度上的全局自編碼：本實驗探究了相比單純使用原始像素的單層特征集，使用CNN-RNN方法是否能得到更好的特征集。例如Coates and Ng [28]等人的方法展示了一個單一廣泛層的顯著效果。全局自編碼隻達到了61.1%（在93.3%的訓練精度下是過拟合的）。本研究對隐藏單元和稀疏參數的數目進行了交叉驗證。結果表明，在特征表示形式中，與單層自編碼相比，随機遞歸神經網絡可以清晰地捕捉到更多的相關類結構。

圖4：開發塊的模型分析。左：不同預訓練下兩層CNN和CNN-RNN的對比（[17]和[13]）。TNN是在各層中權重是無條件的樹型結構神經網絡，tRNN是經過方向傳播訓練的單個RNN（詳情見本文）。我們模型在随機RNN的情況下達到最優性能（以*标記）。中：增加RNN數量能夠提高性能。右：在開發塊上組合兩種模式可以将性能提高到88%。

4.3 誤差分析

圖5：CNN-RNN模型的混淆矩陣。y軸表示真實标簽，x軸表示預測标簽。大多數錯誤分類集中在(a)大蒜和蘑菇(b)食品盒和紙巾。

圖5展示了所有51類的混淆矩陣。大多數模型的混淆矩陣合理地表明，在原始像素和深度資訊中遞歸深度學習方法可以獲得高品質的特征。我們最後分類錯誤的唯一一個類是蘑菇，因為它外觀跟大蒜很像。

圖6展示了4對容易混淆的類。大蒜和蘑菇在外觀和顔色上都很像。礦泉水瓶和洗髮乳瓶在分類上也是有問題的，因為紅外傳感器不能從表面上正确反映。

圖6：混淆類例子：洗髮乳瓶和水杯，蘑菇被标為大蒜，由于形狀和顔色類似棒球投手被分類為帽子，白色棒球帽在某個角度被分為紙巾盒

5．結論

本文基于卷積和遞歸神經網絡引入了一個新的模型。不同于以前的RNN模型，我們固定了樹的結構，允許合并多個向量，利用了多個RNN權重，保持參數的初始化是随機的。這個結構支援并行化和高速，結構優于兩層CNN，并且在沒有任何外部特征的情況下獲得了很好的性能（state of the art）。本文還論證了卷積和遞歸特征學習在深度圖像新領域下的适用性。

緻謝

感謝Stephen Miller and Alex Teichman在三維圖像上的建議，Adam Coates的圖像預處理提示，Ilya Sutskever和Andrew Maas的紙上意見。我們感謝匿名評論有見地的意見。Richard是由微軟研究院的博士研究所學生獎學金支援的。該作者特别感謝美國國防部進階研究計劃局（DARPA）的支援機讀計劃在美國空軍研究實驗室（AFRL）主合同号no. FA8750-09-C-0181，和DARPA的合同編号FA8650-10-C-7020的深度下的學習計劃。任何意見，結果，結論或建議，在這份材料中隸屬與作者，不反映DARPA，美國空軍研究實驗室，或美國政府的觀點。

參考文獻

[1] M. Quigley, S. Batra, S. Gould, E. Klingbeil, Q. Le, A.Wellman, andA.Y. Ng. High-accuracy 3D sensing

for mobile manipulation: improvingobject detection and door opening. In ICRA, 2009.

[2] K. Lai, L. Bo, X. Ren, and D. Fox. A Large-Scale HierarchicalMulti-View RGB-D Object Dataset. In

ICRA, 2011.

[3] A. Johnson. Spin-Images: A Representation for 3-D Surface Matching. PhD thesis, Robotics Institute,

Carnegie Mellon University, 1997.

[4] H.S. Koppula, A. Anand, T. Joachims, and A. Saxena. Semantic labelingof 3d point clouds for indoor

scenes. In NIPS, 2011.

[5] L. Bo, X. Ren, and D. Fox. Depth kernel descriptors for objectrecognition. In IROS, 2011.

[6] M. Blum, J. T. Springenberg, J. Wlfing, and M. Riedmiller. A LearnedFeature Descriptor for Object

Recognition in RGB-D Data. In ICRA, 2012.

[7] L. Bo, X. Ren, and D. Fox. Unsupervised Feature Learning for RGB-D BasedObject Recognition. In

ISER, June 2012.

[8] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-basedlearning applied to document recognition.

Proceedings of the IEEE, 86(11), November 1998.

[9] R. Socher, C. Lin, A. Y. Ng, and C.D. Manning. Parsing Natural Scenesand Natural Language with

Recursive Neural Networks. In ICML, 2011.

[10] R. Socher, J. Pennington, E. H. Huang, A. Y. Ng, and C. D. Manning.Semi-Supervised Recursive

Autoencoders for Predicting Sentiment Distributions. In EMNLP, 2011.

[11] C. Goller and A. K¨uchler. Learning task-dependent distributedrepresentations by backpropagation

through structure. In Proceedings of the International Conference on NeuralNetworks (ICNN-96), 1996.

[12] R. Socher, C. D. Manning, and A. Y. Ng. Learning continuous phraserepresentations and syntactic parsing

with recursive neural networks. In Proceedings of the NIPS-2010 DeepLearning and Unsupervised

Feature Learning Workshop, 2010.

[13] A. Coates, A. Y. Ng, and H. Lee. An Analysis of Single-Layer Networksin Unsupervised Feature Learning.

Journal of Machine Learning Research - Proceedings Track: AISTATS, 2011.

[14] Q.V. Le, M.A. Ranzato, R. Monga, M. Devin, K. Chen, G.S. Corrado, J.Dean, and A.Y. Ng. Building

high-level features using large scale unsupervised learning. In ICML, 2012.

[15] Kevin Jarrett, Koray Kavukcuoglu, Marc’Aurelio Ranzato, and YannLeCun. What is the best multi-stage

architecture for object recognition? In ICCV, 2009.

[16] A. Saxe, P.W. Koh, Z. Chen, M. Bhand, B. Suresh, and A. Y. Ng. Onrandom weights and unsupervised

feature learning. In ICML, 2011.

[17] K. Jarrett and K. Kavukcuoglu and M. Ranzato and Y. LeCun. What isthe Best Multi-Stage Architecture

for Object Recognition? In ICCV. IEEE, 2009.

[18] N. Pinto, D. D. Cox, and J. J. DiCarlo. Why is real-world visualobject recognition hard? PLoS Comput

Biol, 2008.

[19] J. B. Pollack. Recursive distributed representations. ArtificialIntelligence, 46, 1990.

[20] R. Socher, E. H. Huang, J. Pennington, A. Y. Ng, and C. D. Manning.Dynamic Pooling and Unfolding

Recursive Autoencoders for Paraphrase Detection. In NIPS. MIT Press, 2011.

[21] N. Silberman and R. Fergus. Indoor scene segmentation using astructuredlight sensor. In ICCV -

Workshop on 3D Representation and Recognition, 2011.

[22] H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool. Speeded-Up RobustFeatures (SURF). Computer Vision

and Image Understanding, 110(3), 2008.

[23] A. E. Abdel-Hakim and A. A. Farag. CSIFT: A SIFT descriptor withcolor invariant characteristics. In

CVPR, 2006.

[24] K. Grauman and T. Darrell. The Pyramid Match Kernel: DiscriminativeClassification with Sets of Image

Features. ICCV, 2005.

[25] G. Hinton and R. Salakhutdinov. Reducing the dimensionality of datawith neural networks. Science,

313(5786), 2006.

[26] Y. Bengio. Learning deep architectures for AI. Foundationsand Trends in Machine Learning, 2(1), 2009.

[27] M. Ranzato, F. J. Huang, Y. Boureau, and Y. LeCun. Unsupervisedlearning of invariant feature hierarchies

with applications to object recognition. CVPR, 0:1–8, 2007.

[28] A. Coates and A. Ng. The Importance of Encoding Versus Training withSparse Coding and Vector

Quantization . In ICML, 2011.

[29] Farabet C., Couprie C., Najman L., and LeCun Y. Scene parsing withmultiscale feature learning, purity

trees, and optimal covers. In ICML, 2012.

[30] A. Hyv¨arinen and E. Oja. Independent component analysis: algorithmsand applications. Neural Netw.,

13, 2000.

[31] J. Ngiam, P. Koh, Z. Chen, S. Bhaskar, and A.Y. Ng. Sparse filtering.In NIPS. 2011.

[32] D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, and J.Schmidhuber. Flexible, high performance

convolutional neural networks for image classification. In IJCAI, 2011.

[33] C. Farabet, B. Martini, P. Akselrod, S. Talay, Y. LeCun, and E.Culurciello. Hardware accelerated convolutional neural networks for syntheticvision systems. In Proc. International Symposium on Circuits andSystems (ISCAS’10), 2010.

(三)卷積遞歸深度學習在3D物體分類中的應用(譯文)卷積遞歸深度學習在3D物體分類中的應用（Convolutional-Recursive Deep Learning for 3D Object Classification）

卷積遞歸深度學習在3D物體分類中的應用

（Convolutional-Recursive Deep Learning for 3D Object Classification）

繼續閱讀

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡