天天看點

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

Hinton要打造下一代CNN的Capsule細節終于通過一篇論文釋出。本文帶來詳細介紹。此前,Hinton曾讨論了用“capsule”作為下一代CNN的理由。他解釋了“标準”的卷積神經網絡有什麼問題?結構的層次太少,隻有神經元、神經網絡層、整個神經網絡。是以,我們需要把每一層的神經元組合起來,形成一個組,并裝到“艙”(capsule)中去,這樣一來就能完成大量的内部計算,最終輸出一個經過壓縮的結果。“艙”(capsule)的靈感來自大腦皮層中的微柱體(mini-column)。Hinton要革CNN的命,要知道,CNN的代表人物之一,可是大名鼎鼎的Yann LeCun。

Hinton的“膠囊”(Capsule)終于來了。從2011年就開始說的概念,現在終于實作了,而且效果看上去很不錯。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

可以看出,capsule在參數較少的情況下,在NORB基準上實作了更好的效果,超越了CNN,後者還需要更多處理。

我們先來看這篇論文,摘要是這麼寫的:

膠囊是一組神經元,其活動向量表示特定類型的實體(例如物體或物體部分)的執行個體化參數。我們使用活動向量的長度來表示實體存在的機率及其表示執行個體參數的方向。一級活性膠囊通過轉化基質對進階膠囊的執行個體化參數進行預測。當多個預測相同時,較進階别的膠囊會被激活。我們顯示了,有鑒别(discriminatively)訓練的多層膠囊系統在MNIST上實作了最先進的性能,并且在識别高度重疊的數字時比卷積網明顯更好。為了達到這些結果,我們使用了一個疊代的路由協定機制:一個較低級别的膠囊希望将其輸出發送到更進階别的膠囊,其活動向量具有大的标量積,預測來自較低級的膠囊。

具體看,作者在論文中介紹,活動膠囊内神經元的活動表示圖像中存在的特定實體的各種性質。這些屬性可以包括許多不同類型的執行個體化參數,例如姿勢(位置,大小,方向),形變,速度,反照率,色相,紋理等。一個非常特殊的屬性是圖像中執行個體化實體的存在。表示存在的一個方法是使用一個單獨的邏輯單元,其輸出是實體存在的機率。在本文中,我們探索一個有趣的替代方法,即使用執行個體化參數向量的總長度來表示實體的存在并強制向量的方向來表示實體的屬性。我們確定膠囊的矢量的輸出不超過1。

膠囊的輸出是矢量,是以可以使用強大的動态路由機制來確定膠囊的輸出被發送到上層中的适當母體。最初,輸出被路由到所有可能的父母,但是通過将總和為1的系數縮小。對于每個可能的父代,膠囊通過将其自身的輸出乘以權重矩陣來計算“預測向量”。如果該預測向量具有輸出的大标量積可能的父母,則存在自上而下的回報,這具有增加該父母的耦合系數并減少其他父母的效果。這增加了膠囊對該親本的貢獻,進而進一步增加了膠囊預測的标量積與父母的輸出。

這種類型的“按協定路由”應該比通過max-pooling實作的最原始的路由更有效,這允許一層中的神經元忽略下面層中本地池中最活躍的特征檢測器。論文也展示了動态路由機制是實作分割高度重疊對象所需的“解釋”的有效方式。

卷積神經網絡(CNN)使用學習特征檢測器的翻譯副本,這使得它們能夠将在圖像中的一個位置處獲得的良好權重值的知識轉換為其他位置。這已經證明在圖像解釋方面非常有幫助。即使我們用矢量輸出膠囊替代CNN的标量輸出特征檢測器,并且通過協定來最大限度地合并,我們仍然希望在空間上複制學習的知識,是以我們讓最後一層膠囊是卷積的。與CNN一樣,我們制作更進階别的膠囊可以覆寫較大的圖像區域,但與max-pooling不同,我們不會丢失該區域内實體精确位置的資訊。對于低級膠囊,位置資訊是由膠囊活動的“地點編碼”。當我們上升層級越來越多,位置資訊在膠囊的輸出向量的實值分量中被“速率編碼”(rate-coded)。這種從地位編碼到速率編碼的轉變與進階别膠囊代表具有更多自由度的更複雜實體的事實相結合,這表明膠囊的維數在更新時應該也在增加。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

上圖是論文中介紹的膠囊——簡單的CapsNet的結構。一個CapsNet共有3層,兩個卷積層和一個全連接配接層。

30年來,最先進的語音識别使用具有高斯混合的隐馬爾可夫模型作為輸出分布。這些模型在小型計算機上容易學習,但是它們具有緻命的表征限制:與使用分布式表示的循環神經網絡相比,它們使用的一個n表示指數級無效。要将HMM目前為止已經生成的字元串的資訊量加倍,我們需要将隐藏節點的數量做指數級增加。對于一個循環網絡,我們隻需要将隐藏神經元數量加倍就行了。

現在卷積神經網絡已經成為物體識别的主要方法,是以詢問是否存在可能導緻其死亡的任何指數低效率是有道理的。一個好的候選人是卷積網絡将概念化到新觀點的困難。處理翻譯的能力是建立在,但是對于仿射變換的其他次元。我們必須在網格上的複制特征檢測器之間選擇指數級與維數,或以類似的指數方式增加标記的訓練集的大小。

膠囊(Hinton等人[2011])通過将像素強度轉換為識别片段的執行個體化參數的向量來避免這些指數低效,然後将變換矩陣應用于片段以預測較大片段的執行個體化參數。學習編碼部分和整體之間的内在空間關系的轉換矩陣構成了視角不變的知識,自動将其概括為新觀點。

膠囊作出非常強的代表性假設:在圖像的每個位置,膠囊代表的實體類型至多為一個執行個體。這種假設是被稱為“擁擠”的知覺現象(Pelli et al。[2004])所驅動,消除了限制問題(Hinton [1981]),并允許一個膠囊使用分布式表示(其活動向量)進行編碼在給定位置的該類型的實體的執行個體化參數。

用“capsule”作為下一代CNN的理由

此前,在一次演講中, Hinton讨論了用“capsule”作為下一代CNN的理由。

他解釋了 “标準”的卷積神經網絡有什麼問題?結構的層次太少,隻有神經元、神經網絡層、整個神經網絡。是以,我們需要把每一層的神經元組合起來,形成一個組,并裝到“艙”(capsule)中去,這樣一來就能完成大量的内部計算,最終輸出一個經過壓縮的結果。“艙”(capsule)的靈感來自大腦皮層中的微柱體(mini-column)。

CNN的代表人物是Yann LeCun,是以這也可以看成是兩位大神在深度學習觀點上的一次正面交鋒。新智元帶來最全面的介紹:

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

2017年8月17日,Hinton在加拿大多倫多菲爾茲研究所開講,主題是《卷積神經網絡有哪些問題》,這是加拿大新成立的“向量研究院”(Vector Institute)2017-2018機器學習的發展和應用課程的一部分。

2017年3月30日,Vector Institute宣布成立,Hinton是這一機構的首席科學顧問。釋出會上Vector 方面表示将緻力于人工智能的前沿研究,專注在機器學習和深度學習領域的變革性研究。該研究院将與學術機構、孵化器、加速器、初創企業以及大公司展開合作,推動加拿大人工智能的研究及商業化應用。

卷積神經網絡(Convolutional Neural Network, CNN)是一種前饋神經網絡,它的人工神經元可以響應一部分覆寫範圍内的周圍單元,對于大型圖像處理有出色表現。

卷積神經網絡的集大成者是Yann LeCun,現Facebook 人工智能實驗室的主管,它被業界譽為“卷積神經網絡之父”。在本次演講中,Hinton也多次提到了LeCun的觀點,提到兩人在學術上的不同觀點。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

在本次演講中, Hinton讨論了用“capsule”作為下一代CNN的理由。

一個卷積神經網絡(CNN)或者神經元隻有一個輸出AND,在處理兩個輸入向量時做得不好。一個“capsule”是一個多值描述符号,對應輸入向量中的一個特征。

Hinton在開場白中說:“在中國,有超過1萬名研究所學生在研究神經網絡”,但是這裡面有一個誤區,他說:“神經網絡與大腦的關系不大,它們雖然是受到大腦啟發的,但是因為這是我們手動搭建的,大腦是一個完全不同的架構,并且更高效。”

卷積神經網絡有什麼問題?

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

“标準”的卷積神經網絡有什麼問題?

結構的層次太少:神經元、神經網絡層、整個神經網絡

我們需要把每一層的神經元組合起來,形成一個組,并裝到“艙”(capsule)中去,這樣一來就能完成大量的内部計算,最終輸出一個經過壓縮的結果。

“艙”(capsule)的靈感來自大腦皮層中的微柱體(mini-column)。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

“艙”表示的是什麼?

每一個“艙”表示的是它所檢測到的類型的一個多元實體的存在和執行個體化參數。

比如,在視覺通道上,一個“艙”會檢測到物體的具體對象的類型。

一個“艙”會輸出兩個東西:

被呈現的對象可能的分類;

對象的大概狀态,包括位置、朝向、大小、變形、體積和顔色等等。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

“艙”可以完成同步過濾(filtering)

一個典型的“艙”從下一層的“艙”中接收多元的預測向量,并且尋找一個更緊緻的預測群(cluster)。

如果找到了一個一個更緊緻的預測群(cluster),它會輸出:

一個高機率,即某一類型的實體存在在這個區間

群的引力中心,也就是實體的大概狀态

這種方法在過濾噪音上做得非常好,因為高次元的一緻性的發生并不是偶然。

它比一般的“神經元”表現得要好很多。

當下,LeCun和幾乎所有人都在用的對象識别有什麼問題?

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

當下用于對象識别的方法:

Convnets(卷積網)使用多層學習到的特征檢測器。(這一點很好)

在卷積網中,特征的檢測是局部的,每一種類型的檢測器被複制到整個空間中。(這一點很好)

在卷積網中,層次越高,特征檢測的空間領域變得越大。(這一點很好)

特征提取層與次抽樣層交叉存取,将相同類型的相鄰特征檢測器的輸出彙集到一起。(這是問題所在)

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

将複制的特征檢測器的輸出進行結合的動機

池化在每一層都會給予一個小量的轉換變量

最活躍的特征檢測器的精确位置會丢失

可能,這也是ok的,如果池化堆疊很多次或者如果特征對其他特征的相對位置進行編碼的話

池化減少輸往特征提取下一層的數量

這将讓我們在下一層擁有更多的特征類型(更大的領域)

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

一個卷積網絡中擁有什麼類型的認知

深度卷積網絡中最後一層的激活行為就是一個認知

感覺包含了圖像中許多物體的資訊

但是,物體之間的關系是怎樣的?關系的認知并沒有經過訓練

向一個深度循環神經網絡的最初隐藏層的狀态上加入上文提到的認知,并且訓練RNN來生成字幕(不需要對卷積網絡進行預訓練)

反對池化的四點理由

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

對于池化(pooling),存在以上 4 點争論:

不合乎我們對形态感覺的心理認知

它無法解釋為什麼把固有坐标系分派給對象後,會有如此明顯的效果。

它在解決的是錯誤的問題

我們想要的是 equivariance,不是 invariance。想要的是 Disentangling,而不是 discarding。

它無法使用基本的線性結構

它不能利用能夠完美處理圖像中大量variance的自然線性流形。

池化對于做動态routing也很差

我們需要route進入神經網絡的輸入的每一部分,好知道如何處理它。找到最好的 routing 相當于為圖像做parsing。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

關于争論1:

四面體Puzzle:關于坐标系能做什麼的示範

用一個平面将一個固體四面體切為兩塊

把這兩塊拼回成為一個四面體有多難?

一位MIT教授試了10分鐘,然後寫下了一個證明,證明這不可能實作

這個小任務為什麼這麼難?我們需要一個解釋。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

反向四面體Puzzle

想象一下,用一個平面切開一個固體四面體,得到一個方形的cross-section;

如果你用一種方式去考慮這個四面體,做到這點并不難;而如果你用标準的方式去考慮這個四面體,就幾乎不可能做到。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

一些更多的心理學證據,顯示了我們的視覺系統在抓住物體形狀時,利用了坐标系。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

關于争論2:Equivariance vs Invariance

卷積神經網絡努力在讓神經活動對視點上的小變化invariant,方法是通過在一個“池”内合并這些活動

—這個目标是錯誤的;

—它由這樣一個事實驅動:最終的 label 需要 viewpoint-invariant

以equivariance為目标會更好:視點中的變化引發了神經活動中的相應變化

—在認知系統中,是 weights 編碼了viewpoint-invariant knowledge,而不是神經活動。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

Equivariance

沒有sub-sampling,卷積神經網絡為discrete translations 給出了“place-coded” equivariance。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

兩類 equivariance

如果一個低級别部分移動到了一個非常不同的位置,它會被不同的capsule表征

—這是“place-coded” equivariance。

如果一個部分僅移動了很短的距離,它仍會被同樣的capsule表征,但capsule的輸出将會變化

—這是“rate-coded” equivariance。

更進階别的 capsules 有更大的domain,是以低級别的place-coded equivariance 轉化為了進階别的 rate-coded equivariance。

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

關于争論3:推算形狀識别到非常不同的視點

目前的神經網絡智慧

—學習用于不同視點的不同模型

—這要求大量訓練資料

一個好得多的方法

—同樣形狀的圖像流形在pixel intensities的空間裡是高度非線性的

—向流形是全局線性的空間轉化(即,圖像表征使用了明确的形态坐标)

—這使得大量推算成為可能

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

使用計算機圖像使用的全局線性流形在視點上泛化

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

在部分層次中的兩層(使用線性流形的coincidence filtering)

【重磅】Hinton大神Capsule論文首次公布,深度學習基石CNN或被取代

關于争論4:我們需要 route 圖像中的資訊,好讓神經網絡可以了解

對于複雜形狀來說,我們不希望用 small stride 複制所有位置的知識

—用某種方法能 route 資訊到一個單獨的能夠處理它的 capsule會更好

—但這一資訊可能會在圖像中的任何位置出現

眼球運動擁有偉大的routing機制,但速度慢

—神經網絡還有什麼方法可以 route 資訊?

原文釋出時間為:2017-10-28

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀