天天看點

AI教父Hinton膠囊模型又出新作——膠囊如何表示視覺層次結構

AI教父Hinton膠囊模型又出新作——膠囊如何表示視覺層次結構

今天給大家介紹的是深度學習三巨頭之一,谷歌大腦人工智能團隊首席科學家且為圖靈獎獲得者的Geoffrey Hinton教授于2月26日在Twitter上分享了一篇關于表示的新作,且該文僅由Hinton一人署名。在文中,他提出了一種用神經網絡表示部分-整體層次結構的設想,将幾個不同的領域整合到一起組成一個名為GLOM的假想系統令神經網絡以人類的方式了解圖像,其中的子產品包括transformer,神經場,對比表示學習,蒸餾學習和膠囊網絡模型。Hinton表示如果GLOM最終可用,應該能大幅度提高像transformer這類模型産生的表示方法的可解釋性。

AI教父Hinton膠囊模型又出新作——膠囊如何表示視覺層次結構

想法

心理學研究表明人們将視覺場景解析為部分-整體層級結構,并将部分和整體之間視點不變的空間關系視作部分和整體之間坐标的轉換。神經網絡如果需要具備和人類了解圖像的思維方式,則需要弄清楚神經網絡如何表示部分整體層次結構。由于神經網絡并不能動态地配置設定一組神經元,Sabour和Hinton等人提出了一系列使用“膠囊”的網絡模型。膠囊模型假設一組神經元(膠囊)将成為圖像特定區域中的特定類型的一部分,然後通過激活這些預先存在的、特定類型的膠囊的子集,以及它們之間的适當連接配接來建立解析樹。作者用膠囊來表示神經網絡中的部分-整體層次結構,GLOM可以簡單地了解為用于處理一系列幀序列的流水線,由大量權重相同的列組成,這些列的層次和神經科學家提出的超列相似,每一列都是由空間局部自動編碼器堆疊而成,而這些編碼器學習小圖像塊上的多級表示。每個自動編碼器利用多層自下而上的編碼器和多層自上而下的解碼器将一個級别的嵌入轉換為相鄰級别的嵌入。這些級别對應于部分-整體層次結構中的級别。例如,當顯示一張臉部圖像時,單列可能會收斂到代表鼻孔,鼻子,臉部和人的嵌入向量上。下圖則顯示了不同層次的嵌入如何在單列中進行自下而上,自上而下和相同級的互動。

AI教父Hinton膠囊模型又出新作——膠囊如何表示視覺層次結構

圖1 GLOM結構單列中3個相鄰級間的互動

上圖并沒有顯示不同列中同一級别的嵌入之間的互動,它們不需要實作部分整體坐标轉換。而是像多頭transformer中代表不同單詞片段的列之間的注意力權重互動,這更簡單了,因為查詢、鍵和值向量都與嵌入向量相同。列間互動旨在通過使該級别的每個嵌入向量向附近位置的其他類似向量回歸,進而在某個級别上産生具有相同嵌入的島。這将建立多個局部“回音室”,在某個局部“回音室”中,同一層次的嵌入主要與其他想法相似的嵌入相呼應。

優缺點

(1) 與膠囊模型相比

GLOM的主要優勢在于:(1)它無需在每個級别預先将神經元配置設定給一組可能的離散部分,這将帶來更大的靈活性。(2)它不需要動态路由,可以為部分所占據的每個位置建構屬于自己的整體向量表示。(3)其用于形成島的聚類過程比膠囊模型中使用的聚類過程要好得多。與大多數膠囊模型相比,GLOM的主要缺點是關于特定類型物體形狀的知識并不局限于一小群神經元(可能會在相當大的區域内複制)。

(2) 與Transformer模型相比

GLOM和Transformer相比,做出了幾點改變。(1)每層的權重都相同,因為GLOM是一個循環神經網絡,并且作者将時間片轉換為層。(2)利用層次上的嵌入向量作為查詢,鍵以及值,極大地簡化了注意機制。(3)用于提供更多表現力的多頭被重新設計成用于實作整個部分整體層次結構的多個級别,并且某個位置的多個頭之間的互動是高度結構化的,是以一個級别僅與相鄰級别進行互動。(4)計算相鄰級别之間互動的自下而上和自上而下的神經網絡在部分和整體分布式表示之間執行坐标轉換。

AI教父Hinton膠囊模型又出新作——膠囊如何表示視覺層次結構

圖2 GLOM結構,突出與Transformer間關系

(3) 與CNN模型相比

早前Hinton即表示CNN會被膠囊網絡替代,如果你很喜歡CNN 的話,GLOM可被視為一種特殊的CNN。它在以下方面不同于标準CNN:(1)它僅使用1x1卷積(前端除外)。(2)位置之間的互動是通過無參數平均化來實作的。(3)它不使用單個前饋周遊表示層,而是疊代以允許由神經場實作的自上而下的影響。(4)它包括對比自我監督學習,并作為識别的一部分而不是單獨的任務執行層次分割。

生物可行性

作者以三個疑問性标題闡述GLOM是否具有生物可行性。

第一,盡管GLOM受生物學啟發,但将其當作生物學模型仍有些生硬,其中三個功能解釋了和生物學模型格格不入的原因。(1)自下而上或自上而下的模型在不同列中的權重配置設定。(2)需要處理否定的示例對以進行對比學習,而又不中斷視訊流水線。(3)使用反向傳播來學習自頂向下和自底向上模型的隐藏層。

第二,GLOM建議使用上下文監督來解決生物學家經常反對的權重共享問題。在真實的大腦中,我們想要的是一種在某個位置訓練自下而上和自上而下的網絡的有效方法,以便它們計算與其他位置的相應網絡相同的功能,作者提出可以使用知識蒸餾來實作這一目标。

第三,闡述了睡眠在對比學習中的作用,由于查找和處理不應該相似的圖像對會增加複雜性,是以GLOM在生物學模型上似乎不太合理。通過在晚上使GLOM脫機進行消極學習,以防止表示崩潰,可以避免損害GLOM的實時性能。有證據表明,高速,自上而下的序列生成發生在睡眠的紡錘體階段。

從哲學角度出發

Hinton本人認為科學與哲學之間的差別在于,實驗可以證明極端合理的想法是錯誤的,而極端不可行的想法(例如,通過端到端的梯度下降學習一個複雜系統)是正确的。GLOM雖然目前未實作,但是Hinton教授正在一個項目上進行測試,目的是測試GLOM體系結構以全新角度了解形狀識别的能力,另外作者呼籲科研工作者積極投入以實作這部分的想法。以下為作者從哲學角度對此想法進行的一些評價:

(1)解析樹中的節點由相似向量的島表示的想法統一了兩種非常不同的了解感覺方法。第一種方法是經典的格式塔心理學,它通過訴諸場(field)來建立感覺模型,提出了整體不同于部分總和的觀點。在GLOM中,感覺器被視為一個場,并且整體的共享embedding向量是有别于部分的。第二種方法是典型的人工智能方法,它通過結構描述來建立感覺。GLOM是具有結構描述的。

(2)部分不看好深度學習的學者認為,神經網絡無法處理組合層次結構,需要有一個“神經系統符号”接口,該接口允許神經網絡的前端和後端将高層推理移交給更具符号性的系統。而作者認為GLOM的主要推理模式是由于高維向量之間的相似性進而使用的類比方式。

(3)BERT取得的巨大成功,結合早期工作表明,通過構造BERT中multi-head之間的互動,并對應其表示級别,通過添加對比學習的正則化器來鼓勵每個級别上多個單詞片段的局部孤島的一緻性,這可能可以說明GLOMBERT确實能夠解析句子。