“深度學習之父”Geoffrey Hinton：深度學習可完全複制人類的智能創造性思維GLOM 的架構将哲學融入工程學GLOM 的設計聽起來在哲學上很合理。但它會成功嗎？

計算機科學家和認知心理學家傑弗裡·辛頓（Geoffrey Hinton）是深度學習之父，他去年11月做出了預測。經過半個世紀的嘗試 - 其中一些已經取得了巨大的成功 - Hinton對大腦如何工作以及它如何在計算機中複制有了更深入的了解。

在新的皇冠流行期間，Hinton與他的多倫多家庭辦公室隔離開來。"這是我現在能想到的最好的主意，"他說。如果這個想法得以實作，它可能會激發下一代人工神經網絡。

這個數學計算系統受到大腦神經元和突觸的啟發，是當今人工智能的核心技術。正如Hinton所說，他的"基本動機"源于好奇心。然而，真正的動機 - 理想的結果 - 是設計一個更可靠和值得信賴的人工智能系統。

Hinton是谷歌研究員，也是矢量人工智能研究的聯合創始人，他斷斷續續地寫下了他的想法，并于2月下旬在Twitter上宣布，他已經在arXiv預印本伺服器上發表了一篇44頁的論文。

"這篇論文不是關于實踐中的系統，而是關于一個虛構的系統，"Hinton在免責聲明中寫道。他稱之為"GLOM"，而"GLOM"源于"聚集"和短語"聚在一起"。

Hinton認為，GLOM可以在機器中恢複人類的感覺系統，這為在神經網絡中處理和呈現視覺資訊提供了一種新的方法。從技術上講，該系統是類似向量的集合。

向量是神經網絡的基礎，向量是一組包含資訊的數字數組。最簡單的例子是點的 xyz 坐标，其中三個數字表示點在三維空間中的位置。

六維矢量包含三個附加資訊，可能表示點顔色的紅色、綠色和藍色值。在神經網絡中，數千個次元的矢量表示整個圖像或文本。Hinton認為，在處理更高維的問題時，我們的大腦活動涉及"與神經活動相關的大向量"。

通過類比，Hinton将相似向量的聚集與回聲室效應進行了比較 - 這種效應放大了相似的視角。"回音室效應對政治和社會來說是一場徹底的災難，"Hinton先生說。但對于神經網絡來說，這是一件好事。"

他将回聲室效應的概念映射為"同一向量的島嶼"或更簡單的"共識島"的神經網絡 - 當向量在基本資訊上達成一緻時，它們指向同一方向。

從本質上講，GLOM也在追求實作模拟直覺的難以捉摸的目标。根據Hinton的說法，直覺對于感覺活動至關重要。他将直覺定義為人類輕松進行類比的能力。從小到大，我們通過類比推理來感覺世界，并将相似的對象，想法或概念映射到另一個對象，或者，正如Hinton所說，從一個大向量到另一個大向量。

"大向量的相似性解釋了神經網絡如何進行直覺的類比推理，"他說。在更廣泛的層面上，直覺捕捉了人類大腦産生想法的難以形容的方式。Hinton的作品遵循直覺和科學，所有這些都是由直覺和類比引導的。他關于大腦如何工作的理論都是關于直覺的。"我一直很堅定，"Hinton先生說。"

Hinton希望GLOM可以成為人工智能真正靈活地解決問題之前的衆多技術突破之一 - 像人類一樣思考，同時了解以前從未見過的東西，從以前的經驗中尋找相似之處，思考想法，概括，推斷和了解。

"如果神經網絡更人性化，那麼至少它們可以像我們一樣犯錯誤，這樣我們就可以了解是什麼讓他們感到困惑，"Hinton說。"

然而，就目前而言，GLOM隻是一個想法。"這是一團霧，"Hinton說。他承認GLOM的首字母縮略詞與"傑弗裡的最後原始模型"完全吻合。至少，這是Hinton的最新研究。

< ><h1類"pgc-h-right-arrow"data-track"中的創造性思維。</h1>

Hinton對人工神經網絡的熱情（誕生于20世紀中葉）可以追溯到20世紀70年代初。到1986年，他在這個領域取得了很大的成就：盡管最初的網絡隻由幾層負責輸入和輸出的神經元層組成，但Hinton和他的同僚們提出了更先進的多層網絡技術。然而，計算能力和資料容量花了26年的時間才趕上并利用深度架構。

2012年，因在深度學習方面的突破而聲名鵲起的Hinton與兩名學生合作開發了一個多層神經網絡，可以訓練它來識别大圖像資料集中的物體。

神經網絡已經學會了反複改進分類和識别物體的方法，比如蜱蟲、蘑菇、滑闆車和馬拉加西貓。系統顯示意外的精度。

深度學習徹底改變了最新的人工智能，并改變了整個計算機視覺領域。Hinton認為，深度學習幾乎可以完全複制人類的智能。

盡管這一領域發展迅速，但仍然存在重大挑戰。神經網絡在面對不熟悉的資料集或環境時可能顯得相對脆弱和不靈活。

自動駕駛汽車和文本語言生成器令人印象深刻，但它們也可能出錯。人工智能視覺系統也可能令人困惑：它們可以從側面識别咖啡杯，但未經教育訓練就無法從角度識别它們，并且通過一些像素偏移，熊貓可能會被誤認為是鴕鳥甚至校車。

GLOM解決了視覺感覺系統領域的兩個主要挑戰：從物體及其自然部分的角度了解整個場景，以及從新的角度了解事物（GLOM專注于視覺，但Hinton希望它也可以應用于語言領域）。

以Hinton的臉為例，疲憊但充滿活力的眼睛，嘴巴，耳朵和一個突出的鼻子籠罩在更幹淨的灰色中。從他顯眼的鼻子裡，即使你第一次看到Hinton的照片，你也很容易認出他。

在Hinton看來，這兩個因素——部分和全部——對人類視覺系統至關重要。"如果GLOM能夠發揮作用，它将比今天的神經網絡更像人類來感覺事物，"他說。"

然而，對于計算機來說，将零件內建到整體中是一個挑戰，因為有時零件的概念是模棱兩可的。圓圈可以是眼睛、甜甜圈或輪子。

正如Hinton所解釋的那樣，第一代人工智能視覺系統主要通過部分和整體之間的幾何關系來識别物體——部分之間以及部分與整體之間的空間方向。

另一方面，第二代系統依賴于深度學習 - 使用神經網絡訓練大量資料 - Hinton在GLOM中結合了這兩種方法的優勢。

"我喜歡謙遜，"Robust.AI 的創始人兼首席執行官加裡·馬庫斯（Gary Marcus）說，他是對深度學習的強烈依賴的着名批評家。"

馬庫斯稱贊辛頓願意挑戰自己，再次出名，并承認這沒有奏效。"這是一個勇敢的想法，"他說。而'我試圖使用創造性思維'這句話是一個非常好的糾正措施。

<>GLOM<h1級"的架構"pgc-h-right-arrow"data-track"。</h1>

在建構GLOM時，Hinton試圖模拟人類用來感覺世界的一些心理捷徑，例如直覺政策或啟發式方法。Nick Frost是多倫多一家語言初創公司的計算機科學家，他還與Hinton合作開發Google Brain。

"GLOM和Geoffrey的大部分工作都是研究人類擁有的啟發式方法，并建構可以學習它們的神經網絡，然後證明神經網絡更适合視覺分析，"Frost說。"

通過視覺感覺，一種政策是分析物體的各個部分 - 例如不同的面部特征 - 以了解整體。如果你看到一個特定的鼻子，你可能會認出它來自Hinton的臉，這是一個部分到整體的層次結構。

為了建立一個更好的視覺系統，Hinton說："我有一個強烈的直覺，我們需要使用部分到整體的層次結構。人腦通過建構"解析樹"來了解部分到整體的組成。

解析樹是一個分支圖，用于顯示整體、部分和次要部分之間的層次結構關系。臉在解析樹的頂部，而眼睛，鼻子，耳朵和嘴巴在下面的樹枝上。

hinton使用GLOM的主要目标之一是在神經網絡中重制解析樹，這是将GLOM與以前的神經網絡區分開來的特征。從技術角度來看，建構系統是很困難的。

"很難做到的是，每個人都用一個獨特的解析樹來解析每個圖像，我們希望神經網絡也這樣做，"Frost說。對于系統看到的每一個新圖像，很難使用神經網絡（新結構）來解析像樹這樣的靜态結構。"

Hinton進行了各種嘗試，GLOM是他2017年試驗的修訂版，結合了該領域的其他相關先進技術。

設想GLOM架構的方法通常是這樣的：感興趣的圖像（例如，Hinton的臉部圖檔）被網格分割。網格上的區域表示圖像上的"位置" - 該位置可能包括虹膜，而另一個位置可能包含鼻尖。

網絡中的每個位置都有大約五層或五層。系統進行逐層預測，并使用矢量來表示内容或資訊。在下層附近，矢量表示預測的鼻尖的位置："我是鼻子的一部分！在下一個層次上，通過建構更合乎邏輯的視覺表示，矢量可能會預測："我是側臉圖像的一部分！"

然而，那麼問題就出現了：同一層次結構中的相鄰向量會一緻嗎？當達成協定時，矢量指向同一個方向："是的，我們都屬于同一個鼻子。"或者指向後面的解析樹。是的，我們都屬于同一張臉。"

在尋求對物體性質的共識時 - 物體的最終精确定義 - GLOM的向量均勻地重複分布，逐地，逐層分布，彼此相鄰的向量相鄰，以及上層或下層的預測向量。

然而，Hinton先生表示，該網絡不會與附近的矢量"任意劃分"。這是一個選擇性的平均分布，相鄰的預測顯示相似性。

他補充說："這在美國非常有名，通常被稱為回音室效應。您隻會接受那些同意您觀點的人的觀點。通過這種方式，形成了一個回聲室，每個人都共享相同的觀點。事實上，GLOM積極地利用了這種現象。Hinton系統中的類似現象是"共識島"。

"想象一下，一群人在一個房間裡大聲談論一些不同相似的想法，"弗羅斯特先生說。或者将它們視為大緻指向同一方向的向量。随着時間的流逝，所有的想法都融合為一體。他們會覺得這個想法越來越有影響力，因為它已經得到了周圍人的證明。這就是GLOM矢量如何加強和放大圖像的協作預測。

GLOM使用這些共識向量島來研究神經網絡中解析樹的工作方式，雖然一些神經網絡最近使用向量到向量共識來激活它們，但GLOM使用共識來呈現結果-以建構網絡中事物的表示。

例如，當多個向量同意它們是鼻子的一部分時，小尺度識别向量共同表示網絡中面部分辨率樹的鼻子。另一組較小的身份向量可能表示解析樹中的嘴，而解析樹頂部的大型集合可能表示新結果 - 整體圖像是 Hinton 的臉。

Hinton解釋說："解析樹在這裡以這樣一種方式呈現，即對象層次結構表現為一個大島，而對象的部分是較小的島嶼，次要部分是一個較小的島嶼，是以向下。"

“深度學習之父”Geoffrey Hinton：深度學習可完全複制人類的智能創造性思維GLOM 的架構将哲學融入工程學GLOM 的設計聽起來在哲學上很合理。但它會成功嗎？

GLOM論文中的Hinton圖表顯示，每個層次結構中具有相同向量（相同顔色的箭頭）的島嶼代表一個分析樹（來源：Hinton）

蒙特利爾大學的計算機科學家Joshua Bengio是Hinton的老朋友和同僚，他說，如果GLOM能夠解決在神經網絡中表示解析樹的工程挑戰，那将是一項偉大的成就，對于使神經網絡正常工作至關重要。

他補充說："傑弗裡在他的職業生涯中做出了許多重要的預測，其中許多已經得到驗證。是以我要密切關注這些預測，特别是當傑弗裡振作起來的時候，就像他現在對GLOM的感覺一樣。"

Hinton的堅定态度不僅來自回聲室效應的類比，還來自數學和生物學的類比，這些類比啟發并展示了GLOM新的工程設計決策過程。

麥克馬斯特大學（McMaster University）的計算認知神經科學家、Hinton的學生蘇·貝克（Sue Baker）說："傑弗裡是一位非常不尋常的思想家，他能夠通過使用複雜的數學概念并将生物學理論融入其中來發展他的理論。人機學習原理和思維方法的挑戰性問題很難解決，這僅限于數學理論或神經生物學理論的研究人員。"

<h1級"pgc-h-arrow右轉"資料軌道""31">将理念融入工程</h1>

到目前為止，Hinton的新想法已被廣泛接受，特别是在舉世聞名的回音室中。"在Twitter上，我得到了很多喜歡，"他說。YouTube上的教程還聲稱保留了一次"MeGLOMania"的所有權。

Hinton是第一個承認目前的GLOM在哲學上有點冥想的人，他在進入實驗心理學之前參加了為期一年的哲學大學課程。

"如果一個想法在哲學上聽起來不錯，那麼它就是，"他說。一個聽起來像垃圾的哲學觀點如何成為現實？從哲學的角度來看，它不能通過這個标準。"

相比之下，他說，"很多科學的東西聽起來像是垃圾"，但它們做得很好——比如神經網絡。

<>h1級"pgc-h-right-arrow"資料軌道""31"的設計聽起來很哲學。但它會成功嗎？</h1>

愛丁堡大學資訊科學學院機器學習教授克裡斯·威廉姆斯（Chris Williams）希望GLOM能帶來一系列偉大的創新。

然而，他說，"人工智能與哲學的差別在于，我們可以使用計算機來驗證這些理論。通過這些實驗，不可能找出想法中的缺陷或修複它們。他補充說："雖然我相信這項研究很有希望，但目前我認為我們沒有足夠的證據來評估一個想法的真正重要性。"

在多倫多的谷歌研究院，Hinton的一些同僚正處于實驗GLOM的早期階段，而使用新神經網絡架構的軟體工程師Laura Karp正在使用計算機模拟技術來測試GLOM在了解物體部分和整體的概念時是否可以産生Hinton所說的共識島。即使輸入不明确。

在實驗中，這些部分是10個不同大小的橢圓形，可以形成一張臉和一隻羊。

圖|在GLOM測試模型中輸入的10個橢圓形，形成綿羊和面部（來源：Laura Karp）

通過随機輸入一個或另一個橢圓，模型可以預測橢圓是屬于人臉還是羊，或者它是羊腿還是羊頭，卡普說。即使在發生任何幹擾的情況下，該模型也可以自我校正。

下一步是建立一個基準，以訓示标準深度學習神經網絡是否會被這個任務所混淆。到目前為止，GLOM已經受到嚴格的審查 - Cap已經生成了一些資料并對其進行了标記，促使模型在很長一段時間内進行校正以實作正确的預測。無監督版本被稱為GLUM - "這是一個笑話，"Hinton先生說。"

在這種初始狀态下，現在得出任何重要結論還為時過早。卡普正在等待更多資料出現。然而，Hinton給業界留下了深刻的印象。

"GLOM的簡單版本可以檢視10個橢圓，并根據橢圓之間的空間關系識别人臉和綿羊，"他說。這是一個令人困惑的問題，因為從單個橢圓中看不出它屬于哪個對象或它屬于對象的哪個部分。"

總的來說，Hinton對回報感到滿意。"我隻是想把它上傳到社群，這樣每個感興趣的人都可以嘗試一下，或者把這些想法放在一起，"他說。然後，哲學将被轉化為科學。"