天天看點

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

新智元報道

編輯:LRS

【新智元導讀】神經網絡模型越訓越大,也越來越費電。柏林工業大學的研究團隊反其道行之,搞了一個單神經元的網絡,能模拟多層神經網絡,性能還不差!

要說世界上最先進的神經網絡模型是什麼?那絕對是人腦莫屬了。

人腦有860億個神經元,互相結合在一起構成的神經網絡不僅在性能上超越人工神經網絡,能量消耗也少的驚人。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

當下的人工智能系統試圖通過建立多層神經網絡來模仿人腦,旨在将盡可能多的神經元塞進盡可能少的空間。

這種方式雖然取得了性能進步,但這樣的設計不僅需要大量的電力,并且輸出的結果與人腦相比也是相形見绌。

根據估計,OpenAI在微軟資料中心使用 Nvidia GPU 訓練神經網絡GPT-3時,大約需要 190,000 千瓦時的電量,相當于丹麥 126 戶家庭每年使用的電量。如果換算成化石燃料産生的二氧化碳含量來算,相當于駕駛一輛汽車從地球出發往返一趟月球。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

并且神經網絡以及使用巨大資料集訓練它們所需的硬體數量,還在不斷增長。以GPT為例,在GPT-3時已經有1750億個參數了,比前身GPT-2的參數量要多100倍。

這種「越大越好」的神經網絡設計顯然不符合可持續的科學發展觀。

來自柏林工業大學的一個多學科研究小組最近建立了一個新型神經「網絡」。但叫它網絡還是比較勉強的,因為它新就新在,隻有一個神經元!

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

研究人員提出一種新的方法,能夠将一個任意大小的深度神經網絡折疊成一個具有多個延時回報的單一神經元循環。這個單神經元深度神經網絡隻包括一個單一的非線性和适當地調整回報的信号,可以完全表示标準的深度神經網絡(DNN),包含稀疏DNN,和将DNN的概念擴充到動态系統的實作。

這個新模型也稱為時間折疊(Folded-in-time) Fit-DNN,在基準任務的測試中也表現出相當強的性能。

獨木難成林?

一個正常的神經網絡網絡需要在空間上申請多個節點彼此連接配接,而單個神經元模型則是在時間次元上進行擴散連接配接。

研究人員設計的多層前饋DNN的完全時間折疊的方法,隻需要一個帶有回報調節延遲環的單一神經元。通過非線性操作的時間順序化,可以實作一個任意深度或寬度的DNN。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

在傳統的神經網絡中,如GPT-3,每個神經元都有一個權重值,以便對結果進行微調。但這種方式導緻的結果通常是更多的神經元,産生更多的參數,而隻有更多的參數才能産生更精确的結果。

但柏林工業大學的團隊發現,他們可以通過在不同時間對同一神經元進行不同的權重,而不是在空間上分散不同權重的神經元來實作類似功能。

這就好比在宴會上,你可以通過快速切換座位的方式,裝作不同的客人說出不同的部分來模拟餐桌上的對話。

聽起來有點「人格分裂」,但通過這種時序上的擴充,一個人(神經元)也可以完成多個人才能完成的事。

剛才提到「快速」切換,柏林團隊表示,這種說法已經很低調了。

實際上他們的系統通過雷射在神經元中激活基于時間的回報回路,理論上可以達到接近宇宙極限的速度——也就是以光速或接近光速進行神經網絡切換。

根據研究人員的說法,這對人工智能來說意味着,能夠顯著降低訓練超大規模神經網絡的能源成本。

為了實作上述想法,研究人員假設系統狀态根據一般形式的微分方程在連續時間内演變。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

這裡x(t)表示神經元在時間t的狀态;f是一個非線性函數,其參數a(t)結合了資料信号J(t)、時間變化的偏置b(t)以及由函數Md(t)調制的延時回報信号x(t -τd)。可以明确考慮不同延遲長度τd的多個環路。由于回報環路,系統成了一個所謂的延遲動力系統。

直覺地說,Fit-DNN中的回報回路導緻神經元重新引入已經通過非線性f的資訊,這使得非線性f可以多次連鎖。經典的DNN通過逐層使用神經元來構成其可訓練的表征,而Fit-DNN則通過重複向同一神經元引入回報信号來實作同樣的目的。

在每個pass中,時變的偏置b(t)和延遲線上的調制Md(t)確定系統的時間演變以期望的方式處理資訊。為了獲得資料信号J(t)和輸出y,兩個變量都需要一個适當的前處理或後處理操作。

為了進一步說明Fit-DNN在功能上等同于多層神經網絡,可以看到Fit-DNN可以将具有多個延遲環的單個神經元的動态性轉化為DNN。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

x(t)的時間演化可以分為長度為T的時間間隔,每個間隔模拟一個隐藏層。在每個區間中,選擇N個點。使用一個具有小時間間隔θ的等距時間網格。對于有N個節點的隐藏層來說,可以得出θ=T/N。在每個時間網格點tn=nθ,将系統狀态x(tn)作為一個獨立變量。每個時間網格點tn将代表一個節點,而x(tn)代表其狀态。可以進一步假設資料信号J(t)、偏置b(t)和調制信号Md(t)是步長為θ的步長函數。

作為一個非常稀疏的網絡,研究人員首先将Fit-DNN應用于圖像去噪任務:在Fashion-MNIST資料集的圖像中加入強度為方差為1的高斯噪聲,将其視為值在0(白色)和1(黑色)之間的向量。然後截斷門檻值0和1處剪切所得到的向量條目,以獲得有噪聲的灰階圖像。去噪的任務就是要從其噪聲版本中重建原始圖像。

實驗結果對比了原始Fashion-MNIST圖像、其噪聲版本和重建圖像的例子。可以看到恢複的效果還是相當不錯的。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

但Fit-DNN真正的問題是,時間循環的單個神經元是否能産生與數十億個神經元相同的結果。

為了證明Fit-DNN和時間狀态下的計算能力,研究人員選了五個圖像分類任務:MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100,以及SVHN。

最孤獨的神經網絡:隻有一個神經元,但會“影分身”

實驗對比了Fit-DNN在上述任務中每個隐藏層的不同節點數N=50、100、200和400時的表現。從結果中可以看到對相對簡單的MNIST和Fashion-MNIST任務上單個神經元取得了很高的準确率。但對于更具挑戰性的CIFAR-10、CIFAR-100和SVHN任務的準确率則比較低。

雖然這些結果顯然不能與當下sota模型創造的性能記錄相媲美,但它們是在一個新穎的、完全不同的架構上實作的。特别是,這裡的Fit-DNN隻使用了權重矩陣可用對角線的一半。對于測試的任務,增加N顯然會導緻性能的提高。

随着進一步的發展,科學家們相信該系統可以擴充到時間次元上「無限數量的」神經元連接配接。

他們表示,這樣的系統是可行的,它可以超越人腦,成為世界上最強大的神經網絡,這就是人工智能專家所說的「超級智能」。

參考資料:

https://thenextweb.com/news/how-ai-brain-with-only-one-neuron-could-surpass-humans

繼續閱讀