人工神經網絡的盡頭是一個神經元?

——沒準兒還真有可能。
目前,最先進的AI系統通過建立多層神經網絡來模仿人類大腦,旨在将盡可能多的神經元塞進盡可能小的空間。
可惜,這樣的設計需要消耗大量的電力等資源,而産生的輸出結果與強大且“節能”的人腦比起來相形見绌。
最近,柏林工業大學的研究小組提供了一個新思路:把任意大小的深度神經網絡折疊成單神經元,這個神經元具有多個延時回報回路。
關于研究成果的論文釋出于Nature子刊。
這個“單個神經元的AI大腦”概念的提出,無疑給神經網絡的發展指明了一個新方向。
下面就來看看這是一項怎樣的研究吧!
具體方法
研究團隊設計了一種多層前饋深度學習神經網絡的完全時間折疊的方法(Fit-DNN)。
Fit-DNN的誕生主要受到“folded- in-time”概念的啟發,即:使用單一的延遲環路配置和輸入資料的時間複用來模拟環形拓撲結構。
傳統的深度神經網絡由多層神經元組成,以前饋結構耦合。
如果用一個神經元來實作傳統DNN的功能,需要保留各層的邏輯順序,同時找到一種方法來順序化層内的操作。
這隻能通過在時間上分割以前同時進行的過程來實作:單個神經元在正确的時間接受正确的輸入,依次模拟每一層的各個神經元。
傳統的相鄰層之間的連接配接,轉變成單個神經元在不同時間的連接配接,即:層間連接配接變成了延遲連接配接。
在不同時間對同一神經元進行不同的權重,權重由反向傳播算法确定。
這類似于單個客人通過快速切換座位并說出每個部分,來模拟大型餐桌上的對話。
Fit-DNN的核心由一個具有多個延遲和調制回報的單一神經元組成,上圖展示了其結構:
标着字母f的黑色圓代表神經元,它在t時的信号為x(t);這個信号是資料J(t)、偏移量b(t)和回報信号之和。
可調節的元素用方塊表示:資料信号由輸入向量u産生,藍色方塊中的矩陣包含輸入權重。偏置系數産生灰色方塊中的偏置信号。每個回報環路實作一個延遲和一個時間調制,來産生回報信号。
最後,使用輸出權重矩陣從信号x(t)中獲得輸出。
注意,為了獲得資料信号J(t)和輸出,需要進行适當的預處理或操作後處理。
與傳統多層層經網絡的等效性
單神經元的Fit-DNN在功能上真的可以等同于多層神經網絡嗎?
如下圖所示,Fit-DNN可以将具有多個延遲環的單個神經元的動态性轉化為DNN。
圖a展示了信号x(t)的時間演化可以分為長度為T的時間間隔,每個間隔模拟一個隐藏層;實線上的黑點表示節點,θ代表節點分離值。
圖b表示原始的時間軌迹被切割成長度為T的區間,在各區間内,節點根據其網絡位置被标記。
圖c由圖b的旋轉所得,在此基礎上增加了一個輸入和一個輸出層。
這些連接配接是由節點之間的動态依賴關系決定的,這些依賴關系可以根據θ的值精确計算。
當節點分離值θ較大時,網絡節點之間将形成熟悉的多層DNN形狀。
不過,當節點分離值θ較小時,每個節點的狀态都依賴于前一個節點,而不是完全獨立。這些額外的 “慣性 “連接配接在圖c中用黑色箭頭表示。
雖然研究者們用D = 2N - 1延遲環路恢複了一個全連接配接的DNN,但模拟測試表明,這并不完全符合要求。
實際上,用更少的延遲環路就可以獲得足夠的性能。在這種情況下,Fit-DNN将實作一種特殊類型的稀疏DNNs。
可見,在一定條件下,Fit-DNN可以完全恢複一個沒有卷積層的标準DNN,此時,它的性能與多層DNN相同。
單神經元的Fit-DNN将前饋多層神經網絡的拓撲複雜性,通過延遲環結構折疊到時域。
這個延遲系統本身就擁有一個無限大的相空間,是以,隻要有一個帶回報的神經元就足以折疊整個網絡。
Fit-DNN的計算機視覺功能測試
研究人員使用Fit-DNN進行圖像降噪,即:從噪聲版本中重建原始圖像。
他們把強度為1的高斯噪聲加入Fashion-MNIST資料集的圖像中,并将高斯噪聲視為值在0(白色)和1(黑色)之間的向量。
然後截斷門檻值0和1處剪切所得的向量條目,以獲得有噪聲的灰階圖像。
如上圖所示,a行包含來自Fashion-MNIST資料集的原始圖像;b行為帶有額外高斯噪聲的相同圖像,這些噪聲圖像作為訓練系統的輸入資料。c行表示獲得的原始圖像的重建結果。
可見,Fit-DNN的圖像恢複效果不錯。
不過Fit-DNN真正的問題是,時間循環的單個神經元是否能産生與數十億個神經元相同的輸出。
為了證明Fit-DNN和時間狀态下的計算能力,研究人員選了五個圖像分類任務:MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100,以及SVHN。
實驗對比了隐藏層的節點數不同時(N=50,100,200,400),Fit-DNN在上述任務中的表現。
結果表示,對于相對簡單的MNIST和Fashion-MNIST任務,單個神經元取得了很高的準确率。
但對于更具挑戰性的CIFAR-10、CIFAR-100和SVHN任務,單個神經元的準确率較低。
值得注意的是,這裡的Fit-DNN隻使用了權重矩陣可用對角線的一半。如果增加節點的個數N,将有效地提高性能。
研究團隊
感興趣的讀者可以戳下面的連結繼續深入了解。
Ingo Fischer是論文的共同作者之一。他取得了菲利普斯·馬爾堡大學獲得半導體實體領域博士學位,後在歐洲多國的大學中擔任工程和實體學的博士後研究員、助理教授和全職教授。
經典的多層神經網絡,如火爆全球的GPT-3,目前已有750億個參數,比其前身GPT-2的參數量要多100倍。
據估計,僅僅訓練一次GPT-3就需要相當于丹麥126個家庭一年使用的電力,或者約等于開車往返一次月球的耗能。
柏林團隊的研究人員認為,Fit-DNN可以對抗訓練強大神經網絡所需能源成本的上升。
科學家們相信,随着技術的發展,該系統可以擴充到從懸浮在時間中的神經元建立 “無限數量的 “神經元連接配接。
論文連結:https://www.nature.com/articles/s41467-021-25427-4.pdf參考連結:https://thenextweb.com/news/how-ai-brain-with-only-one-neuron-could-surpass-humans