作者介紹:黃廣斌(Guang-Bin Huang)是新加坡南洋理工大學教授(終身)。在 2014 和 2015 年被 Thomson Reuters 評為「高引用研究者」(工程類,計算機科學類),以及「2014 年世界最有影響力的科學精英」和「2015 年世界最有影響力的科學精英」。他是新加坡總統科學獎被提名人(2016)。
他主持的主要項目有:德國寶馬集團和南洋理工大學未來汽車聯合研究實驗室人機互動,腦機互動以及汽車輔助駕駛項目,英國勞斯萊斯和南洋理工大學聯合研究實驗室海上自主導航決策輔助系統項目,新加坡科技工程和南洋理工大學先進機器人聯合研究實驗室場景識别和機器學習項目,台灣台達電子股份有限公司和南洋理工大學物聯網聯合研究實驗室資料分析和視訊項目。還擔任過新加坡樟宜機場新加坡航空公司地面服務公司第五貨運大廈的資訊跟蹤控制系統更新改造的總設計師和技術負責人。
神經網絡和生物學習之間的空白
1. 弗蘭克·羅森布拉特的神經網絡夢想
在 1950 年代初期,生物學家弗蘭克·羅森布拉特(Frank Rosenblatt)提出了他稱為感覺器(Perceptron)的多層前饋網絡。
後來跨越 60 多年特别是從 1980 年代到現在用的大部分神經網絡結構其實都是羅森布拉特神經網絡感覺器的一種,這些包括早期流行的支援向量機(SVM)和現在風靡産業界的卷積神經網絡(CNN),也包括 CNN 的前身 Neocognition ,隻是針對不同的實作後人提出了不同的學習算法。
羅森布拉特最初提出他的神經網絡結構時并沒有有效的學習算法,但是他夢想這種神經網絡感覺器可以看作是「計算機的一種胚胎」,一種最終能夠幫助計算機實作「走、說、看、寫、繁衍并有自我意識」的智能源泉。羅森布拉特的預測在 60 年後的今天被證明是正确的,這種神經網絡技術還有可能是未來人工智能和機器學習的主要技術基礎。
2. 馬文·明斯基和 1970 年代人工智能冬天
羅森布拉特的預測在 60 年前是極其大膽和有遠見的,在當時計算機猶如一個龐然大物的時代幾乎沒有幾個人相信他的預測是對的和他的夢想是能實作的。也許偉大的思想之是以偉大就在于遠遠超前現有人們所能了解和所能想象的。包括人工智能之父、圖靈獎獲得者馬文·明斯基(Marvin Minsky)和神經網絡之父 Bernard Widrow 都對羅森布拉特的預測表示懷疑。羅森布拉特提出的神經網絡感覺器嚴格意義上講在提出之初還隻是概念,正如許多偉大的想法在提出之初都會出現有些概念模糊不清的情況,大部分人有疑慮也就正常了。明斯基對羅森布拉特的神經網絡感覺器的否定直接導緻了被後人稱為「美麗錯誤」的發生在 1970 年代的「人工智能的冬天」。
兩年前在 Bernard 家吃着他夫人精心準備的舊金山螃蟹,邊回顧着 60 年來的神經網絡發展往事,受益匪淺也感慨萬千。Bernard 在和我探讨超限學習機(Extreme Learning Machines, ELM)時提及他和明斯基以及羅森布拉特三人之間的往事時誠懇地承認在 1950 年代他對羅森布拉特的神經網絡感覺器也是不太認同,在他和羅森布拉特之間的争論中他是錯了。不得不被前輩們敢于承認錯誤的勇氣折服。(提醒:學術争論無論激烈與否可以有助于找尋自然規律的真象,這和打着學術争論之名行人身攻擊之實是有本質差別的。)Bernard 提及在 1971 年,也就在「人工智能的冬天」開始之初,羅森布拉特在他 43 歲生日那天在一個湖裡劃帆闆時發生意外就再也沒有回來,連屍身都沒有找到,令人不禁辛酸和感歎。試想:羅森布拉特如果不是英年早逝(某種程度上講是含冤而死),人工神經網絡、人工智能和機器學習技術也許還會往前推進 10-20 年。
有關 Bernard 和超限學習機的一段小插曲:Bernard 在超限學習機發表後 10 年左右提出了一個類似超限學習機的技術但卻沒有注意到早期有關超限學習機工作。本來這是一個小事,人們很難檢視到所有有關資料,科研很能面面俱到。Bernard 卻向我當面提出道歉,前輩們謙卑的人格再次讓人折服。
3. 約翰·馮·諾依曼對生物學習的困惑
計算機的硬體實作是要極其精緻美妙的,但計算機的實作也是極其脆弱的,不能有任何瑕疵。任何硬體實作上的不完美都可能導緻計算機不能正常運作。約翰·馮·諾依曼(John von Neumann)在造出第一代計算機之後,做為計算機之父的他感到困惑不解的是:和計算機需要完美硬體連接配接組成所不同的是,為什麼「一個看上去不完美的包含許多看似随機連接配接的(生物)神經網絡卻能夠可靠地實作完美的學習功能」。
羅森布拉特的夢想和馮·諾依曼的困惑之間有着很大的空白地帶和理論技術鴻溝。
超限學習機:填補神經網絡和生物學習之間的空白
人腦可能是宇宙中最複雜的東西。人類在過去幾百年對自然界和宇宙的認識在飛速發展,對生物學習特别是人腦的思維機制還知之甚少。羅森布拉特的人工神經網絡感覺器和馮·諾依曼關于生物學習的困惑以及未解之謎看似關聯性不大。其實在超限學習機的理論架構下,機器(Machine、Devices、Sensors)和生物腦可以看成一緻的,隻是構造的基本材料和硬體不同而已。一種由無機的矽等組成,一種由有機的碳水化合物蛋白質等組成。生物腦本質上也是一種「機器」。無機和有機的「機器」可以完全不一樣,它們的結構和算法也千變萬化。有機的「機器」(生物學習系統)也有千萬種,并且還在一直自我演化。但我們堅信兩者之間可以擁有一個共同的「基本粒子」級(或稱為「基本單元」級)的學習結構和學習算法,那就是超限學習機。而這種超限學習機的實作和硬體材料和具體資料可以是無關的。
1. 作為人工神經網絡的超限學習機
1)「秒殺」學習速度
人工神經網絡在人工智能和機器學習中的重要作用最近幾年又再次得到認可和追捧,大有人工智能和機器學習的實作必須依賴于人工神經網絡之勢。然而人工神經網絡技術普遍面臨着一些挑戰,比如繁重而「痛苦」的人工幹預、緩慢的學習速度和較弱的可擴充性。超限學習機的一個基本目的是要克服這些過去幾十年來人工神經網絡界面臨的發展瓶頸,達到盡可能少的人工幹預,高的測試準确度和實時快速本地化學習的能力,在許多應用中達到秒級,毫秒甚至微妙級或更快。[圖1] 相比其它通用的學習技術(比如深度學習),在有些應用中超限學習機可以快幾千幾萬倍。比如在有些手寫體識别,3D 圖形應用,各國交通路牌識别等應用中,超限學習機與深度學習相比可進一步提高準确率, 并且大幅度降低訓練時間(相比較深度學習基于 GPU 的 1-2 天訓練時間,超限學習機在普通計算機上的訓練時間縮短到幾分鐘或更少)。在許多醫療大資料應用上,超限學習機也比傳統的學習方法在提高準确率的情況下将學習速度大幅提高幾千倍。

圖 1
參考文獻:
L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligent Systems, vol. 28, no. 6, pp. 31-34, 2013.
Z. Huang, Y. Yu, J. Gu, and H. Liu, "An Efficient Method for Traffic Sign Recognition Based on Extreme Learning Machine," (in press) IEEE Transactions on Cybernetics, 2016
Z. Xie, K. Xu, W. Shan, L. Liu, Y. Xiong, and H. Huang, "Projective Feature Learning for 3D Shapes with Multi-View Depth Images," The 23rd Pacific Conference on Computer Graphics and Applications, Tsinghua University, China, October 7-9, 2015.
2)統一的神經網絡結構和算法
20 年前當神經網絡發展處于第一次複興的巅峰,普天下都在忙于為神經網絡訓練「調參」和苦于尋找辦法如何使流行的神經網絡學習算法跳出「局部最小點」時,我們的疑問是:1)當普天下的研究人員都樂于和疲于「調參」時,神經網絡的發展本身是不是也陷入了局部最小點?2)不同類型的網絡「真的需要不同類型的學習算法嗎」?3)是否存在一種通用的學習架構來處理不同類型的網絡(單層前饋網絡和多層網絡)?
- 不同單隐層前饋神經網絡的統一
許多種單隐層前饋神經網絡在廣泛使用中,包括前饋網絡、徑向基函數(RBF)網絡、支援向量機(SVM)、多項式網絡、傅裡葉變換和小波網絡等。這些之前都被認為是不同而且沒有聯系的學習或計算技術。超限學習機理論認為這些都有一樣的網絡結構,隻是網絡的隐層用的是不同的神經元而已。并提出在考慮 Universal Approximation Capability(有人翻譯成「萬能逼近」能力)和分類能力的前提下,隻要隐層神經元是非線性階段連續的,人們就不需要為不同的前饋神經網絡設計不同的學習算法。作為 ELM 的一個特例(傅立葉序列作為隐層神經元),後來 Intel 和美國加州大學伯克利分校研究團隊提出的 Random Kitchen Sink(RKS)以及 Google 團隊提出的 FastFood 也在近幾年有許多發展和實際成功應用。
G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, "Extreme learning machine: a new learning scheme of feedforward neural networks," Proceedings of international joint conference on neural networks (IJCNN2004), Budapest, Hungary, 25–29 July, 2004.
G.-B. Huang, L. Chen and C.-K. Siew, "Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes," IEEE Transactions on Neural Networks. vol. 17, no. 4, pp. 879-892, 2006.
G.-B. Huang and L. Chen. "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.
A. Rahimi and B. Recht, "Random features for large-scale kernel machines," Proceedings of the 2007 neural information processing systems (NIPS2007), 3–6 Dec 2007.
Q. Le, T. Sarlós T, and A. Smola, "Fastfood approximating kernel expansions in loglinear time," Proceedings of the 30th international conference on machine learning, Atlanta, USA, p. 16–21, June 2013.
- 單隐層學習和多隐層學習的統一
我們真的需要疊代式地調整多層前饋神經網絡的隐層節點嗎?前饋神經網絡真的要像六十年來一直被認為是個黑箱嗎?傳統的誤差反向傳播(BP)算法和支援向量機(SVM)将多層網絡視為黑箱。與此不同的是,超限學習機将多層網絡視為白箱,并且一層一層地進行訓練。總體看,超限學習機将單隐層前饋和多隐層網絡看成一個類似的統一體,用雷同的方法來處理單隐層前饋和多隐層網絡。然而,與深度神經網絡需要密集地調整其隐層節點不同,超限學習理論顯示,隐層節點很重要,但(單隐層神經網絡和多層網絡的)隐層節點可以和資料無關,可以随機産生或從上一代傳給下一代而不需要調整。學習可以無需通過疊代式地調整隐層節點來實作。
圖2
J. Tang, C. Deng, and G.-B. Huang, "Extreme Learning Machine for Multilayer Perceptron" , IEEE Transactions on Neural Networks and Learning Systems, May 2015.
G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine," IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.
L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligence Systems, vol. 28, no. 6, pp. 31-34, 2013.
- 單隐層學習和多隐層學習與層次性學習的統一
多隐層學習(Multi-Hidden Layer Learning)和層次性學習(Hierarchical Learning)的概念不是完全一樣。多隐層學習強調的是一個目标應用(比如圖像分類)由一個包含多個隐層節點的網絡實作。而超限學習機的層次性學習強調的是每個隐層實作一個功能,各個功能單元通過級聯,并聯,串聯等組合形成一個學習能力複合的機器學習系統。[圖3] 層次性學習的一個特例可以是一個多隐層學習方法。在超限學習機的體系下,各個功能塊可以采用和應用相關的超限學習機算法。另外,在超限學習機中,一個隐層節點可以是一個由多個神經元組成的超級隐節點單元。[圖4] 這種層次性學習可以最終提供比較理想的 End-to-End Learning 和 One-Shot Learning。
圖3
圖4
G.-B. Huang, "What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle," Cognitive Computation, vol. 7, pp. 263-278, 2015.
3)基本學習單元的統一
就像加減乘除四大基本運算操作是數學體系的基礎,實體體系也是建立在幾大基本定律上一樣,基于生命體的生物學習(Biological Learning)體系其實是建基于至少六大基本學習單元操作之上:壓縮(Compression)、特征學習(Feature Learning)、稀疏編碼(Sparse coding)、聚類(Clustering)、回歸拟合(Regression)和分類(Classification)。[圖5] 這六大基本學習單元操作可以由同樣的超限學習機實作,隐層節點與資料無關,要調整的是從隐層節點到輸出層的連接配接。[圖4] [圖6]
比如支援向量機(SVM),随機投影(Random Projection,RP)以及主成份分析(Principal Component Analysis, PCA)看似不太相關,卻在超限學習機理論和算法下可以有機的統一。2012 年發表在 IEEE Transactions on Cybernetics 上的文章證明了支援向量機是超限學習機的次優解。剛剛發表在 IEEE Transactions on Image Processing 文章指出随機投影和主成份分析其實可以看作是超限學習機的隐層神經元用線性函數時的的一個特例。可是超限學習機也可以用非線性的隐層神經元,是以就可以進行升維,降維,特征學習等功能。是以從特征學習角度看随機投影和主成份分析也是提供次優解。
圖5
圖6
G.-B. Huang, H. Zhou, X.Ding, and R. Zhang, "Extreme Learning Machine for Regression and MulticlassClassification", IEEE Transactions on Systems, Man, and Cybernetics – Part B:Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.
L. L. C. Kasun, Y. Yang, G.-B. Huang, and Z. Zhang, Fellow, "Dimension Reduction With Extreme Learning Machine", IEEE Transactions on Neural Networks, vol. 25, no.8, pp. 3906-3918, 2016
4)普适學習和普适智能
随着物聯網的深入發展,在不遠的未來,大部分的裝置将擁有智能與學習能力。我們相信,就如包括人類在内的生物社會一樣,這些智能裝置也将發展出一個互相交流的「智能體社會」(Internet of Intelligent Things)圖7。每個智能體都嵌入有學習功能并且能互相交流。因而我們有必要提出普适學習(Pervasive Learning)和普适智能(Pervasive Intelligence)的概念和目标。由于超限學習機的學習速度比深度學習快上萬倍,它可以幫助我們實作智能體社會。超限學習機晶片可以內建到硬體中,并實作實時本地線上學習,進而實作普适學習(Pervasive Learning)和普适智能(Pervasive Intelligence)。這幾年,關于超限學習機晶片的研究得到一些實質進展,主要集中在三個方面:多核加速晶片(現場可程式設計門陣列(FPGA)和專用內建電路(ASIC)),神經形态晶片以及以光技術實作 ELM。
圖7
G.-B. Huang, "Extreme learning Machines: Enabling Pervasive Learning and Pervasive Intelligence", Pushing Frontiers, vol. 8, pp. 22-23, 2016.
5)填補不同學習理論間的空白
與 60 年來傳統的學習理論不同,超限學習機理論的一個重要性質是其通用學習能力(壓縮、特征學習、聚類、回歸、分類等)無需通過調整隐層節點來獲得,例如隐層節點可以從前輩繼承或随機生成。進一步來說,超限學習機理論也為傳統神經網絡提供了理論支援(包括局部感受域(Local Receptive Field)和池化政策(Pooling)),而做為局部感受域的一個特殊實作方法的卷積神經操作和池化政策正是深度學習得以成功的主要原因之一。在 ELM 理論和應用下,不同随機分布的随機隐層神經元的産生形成全聯結的網絡或部分聯結的網絡(圖8)。或如 ELM 早期理論(2007 年)指出不同的部分聯結也可以形成局部稠密邊緣稀疏的局部感受域或不同局部感受域的非線性組合(池化政策)(圖 9)。根據 ELM 理論,卷積神經網絡隻是一種局部感受域和池化政策實作,除了卷積神經操作,還有許多其它的局部感受域存在,如何實作還有待進一步研究。
圖8
圖9
嶺回歸(Ridge Regression Theory)、線性系統的穩定性、矩陣穩定性、Bartlett 神經網絡泛化能力理論(Neural Network Generalization Performance Theory)、支援向量機最大邊界理論(Maximal Margin Theory)等在超限學習機以前被認為是不同的理論。特别是 Bartlett 神經網絡泛化能力理論在以前很少用于訓練神經網絡。超限學習機采用了 Bartlett 理論,進而保證其泛化能力。超限學習機的理論顯示,這些之前的理論從機器學習角度看是有機一緻的。
G.-B. Huang and L. Chen, "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.
G.-B. Huang, "An Insight into Extreme Learning Machine: Random Neurons, Random Features and Kernels", Cognitive Computation, vol. 6, pp. 376-390, 2014.
G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine", IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.
2. 作為生物學習的一個「基本粒子」級學習單元的超限學習機
1)生物學習機制的驗證
超限學習機理論顯示,隐層節點很重要,但在很多應用中不需要調整(比如壓縮感覺、特征學習、聚類、回歸和分類)。在理論上,這種神經元的激活函數幾乎可以是任何非線性分段連續的,包括上百種人類無法知道其準确數學模型的人腦中的神經元。在超限學習機理論和技術提出之後的大概 10 年左右,越來越多的有關生物腦學習系統的研究成果直接或間接的支援了超限學習機理論。
- 在 2013 年及之後發表在《自然》等期刊上文章報告了來自美國斯坦福大學,哈佛醫學院,麻省理工學院和哥倫比亞大學等大學的研究人員發現在老鼠的嗅覺系統中神經元在學習過程中是随機産生的。這可能是超限學習機理論首次在生物系統中得到驗證。
- 在 2015 年美國哥倫比亞大學和 IBM Watson 的研究人員進一步闡述生物學習系統中神經元的随機産生可以進一步幫助生物學習系統實作對特征學習(升維,降維等),并且明确指出這在工程實作比如超限學習機是被證明有效的。這些在生物腦中發現的神經元機制和超限學習機理論預測是一緻的。
- 在 2015 年美國喬治亞理工學院和華盛頓大學的一批研究人員通過人的行為學分析簡直驗證人腦中随機神經元機制可以幫助人擁有小樣本學習能力。
- 2016 年發表在《自然•神經科學》上的文章說明了超限學習機理論進一步在猴子的腦中得到了直接驗證。
M. Rigotti, O. Barak, M. R. Warden, X.-J. Wang, N. D. Daw, E. X. Miller, S. Fusi, "The importance of mixed selectivity in complex cognitive tasks," Nature, vol.497, pp. 585-590, 2013
O. Barak, M. Rigotti, S. Fusi, "The sparseness of mixed selectivity neurons controls the generalization-discrimination trade-off," Journal of Neuroscience, vol. 33, no. 9, pp. 3844-3856, 2013
S. Fusi, E. K Miller, and M. Rigotti, "Why neurons mix: high dimensionality for higher cognition," Current Opinion in Neurobiology, vol. 37, pp. 66-74, 2015
R. I. Arriaga, et al.Visual Categorization with Random Projection, Neural Computation, vol. 27, 2015
J. Xie and C. Padoa-Schioppa, "Neuronal remapping and circuit persistence in economic decisions," Nature Neuroscience, vol. 19, 2016
E. L Rich and J. D Wallis, "What stays the same in orbitofrontal cortex," Nature Neuroscience, vol. 19, no. 6, 2016
2)解答約翰·馮·諾依曼對生物學習的困惑
在羅森布拉特的夢想中,他的神經網絡感覺器可以最終幫助實作電子計算機走路、說話、看東西、寫作、繁衍自己并有自我意識,而作為計算機之父的馮·諾依曼卻不解為什麼一個看似不完美生物神經網絡系統卻有完美的學習能力。
超限學習機理論的目标之一是打破機器學習和生物學習之間的壁壘。盡管動物的大腦在總體上來說是結構化及有序的,在其某些層或區域,其局部結構可看成「無序」的。從超限學習理論的角度看,網絡的整個多層結構(人工神經網絡或生物網絡)是結構化且有序的,但它們在某一個神經元層或神經子產品片中看起來「混亂、非組織結構化」。從局部來看,「硬連線」可以是全連接配接或部分連接配接。這種全局結構化而局部随機連接配接的看似「不完美」結構,卻正好構成了基本的完美的學習能力,包括壓縮感覺、特征學習、稀疏編碼、聚類、回歸和分類等。這就解決了馮·諾依曼對生物學習的謎惑。生物學習機制極其複雜,而我們相信「無需調節隐層節點的學習」是很多學習子產品中的一種基本生物學習機制。雖然人腦中也許有幾百種不同種類的生物神經元,他們的數學模型也不為人類所知,但是超限學習機理論指出一個基本的生物學習機制也許是生物神經元本身在學習中是不需要調整的,和應用是無關的。進一步說,随機隐層神經元節點和「随機連線」隻是兩種特定的實作「無需調節隐層節點的學習」的方法。IBM 團隊最近也宣布他們研制出類生物神經元,他們實作的理論基礎正是基于 ELM 理論最早所提出,倡導和支援的:生物神經元應該是随機的。
G.-B. Huang, What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle, Cognitive Computation, vol. 7, pp. 263-278, 2015.
T. Tuma, A. Pantazi, M. L. Gallo, A. Sebastian, and E. Eleftheriou, "Stochastic phase-change neurons," Nature Nanotechnology, vol. 11, August 2016
3)展望
我們相信超限學習機理論和技術提供了一個架接跨越機器學習和生物學習基本「粒子」級的學習機制。也填補了羅森布拉特的夢想和馮·諾依曼的困惑之間有着很大的空白地帶和理論技術鴻溝。這也是實作普适學習和普适智能的必要條件。然而這些還很初步,套用個别神經網絡界前輩對超限學習機的評論和期望:「好戲還沒有開始」,也許更多的令人激動和感興趣的東西還等着大家研究開發。
有興趣的研究人員,可以申請新加坡南洋理工大學黃廣斌教授研發團隊在下列研究方向的博士生、博士後和通路學者位置:海上自主導航資料分析、智能晶片設計、多模資料分析、視訊分析、目辨別别和跟蹤。
©本文由機器之心釋出,轉載請聯系本公衆号和作者獲得授權。