天天看點

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

在過去的15到20年裡,機器學習的發展呈現爆炸式增長,它利用的是一種被稱為人工神經網絡的結構。如今,當我們談論"人工智能"時,通常指的就是這種類型的技術。

盡管計算機不能思考,但機器現在可以模仿記憶和學習等功能。這些功能在約翰·霍普菲爾德(John J. Hopfield)和傑弗裡·辛頓(Geoffrey E. Hinton)的幫助下得以實作。他們從20世紀80年代開始就在人工神經網絡方面開展了重要的工作。利用實體學的基本概念和方法,他們開發出了能利用網絡結構來處理資訊的技術。

他們也是以被授予2024年的諾貝爾實體學獎,以表彰他們"通過人工神經網絡實作機器學習的基礎性發現和發明"。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

約翰·霍普菲爾德,美國實體學家、神經科學家,普林斯頓大學教授。他在1982年發明了著名的“霍普菲爾德神經網絡”(Hopfield neural network),這是第一個能夠儲存多種模式,并具備記憶功能的神經網絡模型,是神經網絡發展早期的一座重要的裡程碑。霍普菲爾德神經網絡利用了描述材料的原子自旋特性的實體學。它的誕生為遞歸神經網絡的發展鋪平了道路,其提出的能量最小化原理,對于解決優化問題産生了深遠影響。

傑弗裡·辛頓,英裔加拿大計算機科學家、神經科學家,加拿大多倫多大學教授,前“谷歌大腦”負責人。辛頓是神經網絡早期(且一直沒有放棄)的重要研究者之一。20世紀80年代,他為将反向傳播算法(backpropagation)引入多層神經網絡訓練做出了重要貢獻,并發明了“玻爾茲曼機”——一種利用統計實體學、在霍普菲爾德神經網絡的基礎上發展而來的随機遞歸神經網絡。在2012年,辛頓及兩位學生Alex Krizhevsky、Ilya Sutskever發明的AlexNet在計算機視覺競賽ImageNet中以壓倒性優勢取得冠軍,創造了深度神經網絡發展的裡程碑,并激發了大量采用卷積神經網絡(CNN)和圖形處理器(GPU)加速深度學習的研究。辛頓與Yoshua Bengio 和Yann LeCun并稱為“深度學習三巨頭”“AI教父”,共同獲得2018年圖靈獎。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

模仿大腦

如今我們常常聽到的“機器學習”“人工神經網絡”等技術,最初是受到了腦結構的啟發。在人工神經網絡中,腦的神經元是由具有不同值的節點表示的。這些節點通過類比于突觸的連接配接互相影響,而且這些連接配接可以加強或減弱。這種網絡可以被訓練,例如通過加強同時具有高值的節點之間的連接配接。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

左:腦的神經網絡是由具有複雜内部機制的活細胞(神經元)建構而成的。它們可以通過突觸互相發送信号。當我們學習時,一些神經元之間的連接配接變得更強,而其他的則會變得更弱。

右:人工神經網絡是由編碼了數值的節點建構而成的。這些節點互相連接配接,當網絡接受訓練時,同時激活的節點之間的連接配接變得更強,而其他的則變得更弱。

起初,研究神經網絡的科學家隻是想要了解大腦的工作機制。20世紀40年代,研究人員已經開始探索大腦神經元和突觸網絡背後的數學原理。此外,心理學領域也為這一領域提供了重要線索,神經科學家Donald Hebb的假設指出,學習之是以發生,是因為當神經元共同工作時,它們之間的連接配接得到了加強。

随後,科學家循着這樣的想法,通過計算機模拟建構了人工神經網絡,進而重制大腦網絡的功能。在這些模拟中,節點構成了大腦的神經元,每個節點被賦予不同的值,而突觸則由節點之間的連接配接表示,這些連接配接可以被加強或削弱。Donald Hebb的假設至今仍是通過訓練來更新人工網絡的基本規則之一。

20世紀60年代末,一些令人沮喪的理論結果導緻許多研究人員懷疑這些神經網絡永遠不會真正有用。然而,到了20世紀80年代,一些重要思想(包括今年兩位獲獎者的工作)産生的影響,重新點燃了人們對人工神經網絡的興趣。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

聯想記憶

想象一下,你試圖回憶一個相當不尋常且很少使用的詞,比如用于描述電影院或者無障礙通道中那種傾斜地面的詞彙。你在腦海中搜尋:它有點像斜面(ramp)……或許是滑坡(radial)?不,不是。對了,是斜坡(rake)!

這種通過搜尋相似詞來找到正确詞彙的過程,就類似于霍普菲爾德于1982年發現的聯想記憶模型——霍普菲爾德神經網絡——它能夠存儲模式,并且可以重制這些模式。“霍普菲爾德神經網絡”利用了描述材料的原子自旋特性的實體學。整個網絡是以等同于實體學中自旋系統能量的方式來描述的,并通過找到節點之間連接配接的值來進行訓練,使得儲存的圖像具有低能量。當向霍普菲爾德神經網絡輸入一個畸變或不完整的圖像時,它會系統地周遊節點并更新它們的值,這樣網絡的能量就會下降。如此一來,網絡就能逐漸找到與輸入的不完美圖像最相似的已儲存圖像。

為什麼霍普菲爾德會想到用實體學來描述“生物學”?有一次,他受邀參加一場關于神經科學的會議,接觸到了有關大腦結構的研究。會議内容令他着迷,并讓他開始思考簡單神經網絡的動力學特性——當神經元共同作用時,它們能産生新的、強大的特性,如果你隻關注網絡中的每一個獨立神經元,是很難察覺這些特性的。

1980年,霍普菲爾德離開了彼時就職的普林斯頓大學,他的研究興趣已超越了實體學同僚們的研究領域。後來,他接受了加州理工學院在南加州帕薩迪納的化學與生物學教授職位。在那裡,他得以利用學校的計算機資源進行免費實驗,并發展他對神經網絡的構想。

同時,他并未放棄自己的實體學基礎,還從中汲取了靈感,了解了由衆多協同工作的小元件構成的系統如何産生新的有趣現象。他尤其受益于具有特殊特性的磁性材料,這些特性源于其原子自旋——一種使每個原子成為微小磁體的性質,相鄰原子的自旋會互相影響,這使得自旋方向一緻的區域得以形成。他利用描述自旋互相影響時材料特性如何變化的實體學原理,建構了一個包含節點和連接配接的模式網絡。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

網絡用“地形”儲存圖像

霍普菲爾德建構的神經網絡中,節點與節點之間連接配接的強度是不同的。每個節點可以存儲一個單獨的值——在霍普菲爾德的早期工作中,這個值可以是0或1,就像黑白照片中的像素一樣。

霍普菲爾德用實體學中的自旋能量來描述這個網絡的整體狀态。能量是通過一個公式計算的,該公式利用了所有節點的值和它們之間所有連接配接的強度。霍普菲爾德神經網絡通過将圖像輸入到節點中進行程式設計,節點被賦予黑色(0)或白色(1)的值。然後,能量公式會調整網絡的連接配接,使得存儲的圖像能量更低。當另一個模式輸入到網絡中時,程式會依照特定規則周遊每個節點,看看如果改變該節點的值,網絡的能量是否會降低。如果發現将黑色像素變為白色會降低能量,則改變其顔色。這個過程會持續進行,直到能量再也無法降低。當實作這一點時,網絡通常已經能重制訓練時所用的原始圖像。

如果你隻存儲一種模式,這可能看起來并不那麼驚人。你可能會想,為什麼不直接儲存圖像本身,然後與要測試的另一幅圖像進行比較呢?但霍普菲爾德的方法之是以特别,是因為它可以同時存儲多幅圖像,并且經常能通過網絡區分它們。

霍普菲爾德将在網絡中搜尋特定儲存狀态的過程比作“一個小球在山丘和山谷之間滾來滾去”,滾動的球因摩擦而減慢。如果球從一個特定位置被放下,它将滾入最近的谷底并停在那裡。如果給網絡輸入的模式接近某個已經被存儲的模式,它将以同樣的方式繼續前進,直到到達能量景觀中某個谷底,進而找到記憶中最接近的模式。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

霍普菲爾德神經網絡可以用來重制包含噪聲或被部分擦除的資料。圖檔來源:Johan Jarnestad/The Royal Swedish Academy of Sciences

霍普菲爾德等人繼續深入研究了霍普菲爾德神經網絡功能的細節,包括可以存儲任何值的節點,而不僅僅是0或1。如果你将節點視為圖檔中的像素,它們可以有不同的顔色,而不僅僅是黑色或白色。改進後的方法使得存儲更多圖檔并區分它們成為可能,即使這些圖檔非常相似。隻要資訊是由許多資料點建構的,識别或重構任何資訊都是可能的。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

“玻爾茲曼機”

記住圖像是一回事,但了解一張圖像的意思需要再多一點點努力。

即使是年幼的孩子也能自信地分辨出一隻動物是狗、貓還是松鼠。起初小孩可能會偶爾出錯,但很快他們就可以做到幾乎每次都正确。即使沒有看到任何關于物種或哺乳動物等概念的圖表或解釋,小孩也能學會這一點。在接觸過每種動物的幾個例子後,孩子便會逐漸明晰不同的動物類别。通過觀察、體驗周圍的環境,人們能學會識别貓,或了解一個單詞,或進入房間并注意到有些東西發生了變化。

當霍普菲爾德發表關于聯想記憶的論文時,傑弗裡·辛頓正在美國卡内基梅隆大學工作。他曾在英格蘭和蘇格蘭學習實驗心理學和人工智能,當時他就思考:機器是否能像人類一樣學會處理模式,自行分類和解讀資訊。辛頓與同僚Terrence Sejnowski一起,從霍普菲爾德神經網絡出發,結合統計實體學的思想,擴充并建構了新的模型。

統計實體學描述由許多相似元素組成的系統,例如氣體中的分子。追蹤氣體中所有獨立分子的行為是非常困難的,甚至可以說是不可能的。但我們可以将所有分子視作一個整體,進而确定氣體的總體特性,如壓力或溫度。氣體分子各自以不同的速度在一定體積内擴散,但仍能産生相同的集體特性,這其中有許多潛在的方法。

統計實體學可以分析各個元件能夠共同存在的各種狀态,并計算它們出現的機率。有些狀态比其他狀态更有可能發生,這取決于可用能量的多少,19世紀實體學家路德維希·玻爾茲曼(Ludwig Boltzmann)曾用方程來描述這種行為。而辛頓的網絡正是利用了這一方程。1985年,他以“玻爾茲曼機”這一引人注目的名稱發表了這一神經網絡。

玻爾茲曼機通常使用兩種不同類型的節點:一種節點接受資訊,被稱為可見節點;另一種節點構成隐藏層,隐藏節點的值及其連接配接也會影響整個網絡的能量。

這種機器通過逐一更新節點值的規則運作。最終,玻爾茲曼機将進入這樣一種狀态:節點的模式可以變化,但網絡的整體性質保持不變。根據玻爾茲曼方程,每種可能的模式都有由網絡能量決定的特定機率。當機器停止運作時,它已生成了一種新模式,這使得玻爾茲曼機成為生成模型的早期執行個體。

玻爾茲曼機能夠學習——不是通過指令,而是通過輸入的示例學習。它的訓練方式是更新網絡連接配接中的值,使得在訓練時輸入到可見節點的示例模式,在機器運作時出現的機率最高。如果同一個模式在訓練過程中重複出現多次,那這種模式的出現機率會更高。訓練還會影響機器輸出與訓練示例相似的新模式的機率。

經過訓練的玻爾茲曼機能夠識别它未曾見過的資訊中的熟悉特征。想象一下,當你遇到一位朋友的兄弟姐妹,你立刻就能看出他們一定是親戚。同樣地,如果玻爾茲曼機遇到一個屬于訓練資料集中某一類别的新示例,它就能識别出來,并能将其與不相似的資訊區分開來。

在最初的形式下,玻爾茲曼機的效率相當低,尋找解決方案需要很長時間。當它以各種方式發展時,情況變得更有趣了,而辛頓也一直在探索這些發展。後來的版本已經過簡化,因為一些單元之間的連接配接已被移除。結果表明,這可能會使機器更高效。

20世紀90年代,許多研究人員對人工神經網絡失去了興趣,但辛頓是那些繼續在該領域工作的人之一。他還幫助開啟了新一輪激動人心的成果爆發。2006年,他與同僚Simon Osindero、Yee Whye Teh和Ruslan Salakhutdinov共同開發了一種方法,通過一系列分層堆疊的玻爾茲曼機來預訓練網絡。這種預訓練為網絡中的連接配接提供了更好的起點,優化了識别圖像中元素的訓練。

玻爾茲曼機通常被用作更大型網絡的一部分。例如,它可以根據觀衆的喜好來推薦電影或電視劇。

諾獎時刻:他們架起了AI和實體學間的橋梁|紅杉愛科學

機器學習:當下與未來

約翰·霍普菲爾德和傑弗裡·辛頓自20世紀80年代以來的工作,為2010年左右開始的機器學習革命奠定了基礎。

我們現在所見證的人工智能盛況得益于能被用于訓練網絡的海量資料,以及計算能力的巨大提升。如今的人工神經網絡通常非常龐大,由多層構成。這些被稱為深度神經網絡,它們的訓練方法被稱為深度學習。

霍普菲爾德1982年關于聯想記憶的文章中,他使用了一個包含30個節點的網絡。如果所有節點都互相連接配接,會有435個連接配接。節點有各自的值,連接配接有不同的強度,總共有不到500個參數需要跟蹤。他還嘗試了一個包含100個節點的網絡,但對于當時的計算機來說過于複雜。我們可以将其與如今以ChatGPT為代表的大語言模型進行比較,這些模型建構為網絡,可以包含超過一萬億個參數。

許多研究人員正在開發機器學習的應用領域。哪些領域最具可行性還有待觀察,同時圍繞這項技術的發展和使用也引發了廣泛的倫理讨論。

實體學為機器學習的發展提供了工具,而反過來,在過去很長一段時間的實體科研中,其實也已經充滿了機器學習的身影,包括使用機器學習來篩選和處理發現希格斯粒子所需的大量資料、減少測量黑洞碰撞産生的引力波的噪聲或尋找系外行星等等。

繼續閱讀