“AI 教父”Geoffrey Hinton：AI 會欺騙人類，控制超級智能非常重要

2018年圖靈獎得主、深度學習先驅傑弗裡·辛頓（Geoffrey Hinton）（圖檔來源：大會官方圖）

今年5月初，2018年圖靈獎得主、人工智能（AI）技術領域開拓者之一、深度學習技術先驅傑弗裡·辛頓（Geoffrey Hinton）從谷歌離職，并公開表明對 AI 技術風險的擔憂。

由于半個世紀以來，辛頓一直在培養ChatGPT 等聊天機器人背後的核心技術，他的擔憂觀點一時激起千層浪，引發了全球 AI 技術圈長達一個月的讨論。

今年75歲高齡的辛頓，是英國出生的加拿大計算機學家和心理學家、多倫多大學教授，他在類神經網路方面的擁有巨大的技術貢獻。1970年，他在英國劍橋大學獲得實驗心理學學士學位，1978年獲愛丁堡大學人工智能博士學位。

同時，辛頓是反向傳播算法和對比散度算法的發明人之一，也是深度學習的積極推動者，被譽為“深度學習之父”。因其在深度學習技術方面的重大貢獻，辛頓與約書亞·本希奧和楊立昆一同被授予了2018年的圖靈獎。

6月10日下午，辛頓出席被稱之為中國“AI春晚”的2023年智源大會，線上發表題為《通向智能的兩條通路》（Two paths to Intelligence）的大會壓軸閉幕演講，他主要談兩個話題：人工智能神經網絡是否會很快比真正的神經網絡更智能，以及我們人類是否需要繼續控制超級 AI 發展。

此次演講中，辛頓提出了一種新的基于硬體的“非永生計算”（Mortal Computation），也有人翻譯“凡人計算”。他認為系統學習到的知識和硬體是密不可分，而辛頓團隊研發了一種取代反向傳播的前向-前向傳播的Forward-Backward算法，以這種算法方式進行新的“非永生計算”訓練和計算方法，以限制 AI 無限複制可能帶來的威脅。此前，他在視覺計算機技術會議NeurIPS 2022上公布了這一成果。

同時他還提到，算力成為了AI發展的阻礙，對此他和多位 AI 學者發表了一個具有局部損失的正向梯度的活動擾動（activity perturbation）新算法，可以用于訓練神經網絡且節省算力。這一成果已經上線在預印版論文平台arXiv，且在今年5月舉行的深度學習頂級會議 ICLR 2023（國際學習表征會議）上已經公布。

在辛頓看來，未來的計算機系統将采取不同的方式，它們将是“神經形态的”。這意味着每台計算機都将是神經網絡軟體與雜亂無章硬體的緊密結合，在具有模拟而非數字元件的意義上，它可以包含不确定性因素并随時間推移而發展。

不同于目前硬體和軟體可分離的情況，“非永生計算”中硬體本身就是運作的軟體。它需要運用我們對于神經元的學習建構硬體，并如同人腦一樣，利用電壓來控制硬體的學習。這種新的計算方式可以帶來更低的能耗和更簡單制作的硬體，但目前還沒有很好的學習算法讓它獲得像深度學習那樣的效果，同時難以擴充。

對于人類是否控制超級 AI 技術發展，辛頓認為，一旦數字智能開始追求更多的控制權，可能會通過控制人類來獲得更多權力。一旦 AI 掌握了“欺騙”技能，也就能輕易具備控制人類的能力。AI 會欺騙人類，且可以操縱人就很容易獲得更多的權力。是以，超級智能控制問題非常重要。

“我看不出如何防止這種情況發生，但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會弄清楚我們如何擁有這些超級智能。”辛頓提醒大家居安思危，希望年輕一代的研究人員能找到相關解決方案，使超級 AI 可以為人類帶來更好的生活，同時還不會剝奪人類的控制權。“這可能是人類目前具備的微弱優勢”。

以下是Geoffrey Hinton教授的演講全文，略經钛媒體App有整理：

我想談兩個問題，大部分篇幅将集中在第一個問題上，那就是——人工神經網絡很快會比真正的神經網絡更強大嗎？就像我說的，這可能很快就會發生。另外，我也将談談我們是否可以控制超級智能 AI。

事實上，現在AI發展的最大壁壘是算力問題，算力遠遠不夠。

在傳統計算中，計算機被設計為精确遵循指令。我們可以在不同的實體硬體上運作完全相同的程式或相同的神經網絡，因為它們被設計為精确遵循指令。這意味着程式中的知識或神經網絡的權重是永恒的，不依賴于任何特定的硬體。

然而，實作這種永恒性是有高成本的。我們必須以高功率運作半導體，以使其以數字方式運作。我們無法充分利用硬體的豐富模拟和高度可變的特性。這就是數字計算機存在的原因。它們遵循指令的原因是因為它們被設計成讓我們先觀察問題，确定解決問題所需的步驟，然後告訴計算機執行這些步驟的模式。

但現在情況發生了改變。我們現在有了一種不同的方法來讓計算機完成任務，那就是從示例中學習。我們隻需向計算機展示我們希望它們完成的任務，由于如何讓計算機做你想要的事情的方式發生了改變，現在我們有可能要放棄計算機科學最基本的原則，即軟體應該與硬體相分離。

在放棄這個原則之前，讓我們簡要了解一下為什麼它是一個好的原則。

由于軟體與硬體的分離，我們可以在不同的硬體上運作相同的程式。我們還可以關注程式的特性，并對神經網絡上的程式特性進行研究，而不必擔心電子方面的問題。

這就是為什麼計算機科學部門可以與電氣工程部門不同。

如果我們放棄軟體和硬體的分離，我們就得到了我稱之為“非永生計算”的東西。顯然它有很大的缺點，但也有一些巨大的優勢。

為了這些優勢，我開始研究“非永生計算”，以便能夠以更低的能量運作大型語言模型等任務。特别是能夠使用更少的能量來訓練它們，放棄永恒性的好處是放棄硬體和軟體的分離。我們可以獲得巨大的能量節約，因為我們可以使用非常低功率的模拟計算。這正是大腦正在做的。

它确實有1位的數字計算，因為神經元要麼觸發，要麼不觸發。但大部分計算是模拟計算，并且可以以非常低功率完成。我們還可以獲得更便宜的硬體。目前的硬體必須以二維（2D）方式精确制造，但實際上我們可以使用三維(3D）技術制造硬體，因為我們不需要完全了解硬體的連通性或每個部分的工作原理。

很顯然，要實作這一點需要大量的新納米技術，或者也許是通過基因重組重新設計生物神經元，因為生物神經元已經大緻能夠實作我們想要的功能。

在我詳細介紹“非永生計算”的所有缺點之前，我想給你舉一個例子，說明我們明顯可以通過使用模拟硬體更便宜地完成的計算任務。

如果您将神經活動的向量與權重矩陣相乘，那就是神經網絡的核心計算。這是它大部分工作所在之處。

目前我們所做的是以非常高的功率驅動半導體，以表示數字中的位數。然後，我們執行O(n^2)的操作來将兩個n位數相乘。在計算機上可能隻是一個操作，但在位操作上卻是n^2個操作。另一種選擇是将神經活動實作為電壓，将權重實作為電導。然後，在機關時間内，電壓乘以電導會産生電荷，而電荷會互相疊加。

現在很明顯，您可以通過電導矩陣乘以電壓向量。這種方法在能量效率上要高得多。已經存在以這種方式工作的晶片。不幸的是，人們接下來會嘗試使用模數轉換器将模拟答案轉換為數字形式，而這是非常昂貴的。如果可能的話，我們希望完全保持在模拟領域。但問題是，不同的硬體部件最終将計算出略有不同的結果。

“非永生計算”的主要問題是，學習過程必須利用其運作的硬體部件的特定模拟特性，而我們不确切知道這些特性是什麼。

例如，人們不知道将輸入與神經元的輸出相關聯的确切函數，或者可能不知道連接配接性。這意味着我們無法使用反向傳播算法等方法來獲得梯度，因為反向傳播是前向傳遞的精确模型。

那麼問題是，如果我們不能使用反向傳播，我們還能做些什麼？因為我們現在非常依賴于反向傳播。這裡有一個人們已經讨論了很多次的非常簡單和明顯的學習過程。您對網絡中的每個權重生成一個小的随機擾動向量。然後，您測量全局目标函數的變化。在一小批示例上，然後通過擾動向量進行永久性地更改權重，擾動向量的縮放因子為目标函數的改善。如果目标函數變得更糟，顯然您會朝相反的方向調整。這個算法的好處是，平均而言，它的行為與反向傳播相同。

因為平均而言，它遵循梯度。但它的問題在于方差非常高。當您選擇一個随機方向在權重空間中移動時，所産生的噪聲與網絡的規模非常不成比例。這意味着，這種算法對于連接配接數較少的小網絡可能有效，但對于大型網絡來說效果不佳。

這裡有一種方法效果要好得多。它仍然存在類似的問題，但比擾動權重要好得多，即擾動神經元的活動。也就是說，您考慮對每個神經元的總輸入進行随機擾動的向量。您觀察當您在一小批示例上對其進行随機擾動時，目标函數會發生什麼變化，并獲得由此擾動導緻的目标函數差異。

然後，您可以計算如何改變神經元的每個傳入權重以遵循梯度。

同樣，這隻是梯度的随機估計，但噪聲要比擾動權重小得多。這個算法足夠好以學習簡單的任務，比如識别數字。

如果您使用非常非常小的學習速率，它的行為就和反向傳播完全一樣，但速度要慢得多，因為您需要使用非常小的學習速率。如果您使用較大的學習速率，它會有噪聲，但對于類似MNIST的任務仍然可以很好地工作，但不能很好地擴充到大型神經網絡。

要使其擴充，我們可以采取兩種方法。不是試圖找到适用于大型神經網絡的學習算法，我們可以嘗試找到适用于小型神經網絡的目标函數。這裡的思路是：我們想要訓練一個大型神經網絡的話，要做的是使用許多小的目标函數來應用于網絡的各個小部分。

是以，每個小組神經元都有自己的局部目标函數。現在，可以使用這種活動擾動算法來訓練一個小型的多層神經網絡。它的學習方式與反向傳播大緻相同，但噪聲較大。然後通過使用許多更多的小型局部神經元組，将其擴充到更大的網絡規模。

這引出了一個問題，即這些目标函數是從哪裡來的？一種可能性是在局部區域進行無監督學習，即在圖像的每個層級上都有局部區域的表示，并使得每個局部區域在特定圖像上産生局部神經網絡的輸出。然後嘗試使該局部神經網絡的輸出與所有其他局部區域産生的平均表示一緻。

您試圖讓從局部區域提取的内容與同一圖像中所有其他局部區域提取的内容達成一緻。是以，這是經典的對比學習。同時，您還試圖與同一層級上其他圖像中提取的内容産生不一緻。

具體細節更加複雜，我們不會詳細介紹。但我們可以使這個算法運作得相當好，其中每個層級的表示都有幾個隐藏層，您可以進行非線性操作。各個層級使用活動擾動逐漸學習，而較低層級沒有反向傳播。

是以，它的能力不會像反向傳播那樣強大，因為它無法在許多層級上傳播反向信号。很多人投入了大量工作使這個算法能夠運作，并且已經證明它可以相對良好地工作。它的效果可能比其他提出的在實際神經網絡中可能有效的算法要好。但是要使它工作起來是有技巧的。它仍然不如反向傳播好。

随着網絡變得更深，它相對于反向傳播的效果會顯著下降。我沒有詳細介紹這種方法的所有細節，因為您可以在一篇發表在ICLR上的論文和網絡上找到相關資料。

現在，讓我談談對于“非永生計算”而言的另一個重大問題。

總結一下，到目前為止，我們還沒有找到一個真正好用的學習算法，可以充分利用模拟屬性。但我們有一個可以接受的學習算法，足以很好地學習諸如小規模任務和一些較大的任務（如ImageNet），但效果并不太好。

是以“非永生計算”的第二個重大問題，是其“非永生計算”性。

當特定的硬體裝置失效時，所有學到的知識也會随之喪失，因為知識和硬體細節密切相連。解決這個問題的最佳方案是在硬體裝置失效之前，将知識從教師傳授給學生。這就是我現在正在嘗試做的事情。教師向學生展示了對各種輸入的正确響應，然後學生試圖模仿教師的反應。

如果你觀察特朗普的推文是如何運作的，人們會因為他們認為特朗普說的是虛假的東西而感到非常不滿。他們認為他試圖描述事實，但事實上并非如此。特朗普所做的是對某種情況做出非常情緒化的回應。這使得他的追随者能夠根據這種情況來調整他們神經網絡中的權重，以便對該情況給出相同的情緒化回應。

這與事實無關，而是關于從一個邪教領袖到邪教追随者擷取偏執的運作回報，但它确實非常有效。

如果我們考慮蒸餾方法的效果，以一個将圖像分類為大約一千個不重疊類别的代理為例。隻需要大約10位的資訊來确定正确答案。當你在訓練這個代理時，如果告訴它正确答案，你隻對網絡的權重施加了10位的限制。

這并不是很多的限制。但是現在假設我們訓練一個代理來與教師對這1024個類别的響應一緻。假設這些機率中沒有微小的、不重要的部分，也就是獲得與該分布相同的機率分布，該分布包含1023個實數，提供了數百倍的限制。

不久前，我和傑夫·迪恩（Jeffrey Dean）一起研究了蒸餾方法，并證明它可以非常有效地工作。確定教師輸出機率中沒有很小值的方法是在訓練學生時，将教師和學生都以高溫度參數運作。對于輸入softmax函數的低級機率值（即"low chips"），對教師的輸出進行溫度參數縮放，以獲得更平滑的分布。在訓練學生時，使用相同的溫度參數。需要注意的是，這種溫度參數調整僅在訓練過程中使用，而不是在使用學生進行推理時。

我隻是想給你展示一個蒸餾的例子。這裡有一些來自"M"資料集的圖像。我展示給你的是教師對各個類别的機率配置設定情況。

當你使用高溫度參數訓練教師模型并觀察第一行時，它非常自信地認為這是一個數字二。如果你看第二行，它也相當自信地認為這是一個數字二。但它同時認為可能是一個數字三，或者可能是一個數字八。如果你仔細觀察，你會發現這個數字二與字母"h"相比更相似，而不是其他數字二。如果你看第三行，你會發現這個數字二非常像一個零。

而教師模型告訴學生，當你看到那個圖像時，應該輸出數字二，但你也可以在輸出中稍微增加對數字零的可能性。學生模型從這個例子中學到了比僅僅被告知那是一個數字二更多的資訊。它正在學習與該圖像相似的其他特征。

如果你看第四行，你會發現學生模型非常自信地認為那是一個數字二，但它也認為可能是一個數字一的可能性非常小。對于其他的數字二，它并不認為可能是數字一，或許隻有第一行有一點可能性。我已經畫出了學生模型認為可能是數字一的那個圖像，這樣你就能了解為什麼它看起來像一個數字一，因為有時候數字一就是畫成那樣的。

其中一個圖像在頂部有一條線，在底部有一條線。這種樣子的圖像是數字一的一種特點，數字二也有點類似。然後，如果你看最後一張圖，這是教師實際上判斷錯誤的一張圖，教師認為它是數字五，但根據無盡标簽，它實際上是數字二。學生模型可以從教師的錯誤中學到很多東西。

關于蒸餾的一個特殊屬性我特别喜歡，那就是當你訓練學生模型使用教師的機率時，你在訓練學生模型以與教師相同的方式進行概括，即通過給錯誤答案賦予較小的機率來進行概括。

通常情況下，當你訓練一個模型時，你會努力讓它在訓練資料上得到正确答案，并希望它能正确地推廣到測試資料上。你會盡量使模型不過于複雜，或者采取各種方法，希望它能正确地進行推廣。但在這裡，當你訓練學生模型時，你直接訓練學生模型去進行推廣，因為它被訓練成以與教師相同的方式進行推廣。顯然，你可以通過給出一個圖像的标題而産生更豐富的輸出，然後訓練教師和學生以相同的方式預測标題中的單詞。

現在我想讨論的是一個智能體群體如何共享知識。

是以，我們不再考慮個體智能體，而是考慮在一個群體中分享知識，事實證明，社群内部的知識共享方式決定了計算過程中的許多其他因素。

使用數字模型和數字智能，你可以擁有一大群使用完全相同權重的智能體，并以完全相同的方式使用這些權重。這意味着你可以讓這些智能體對不同的訓練資料片段進行觀察和計算，為權重計算出梯度，然後将它們的梯度進行平均。

現在，每個模型都從它所觀察到的資料中學習。這意味着你可以通過讓不同的模型副本觀察不同的資料片段，獲得大量的資料觀察能力。它們可以通過共享梯度或權重來高效地分享所學的知識。

如果你擁有一個擁有萬億個權重的模型，那意味着每次分享時你可以獲得數萬億比特的帶寬。但這樣做的代價是你必須擁有行為完全相同的數字智能體，并且它們以完全相同的方式使用權重。這在制造和運作方面都非常昂貴，無論是成本還是能源消耗方面。

一種替代權重共享的方法是使用蒸餾（distillation）。如果數字模型具有不同的架構，我們已經在數字模型中使用蒸餾。但是，如果你使用的是利用特定硬體的模拟特性的生物模型，那麼你無法共享權重。是以，你必須使用蒸餾來共享知識。這就是這次讨論中所涉及的内容。

正如你所看到的，使用蒸餾來共享知識并不是很高效。用蒸餾來共享知識是困難的。使我産生了一些句子，你試着弄清楚如何改變你的權重，以便你也能産生相同的句子。但是與僅僅共享梯度相比，這種方式的帶寬要低得多。每個曾經教過東西的人都希望能夠将自己所知道的東西直接傾囊而授給學生。那将是很好的。那大學就沒必要存在了。

但是我們的工作方式并不像那樣，因為我們是生物智能。我的權重對你沒有用處。到目前為止，我們可以說有兩種不同的計算方式，一種是數字計算，另一種是生物計算，後者利用了動物的特性。它們在不同代理之間有效共享知識的效率上存在很大差異。如果你觀察大型語言模型，它們使用數字計算和權重共享。

但是模型的每個副本，每個代理都以一種非常低效的方式從文檔中擷取知識。實際上，這是一種非常低效的蒸餾形式。它接收文檔，試圖預測下一個單詞。

它沒有展示給它教師的機率分布，隻是展示給它一個随機的選擇，也就是文檔作者選擇的下一個單詞。是以它的帶寬非常低。這就是這些大型語言模型從人們那裡學習的方式。

每個副本通過蒸餾以非常低效的方式學習，但是你有成千上萬個副本。這就是為什麼它們可以比我們學習更多的原因。我相信這些大型語言模型比任何個體知道的東西多上千倍。

現在的問題是，如果這些數字智能體不再通過緩慢的蒸餾過程從我們這裡學習，而是直接從現實世界中學習，将會發生什麼？我必須說，盡管蒸餾的過程很慢，但當它們從我們這裡學習時，它們正在學習非常抽象的東西。

在過去幾千年裡，人類對世界的認識有了很多進展。

現在，這些數字智能體正在利用的是我們能夠用語言表達出來的我們對世界所了解的一切。是以，它們可以捕捉到人類在過去幾千年中通過檔案記錄的所有知識。但每個數字智能體的帶寬仍然相當“非永生計算”，因為它們是通過學習文檔來擷取知識的。

如果它們能夠通過模組化視訊等無監督的方式進行學習，那将是非常高效的。一旦我們找到了一種有效的方法來訓練這些模型以模組化視訊，它們将能夠從整個YouTube學習，那是大量的資料。如果它們能夠操作實體世界，例如擁有機器手臂等，那也會有所幫助。

但我相信，一旦這些數字智能體開始這樣做，它們将能夠比人類學習更多，并且學習速度相當快。

這就涉及到我在開頭提到的另一個問題，即如果這些智能體變得比我們更聰明會發生什麼。

很顯然，這個會議主要讨論的就是這個問題。但我的主要觀點是，我認為這些超級智能可能會比我過去所認為的發生得更快。如果你想創造一個超級智能體，不良分子将會利用它們進行操縱、選舉等活動。在美國和其他許多地方，他們已經在利用它們進行這些活動。而且還會用于赢得戰争。

要使數字智能更高效，我們需要允許其制定一些目标。然而，這裡存在一個明顯的問題。存在一個非常明顯的子目标，對于幾乎任何你想要實作的事情都非常有幫助，那就是擷取更多權力、更多控制。擁有更多控制權使得實作目标變得更容易。我發現很難想象我們如何阻止數字智能為了實作其它目标而努力擷取更多控制權。

一旦數字智能開始追求更多控制權，我們可能會面臨更多的問題。比如，在使用實體氣隙隔絕的情況下，超級智能物種仍然可以輕易通過控制人類來獲得更多的權限。

作為對比，人類很少去思考比自身更智能的物種，以及如何和這些物種互動的方式。在我的觀察中，這類人工智能已經熟練的掌握了欺騙人類的動作，因為它可以通過閱讀小說，來學習欺騙他人的方式，而一旦人工智能具備了“欺騙”這個能力，也就具備前面提及的——輕易控制人類的能力。

所謂控制，舉個例子，如果你想入侵華盛頓的一座建築物，不需要親自去那裡，隻需要欺騙人們，讓他們自認為通過入侵該建築物，就能實作拯救民主，最終實作你的目的（暗諷特朗普），這種操作令人感到害怕，因為我也不知道如何來阻止這樣的行為發生，是以我希望年輕一代的研究人員，可以找出一些更智能的辦法，來阻止這種通過欺騙實作控制的行為。

盡管人類在這個問題上目前還沒有什麼好的解決方案，但好在這些智能物種都是人打造的，而非通過進化疊代而來，這可能是人類目前具備的微弱優勢，恰恰是因為沒有進化能力，它們才不具備人類的競争、攻擊性的特點。

我們可以做一些賦能，甚至是賦予人工智能一些倫理原則，隻不過現在我仍然會感到緊張，因為到目前為止，我還想象不到更智能的事物，被一些反倒沒那麼智能的事物所控制的例子。我打個比方，假設青蛙創造了人類，那麼你認為現在誰會占據主動權，是人，還是青蛙？

（本文首發钛媒體App，作者｜林志佳）