天天看點

通用人工智能技術綜述(四)

作者:AI自智體

Original AGI聯盟 吳博士 通用人工智能聯盟

大家好,今天我們繼續分享通用人工智能(AGI)技術的原創綜述,該簡短的綜述将系統性地梳理目前的AGI發展狀态和現狀,并前沿性收納最具有推動力的成果,可以作為該領域的入門參考資料。本分享将持續五期,本期主要講述類人腦的學習方法。

注:本文為PPT+講稿形态,建議采用計算機而非手機顯示觀看,講稿位于所解釋的PPT的上方,此外由于講稿一部分是個人觀點,有不夠嚴謹之處敬請諒解。

首先"學習"不等于"訓練",今天研究的是廣義的學習,不研究怎麼煉丹。那我們開始吧~

通用人工智能技術綜述(四)

我們首先觀察一下學習的特點,首先是學習的條件。類人的學習過程是基于線上、流式的一個學習環境下進行的,這個環境是邊用邊學,或者說在智能體的工作期間進行學習的這麼一個環境,是以叫線上學習,那麼第二個特點,第二是流式,相較于目前深度學習通過先建構海量資料集再去訓練的方式不同,它的學習更多的是依靠現實世界的流式串行資料。第二,學習是在外界刺激和好奇心的雙驅動下進行的。也就是說學習的動機主要出于兩者,一者是外界的激勵刺激,另一個是自身的好奇心,兒童通常在外界刺激之外,做出一些探索性的、基于自身的好奇而去做的事情,這些事情正是智能體進化的關鍵。

第二部分是如何學,也就是學習的過程,第一類是元技能的擷取與組合,如果一個任務,例如做手術或者炒菜需要分解成幾百個甚至更多的步驟,那麼每一個步驟就是一個技能,這些技能需要通過鍛煉擷取,智能體也可以将其組合起來,形成複雜的行為機制,那麼這些元技能的擷取的過程群組合方式就是要學習的地方。

第二類是模仿學習,人類通過模仿可以快速的學習技能及組合方式,是人類知識傳承的主要途徑。

第三類是仿生的學習機制,包括神經調制方法,突觸可塑性機制等,這些機制可用于更新突觸權重,重構網絡的結構,這些學習機制是神經網絡的建構和更新機制的底層。

第四類是記憶,我們認為記憶機制是一類特殊的學習,因為人類通常是通過以往的經驗來決策的,我們通常會基于一些重要但極少樣本的曆史經曆來指導目前的決策,我們并沒有對神經網絡進行結構或權重的廣範圍的更新,隻是把這個情況和需要采取的政策記住了,并且應用它,是以它也是一種特殊的學習,即以記代學,這是一個重要的工作方式。

最後,在學習的效果方面,學習的成果主要用于對新環境的适應和新任務的處理,以及持續不斷的學習更新自我,即終生學習。

通用人工智能技術綜述(四)

由于學習方面的話題非常大,在此,我們主要關心如下6個核心的科學問題,包括:

科學問題1. 如何實作終生、持續、線上的學習能力,并實作新環境及新任務的快速适配;

科學問題2. 如何基于好奇心與主觀能動性,實作自我驅動學習;

科學問題3. 顯式及隐式知識的擷取及應用模式;

科學問題4. 如何通過模仿學習,通用且高效率的擷取知識及技能;

科學問題5. 如何利用記憶輔助學習及決策;

科學問題6. 生物學習機制對智能體的學習有何借鑒。

通用人工智能技術綜述(四)

首先我們讨論第一個科學問題,即科學問題1. 如何實作終生、持續、線上的學習能力,并實作新環境及新任務的快速适配。

這部分,我們就需要介紹終生學習機的概念,我們可以認為人腦就是一個終生學習系統,我們從出生到今天,一直都在根據需要的生活、工作和學業需求進行更新。而目前的智能體通常基于預訓練+finetune+部署的形态工作,更新能力是有限的。是以我們需要研究終生學習。終生學習從不終止,性能根據經驗增長,且使用的計算和存儲資源适當的學習機制。終生學習又包含着遷移學習和持續學習的概念。具體的,包括如下幾個方面:

第一,遷移和适應, 即有能力将知識遷移到新環境,并采用少樣本和元學習适配新環境。其中元學習指的是學習如何更快的學習概念。

第二,克服災難性遺忘,擷取新知識同時不忘記舊知識。

第三,利用任務相似性輔助學習,技能基元化及組合性(compositionality),實作舊任務學到的技能遷移到新任務,及反過來(forward/backward transfer)。

通用人工智能技術綜述(四)

第四,任務診斷學習,指智能體在訓練過程中需自行判斷任務的變化,需自行尋找與新任務類似的舊任務;

第五,噪聲忍受,由于傳感器資料大多與優化清理過的訓練集資料不一樣,更髒,更易環境變化,智能體需要适應這樣的髒的訓練資料;

第六,資源效率和可持續,首先需要不影響實時推理,其次需要維持記憶的增長;

第七,非任務性學習(自主性)包括自監督學習和基于好奇心的監督學習。

通用人工智能技術綜述(四)

這些領域中,機器學習關注并實作了部分的内容,我們重點讨論一下,首先是線上學習,它指的是一類邊用邊學,持續更新,而不是先訓練再部署的學習方法。在這個領域,一個主要研究的方向是克服任務随時間變化的問題以及需要流式處理的問題,即需要檢測任務變化,并根據新的任務更新模型,此外,需要采用少量的樣本更新并立即生效。

另外一個領域是持續學習,其中一個研究方向是克服災難性遺忘。目前可以采用的方案包括互補學習系統,即采用臨時的記憶(情境記憶或工作記憶)實作短期的快速學習,通過網絡結構及突觸參數的改變實作長期學習,通過重放機制可以實作短期學習的資訊重制并轉換到長期學習,類似于海馬和大腦皮層組成的互補機制。

值得指出的是,機器學習中的這些概念是生物中對應概念的縮小版或者不完全版的現象很多,甚至有些時候隻是有點沾邊,後邊的諸多概念也具有這個情況。

通用人工智能技術綜述(四)

接下來我們讨論第二個科學問題, 即如何基于好奇心與主觀能動性,實作自我驅動學習。

好奇心是人類學習的核心驅動力,尤其是孩子。在增強學習領域,目前已經有不少有關内在動力(Intrinsic motivation) 或者說好奇心驅動(Curiosity-driven)的一些成果。例如一個比較典型的例子是OpenAI研發的僅通過好奇心驅動的增強學習智能體,它可以實作對于54個Atari遊戲、超級瑪麗遊戲及機器人控制的多領域的優秀的性能。其核心是使用預測誤差作為獎勵信号的好奇心,在外在環境獎勵非常稀疏或者難以設計的情況下,采用内在獎勵實作對環境的主動探索。結果表明内在好奇心目标函數和手工設計的外在獎勵的效果類似,都實作了很不錯的學習。

目前好奇心及内在動力方面大多是增強學習系統在考慮,其生物學尚的特性大多還沒有挖掘,具有很大的研究空間。

通用人工智能技術綜述(四)

下面介紹科學問題3. 知識的擷取及應用模式。首先介紹顯式知識,它在此主要指能夠被明确表達的一個個技能或聲明式記憶存儲的常識,如三元組。我們可以将這些知識了解成元知識或者元技能,使用時需要将其組合實作複雜的邏輯思維或規劃執行。下面,先介紹元技能的學習群組合過程。首先是元技能的管理,我們可以認為元技能是一系列小的獨立的技能,是以需要進行有效的存儲和管理。其次是元技能的學習與更新,對于每一個元技能而言,它可以被獨立的更新和學習,第三是元技能的組合,也就是元技能本身學好之後,它可以被組合使用,并且如果經常被組合使用,它也可以合并若幹小的技能,變成一個大的技能,也就是chunked rule,元技能的合并也可以發生在兩個非常相似的元技能合并成一個,另外也有元技能的遺忘,不需要技能的可以丢棄。

通用人工智能技術綜述(四)

在這方面,神經歸納邏輯程式設計做了一些嘗試性的工作,其可以從規則模闆和一系列正反例子中學習出規則邏輯,傳統的ILP是符号表達,而Neural ILP是基于神經網絡的可微分實作。Neural ILP緻力于解決幾大挑戰:首先,規則如何歸納,并且可以泛化,讓它脫離具體的事物和具體的參數,這是一個規則的提升的挑戰,也就是我們更希望擷取的是抽象的規則,适應度更高的規則。第二,需要支援高階關系資料和量詞,第三,需要支援大的規則複雜度,尤其是邏輯規則串聯形成的指數增長問題,最後,需要使用盡量少的先驗,如我們不對規則進行手工的模闆限制,或者搜尋空間限制等等。那麼某些Neural ILP的方案采用了如下的主體思路,其中包括采用軟的邏輯如t-norm替代二制邏輯,這樣才可以實作可微分,之後建構單個邏輯層和多步邏輯網絡,進而建構出一個比較完備的邏輯網絡,之後建構與輸入感覺的比對,可以通過全連接配接或稀疏互聯等方案,之後可以建構量詞的表達能力,如無元、單元、多元等等及其切換路徑,最後建構完的網絡通過BP訓練方法實作訓練。

通用人工智能技術綜述(四)

這是一些典型的認知邏輯過程的學習案例,包括用神經網絡等價帶有量詞的多步驟符号推理,以及通過CNN作為感覺的并且通過relations子產品作為grounding方式的,後期介入邏輯主範式的網絡等效實作的形态。另外,右圖也展示了一個邏輯網絡的神經網絡等效描述及可微分訓練獲得參數的方案。這些方案能在一些小的智能體任務及一些邏輯推理資料集上獲得一定的成績。

通用人工智能技術綜述(四)

另一個方面是反繹學習,它可以将符号系統與神經網絡系統協同工作,這個系統與上述系統不同的是,它并不是把神經網絡改成邏輯或者反之,而是将兩者都存在并協同工作作為核心點,它的特點是符号系統通過知識實作規則違背的檢測,并通過修改一部分标簽,讓規則在目前的神經網絡的檢測結果下更可能成立,也就是說,神經系統的預測結果,通過符号系統進行标簽級的糾正,因為它具有知識架構,進而可以修正提供一個更好的僞标簽,回饋給神經網絡,神經網絡通過這個新的标簽進行權重更新,讓其推理結果在新的标簽下的機率符合性,新的标簽在通過knowledge base進行邏輯上的比對,以此作為一個循環,進而實作良性的更新循環,我們可以右側的例子作為一個典型案例進行闡述,比如,中間這個圖,我們可以了解成海?百川幾個字,但是中間這個字可能看不太懂,那麼我們怎麼猜測這個草書的内容呢,首先我們具有國文知識庫,我們學過這個成語,是以我們可以猜測出中間這個詞是海納百川的‘納’字,這個就是采用知識進行推理的結果的一個糾正的一個過程,那麼有了海納百川這個标簽之後,我們右邊這個圖可能就更容易了解了,因為,這個圖我們可能也隻能從感覺中推理出海、百、川幾個字,剩下的字都很難了解,但我們推理出中間是納字之後,剩餘的字就變成了海納百川之後的四個字應該是什麼,通過國文知識庫,我們可以推理出有容乃大,是以剩餘的草書上的字就被猜出來,這個例子就是感覺系統或者神經網絡與基于知識庫的邏輯推理進行深度的融合,循環,互糾正建構出來的一個反繹學習的例子。

通用人工智能技術綜述(四)

下面介紹科學問題3的另一方面:隐式知識的擷取及應用模式。我們可以發現,很多知識常識是隐藏在視覺感覺資訊之後的,例如FPICU這5個核心要素,可以了解成是隐式的常識知識,但可以從視覺特征中學習,包括這五個方面:

Causality:行為作用于物體,形成一種因果關系,導緻物體瞬态的改變,如開關處于打開和關閉的狀态;

Physics:實體常識,如樹枝能否承擔住小孩,人會對超出實體直覺的東西表示驚訝;

Functionality:物體的功能,例如杯子可以盛水;

Intentions and goals: 意圖和目标,例如去一個地方取東西;

Utility and preference: 效用,人的行為通常具有最優效用,如人從一個地方走到另一個地方,一般會走最短路徑。

這些常識資訊可以顯著輔助視覺資訊的處理和推理,且這些資訊具有更優的泛化能力,相當于針對圖像而言構造了一個高層次的認知模型,是以可以實作雙向推理,即自頂向下與自底向上的結合,進而也可以用更少的資料實作學習、工具的使用等等。另一個方面,整體感覺這樣的總結更多是從感覺系統出發往認知去擴充想到的規劃方案,原文的好多例子也更像是感覺+簡化的專用認知方案,而我覺得如果從一個通用的認知架構本體往感覺去考慮可能會更通用,更有泛化性。

通用人工智能技術綜述(四)

例如下邊這個實體常識方面的例子,對很多的實體常識,如實體運動定律,數學的一些基礎的規律等等,這些規律可以通過感覺抽取後進行關系圖或與或圖的表達,将感覺到資訊通過認知的知識進一步加工,在認知層面上通過符号或次符号表達實作相應的分析,實作對于這些實體常識的一個推理和利用。

通用人工智能技術綜述(四)

下面介紹科學問題4. 即如何通過模仿學習,通用且高效率的擷取知識及技能。目前多個增強學習算法已經展現了模仿學習是快速學習的一個重要途徑,例如基于GATO的大語言模型的這麼一個例子,它可以實作通用的多任務處理,例如玩Atari遊戲,給圖像打文字标簽,聊天,用機器人手摞積木等等這樣一些任務,它可以将各個需要被模仿各種模态的輸入和輸出都當做token作為輸入,進行embedding,之後通過transformer(圖像需要先通過ResNet)預測下一個token。采用自回歸方法進行訓練,就可以訓練出一個符合我們預期的模仿出來的action的網絡,這樣的智能體具有一定的泛化性,适應新任務的能力也比較強。

通用人工智能技術綜述(四)

下面介紹科學問題5. 即如何利用記憶輔助學習及決策。首先介紹基于語義記憶例如知識圖譜進行決策的過程。其中一個主要的問題是如何借助以往經驗解決目前問題,由于以往學習的知識跟目前的需求并不是完全一緻的,是以需要從以往經驗總結到的知識圖譜中尋找目前問題的解。

知識圖譜的預測和補全是這種思維邏輯的典型案例,解釋如何通過三元組知識圖處理目前的輸入的三元組補全或預測。首先我們可以把知識存儲在三元組建構的知識圖譜中,但這樣的知識圖譜通常會缺少目前所問的問題的直接資訊,例如右圖的這個例子,X,Y和Appear in TV show這樣的一個三元組關系是否成立呢,我們可以從這個圖中去擷取相應的隐藏關聯,并推算它成功的機率。這個成立的機率,包括了兩者之間節點的多跳的關系情況,以及中間某些連接配接可能是反向蘊含的關系,例如X和Y的Has Actor的這麼一個反向蘊含的情況,那麼可以直接推斷上述是成立的,也可以有下面這個X-U-V-Y的這麼一個複雜的鍊條,這個鍊條中的蘊含有正向的,也有反向的,也暗示了X和Y具有類似的一個屬性的可能性,是以也一定程度上可以推理出最上面的這個結論。為了實作類似的一個知識補全的能力,我們可以通過一個增強學習的Agent,在這個Knowledge Base的三元組上遊走,周遊新的路徑,确定新的事實關系,首先将節點和關系嵌入到低維空間,并通過狀态向量,狀态轉移機率矩陣,等等方式進行位置表達和遊走關系的表達,并通過獎賞機制,讓其在知識圖中進行遊走。獎賞機制概括為以下幾個程度的組合,是否達到了目标,目标節點路徑的有效性,路徑的多樣化程度等,訓練過程和采用REINFORCE的方法進行更新。

這裡邊的Agent實際上是腦中的思維邏輯控制器,類似于認知架構的動态運作的循環,這個例子與人通過曆史經驗尋找問題的解是有一定的類似性的。

通用人工智能技術綜述(四)

下面介紹一個采用情境記憶+好奇心用于建構增強學習獎賞信号的例子。它的網絡結構中引入了情境記憶,這個記憶體可以記錄住曆史上感覺資訊的嵌入向量,并與目前嵌入的類似性進行比較,比較通過comparator network完成。最後,通過比較結構,建構好奇心獎賞,這個獎賞用于增強RL的獎賞信号,即相加的過程。其中在進行comparator network的訓練的時候,引入了可達性的概念,因為沒有任何一個目前嵌入會與曆史資訊完全一緻,是以可以認為當兩個場景離得不遠,可以用幾步範圍内到達的情況下,就可以認為是正例,足夠遠的,即步數非常多的是負例,這樣就可以訓練出一個比較網絡,用于區分情境記憶與目前嵌入的區分度有多大。

通用人工智能技術綜述(四)

最後介紹一個跟工作記憶有關的一個案例,它是神經圖靈機的改進版本,大家應該對Neural Turing Machines即NTM并不陌生,可以說是開啟了神經網絡記憶機制的先河,然而由于NTM的讀寫頭訓練困難,專有化程度高,是以并沒有真正流行起來,這次的改進方案即Token Turing Machines,将Transformer與記憶子產品結合,實作了長程視覺了解任務的處理,例如視訊活動的檢測和saycan機器人任務完成率的顯著優化。其主要特點是建構了一個更容易訓練且更通用的讀寫頭,并采用transformer實作了多步計算。在讀寫頭設計上,通過token summariser實作降維計算,例如讀記憶體部分可以将96個記憶的token和3000多個輸入的token降維到10個token并通過處理單元(即transformer)處理。這個降維的過程使用token summariser完成的,具體的是通過類注意力或者mlp網絡實作。這個模型有效的補充了transformer在記憶上的不足,也可以認為是通過工作記憶進行工作的一個典型例子。

通用人工智能技術綜述(四)

上邊我們分别從三種記憶模式的神經網絡實作進行了記憶能力的展示。記憶的發展空間非常大,至于是用單獨的存儲體還是直接存儲在網絡中目前思路并不一緻,但具有單樣本、少樣本的記憶能力是至關重要的。

下面我們介紹第六個科學問題,即生物學習機制對智能體的學習有何借鑒。首先我們了解一下生物神經網絡的特點,它主要包括如下幾個方面:首先類腦網絡具有多簇回環結構,網絡高度回環互聯,而不像大多深度學習算法采用的feed forward形态,其次,神經元之間的連接配接稀疏度很高,且遵循局部較為稠密,跨局部稀疏的特點,即使是局部的稠密部分,例如1mm^2的microcircuit視覺皮層模型,神經元間的連接配接密度也隻有4%左右。再次,類腦網絡的執行遵循動力學過程,即具有時間次元的演變過程,可以類比于recurrent neural network。此外,神經元具有較為複雜的内部結構,突觸、樹突也具有較為複雜的結構,如果詳細模組化的話,一個神經元就可以等同于深度學習的一個小型網絡。此外,突觸具有本地化的學習能力,稱突觸可塑性。最後,網絡遵循事件驅動,脈沖傳播的特點,也叫動态稀疏性,有輸入才有突觸計算,這也是生物腦比較省能量的原因之一。是以從生物腦出發,可以挖掘一些新的實作思路。例如基于MoE的大型transformer可以認為是事件驅動和塊稀疏網絡的人工版本。然而另一方面,這種稀疏的事件驅動的結構對大規模的規則并行計算及并行訪存而言并不友好,不如矩陣乘或卷積的計算效率高(以每瓦操作數為衡量),此外訓練也有難度,是以目前我們更多的是有取舍的進行借鑒更為恰當。

通用人工智能技術綜述(四)

基于生物的神經網絡結構,我們就可以了解生物腦中與學習有關的機制。

神經發育:動态結構,生長新的神經元、突觸,記憶新的資訊,有助于克服災難性遺忘,并滿足新的增長的處理需求。

情境重演:(海馬體-皮層)記憶模型(即海馬體快速學習随後皮層 緩慢學習)。新皮層将這些從海馬體發起的重播與其自身(已經鞏固的)神經模式的重播交織在⼀起,以便整合新資訊而不重寫以前的記憶結構,重播對于大腦記憶鞏固起到很大作用。

元可塑性:突觸可塑性是記憶的核心機制,而plasticity of plasticity(metaplasticity)指突觸被修改的能力取決于其内部生化狀态,而這又取決于突觸修改的曆史和最近的神經活動。突觸強化有助于記憶的強化,快記憶,慢遺忘的實作。此外,生物突觸權重的修改涉及在不同時間尺度上運作的多個級聯過程。快速和慢速機制允許快速擷取新資訊,并根據後續事件延遲決定是否永久更改。虛假信号可能隻會導緻突觸強度的暫時改變,而重複的強輸⼊信号會留下永久的記憶痕迹。有助于解決穩定性-可塑性困境。

神經調制:釋放神經遞質,對活動和可塑性具有局部作用和全局作用。神經調節可以促進學習,幫助克服災難性遺忘,支援适應不确定和新奇的經曆,并提⾼對環境變化的了解。

上下文依賴的感覺和門控:上下文在調節、過濾和吸收新資訊方面起着重要作用。這對于跟蹤不斷變化的環境、關注變化的部分以及整合新資訊都⾮常重要。上下文門控是神經元亞群的選擇性開啟,有助于減少相似經驗之間的幹擾。也幫助過濾掉不太相關的刺激,并專注于需要立即響應的關鍵性刺激。

階層化分布式系統:這允許處理和學習分布在整個身體的多個神經元網絡中,每個網絡都具有網絡内稠密但相對稀疏的網絡間連接配接。通過利用這種分層和分布式架構,生物系統大大減少了每⼀層的輸⼊和輸出次元,以減少延遲并加速學習。

腦外認知:許多生物系統展示了無需神經系統的幫助的智能,例如從經驗中學習、預測未來事件和适應性地應對新挑戰的能力。單個細胞甚至分子網絡,非神經⽣物電網絡或轉錄網絡等亞細胞過程。生物學利用相同的機制(生物電和其他類型的網絡、多尺度穩态機制、 組織層次内部和之間的合作與競争)來解決困難空間中的搜尋問題。最近的資料也揭示了在全身神經網絡和單細胞通路網絡中如何處理資訊的重要共性。

可重配置能力:生物有機體具有高度可重構性,也能夠重塑腦組織,同時保持資訊内容(記憶)。

多傳感融合:如上丘整合了來自不同感官的感覺資訊(即視覺、觸覺和聽覺信号)以産生協調的眼睛和頭部運動。

通用人工智能技術綜述(四)

下面介紹仿生學習與機器學習機制的融合,在這部分,我們主要介紹可塑性及本地學習方面,全局學習有大家比較熟悉的back-propagation等,仿生本地學習主要仿生的是生物腦神經元的可塑性及突觸的可塑性,可塑性就是可塑造、可改變的意思,那麼突觸的可塑性,包括着連接配接或者結構上的可塑性,以及突觸強度的可塑性,強度可塑性可簡單概括為長期的和短期的,其中長期的分增強和減弱,例如Hebb法則,STDP法則及其變種等等,胞體可塑性包括了神經元内部的一些參量的調整能力,例如内穩态,類似于深度學習的自演化機制,以及門檻值自适應方法,因為脈沖神經網絡是超門檻值發放的一個基礎形态,是以門檻值的自調節非常重要,全局本地融合學習即融合了全局和本地的一些學習機制,那麼它的權重更新具有全局的範圍的更新,也具有本地的互相相鄰神經元間突觸的更新,例如Reward-modulated STDP,Predictive Coding,Equilibrium Propagation等方法。

通用人工智能技術綜述(四)

目前,仿生學習還處于較為原始的階段,算法很多但精度和通用性大多較為有限。

本期分享就到這裡,由于學習機制目前還尚不成熟,大量問題并沒有定論和代表作,是以本部分概念更多,實作方案有限。下期,我們将關注智能基準評測,并進行AGI的總結和展望。謝謝大家關注~

繼續閱讀