通用人工智能技術綜述（五）

Original AGI聯盟吳博士通用人工智能聯盟

大家好，今天我們繼續分享通用人工智能（AGI）技術的原創綜述，該簡短的綜述将系統性地梳理目前的AGI發展狀态和現狀，并前沿性收納最具有推動力的成果，可以作為該領域的入門參考資料。本分享持續五期，以往的連結在這裡：

通用人工智能技術綜述（一）主要介紹了AGI的定義及領域，國内外研究機構及現狀，多模态感覺，世界模型，通用特征抽取方法；

通用人工智能技術綜述（二）主要介紹了認知架構及其演進，包括認知系統的組成結構，認知過程，記憶結構，基于神經網絡的認知結構；

通用人工智能技術綜述（三）主要介紹了基于大模型的認知技術，包括與人類的認知能力對比，大模型在多步邏輯推理、代碼生成、機器人任務等方面的典型作品；

通用人工智能技術綜述（四）主要介紹了學習機制，包括好奇心、線上/持續學習、神經歸納邏輯程式設計、模仿學習、仿生學習等内容。

本期首先先介紹通用人工智能的評測方法，之後進行AGI的總結和展望。

注：本文為PPT＋講稿形态，建議采用計算機而非手機顯示觀看，講稿位于所解釋的PPT的上方，此稿有部分為個人觀點，有不夠嚴謹之處敬請諒解。

那我們就開始吧~

在這一部分我們主要解決兩個科學問題，第一是通用人工智能的定義，第二是通用人工智能的評估基準。

我們重新評估一下如何衡量智能，在Chollet發表的《On the Measure of Intelligence》這篇論文中，智能被定義為學習者在涉及不确定性和适配性的新任務中，将原先的經驗和先驗轉化為新技能的效率，我們可以簡單的将其觀點概括為智能被度量成技能的擷取效率，也可以認為度量成達到期望的技能程度所需的最少新任務經曆，當然這個度量需要基于明确的任務域、先驗，和目标任務的技能門限，其中，技能門限可以了解為在新任務下的完成能力是有限度的就可以，比如隻需要達到90%正确。

一個簡單的了解是，将達到期望的技能程度所需的最小新任務案例，表現了在遷移學習的時候需要的新任務的樣本數量，或者與環境互動的時間，這個時間或者樣本數量越少，那麼技能擷取效率越高。我們可以從GPT-3以及其衍生版本觀察到這樣一個現象，即他隻需要新任務的few shot，甚至zero shot的一個設定就可以完成這樣一個任務，是以他的技能擷取效率是相對比較高的，而傳統的一些方法需要在新任務上進行fine tune，甚至海量訓練，那麼他的智能程度就相應弱一些，其形象化的比喻如左圖顯示，即在已知的場景下訓練的一個系統，然後，衡量在多大範圍内的未知場景可以使用，即右側兩圖所呈現出來的可以運作的一個區域，可以運作的區域越大，就證明了這個系統智能化的程度越高，即隻需要少量的已知區域，就可以覆寫更多的未知區域。

這種度量具有以下幾個特點，首先，他需要一個範圍,即定義好的一個任務域，這個任務域，即遷移的這個新的任務組成的集合，另外它要在新任務下衡量，而不是在訓練過的已知的任務下衡量，因為他強調的是泛化能力，而且是廣義的泛化能力。另外，他需要用更少的資料樣本或者經曆，來顯現出更高的智能，也就是說不能用大量的資料訓練換取智能，因為他認為智能不是海量的資料換出來的，而是一種能力，是以他更強調小樣本甚至零樣本。

其次在量化泛化的困難度上，分為局部泛化和廣泛化以及通用泛化，上述介紹的在已知區域内訓練，并在已知的，這些任務場景内驗證，屬于局部泛化，而強調的泛化性更多的是廣泛化和通用泛化，即未知任務下的處理能力。

第三，是要達到一個技能的基礎門限，那也就是說要解決好這個新任務，不一定是百分之百解決，可能解決到95%，就足夠了，那麼可以以這個為門限進行測量。

最後是先驗知識的需求，先驗就是這個被評測系統需要被預先設定好的知識或技能，較少的先驗就像定理中較少的公理一樣，可以證明這個系統使用的先驗更少，也就是這個系統的靈活度或者說可适配的可能性越強，且不需要提前告訴太多的資訊，這樣的系統是更智能的，是以用較少的先驗更智能，而且參評者要給出到底使用了哪些先驗。且這些先驗最好是類似人類的初始常識的，例如高低、大小、好壞的概念。那麼這篇論文所闡述的，以泛化性為中心的智能度量就顯著革新了智能的現有的評測方式，現有的在某個任務下的資料級的性能通常是強調該任務内所展現出來的能力，而不是其在新環境，新任務上的适配能力，是以，智能的度量，就從局部範化擴充到廣義範化和通用範化。

我們以ARC dataset 為例，介紹泛化性的基準資料集，這個資料集在感覺方面做了極度的簡化，基本上是以顔色塊和網格作為基礎的，進而可以突出邏輯思維和規則發現的過程。它的任務比較多，但每個任務隻提供了若幹樣本，樣本數量一般小于4，是以它沒有辦法做太多的訓練，更多的需要先驗的知識才容易求解。

如下面最左邊的這個例子，大家可以先做做看，看是否能找到規律。看完這三個例子，資料集會給出一個左側圖，讓智能體作答右側圖的形狀。作答這個例子，需要觀察方塊的顔色，位置，并具有拓撲展開的概念。其它幾個例子諸位有興趣可以自行嘗試一下，你會發現我們在觀察這些圖形的時候充分的借鑒了先驗知識以及歸納邏輯，從中發現相應的規律，而現代的計算機深度學習，較難發現，其中的上述規律，是以很難得到一個高的測試分數。這個資料集的特點，主要以任務多樣本少，推理性強和先驗多為特點，也就進一步的強化了泛化性的測量。

在另一方面，大語言模型近年來發展迅速，也催生了一系列的評估手段，如Big Bench，這個資料集內建了204個語言任務，并且在不斷擴充，它涵蓋了各種各樣的topic以及各種語言如下圖所示，主要用于評估Zero/few-shot設定下語言模型的能力，這是所測量的能力範圍及相應的任務數量，可見他可以測量像Logical Reasoning、Common Sense、程式設計閱讀了解數學等大量的智能特性。

其次在數學常識推理上，也具有着相應的資料集，如Grade School Math，這個資料集具有多樣化的一些國小數學組成的一些數學問題，一般需要類似這個案例中的兩到八個計算步驟才能解決，此外，Common Sense QA是以一個常識為中心的資料集，包含了一萬多個例子，它主要是基于預先學習的先驗知識，回答在一些給定的相關的上下文中的問題，如下例所示，這個問題是：在一個晴天，河水上你如何才能夠将一個杯子立着放并且擷取到水？那麼我們就從下面幾種常識中，推測出是瀑布。

此外在推理邏輯上，還具有如下的一些測評資料集可用，例如ParaRules用于做推理規則，Common2Sense 用來判斷邏輯一緻性，StrategyQA 用來判斷隐式逐漸推理，LogicQA 是由我們中國國家公務員考試提取出來的邏輯題，AR-LSAT 是分析邏輯推理。

對于常識部分也具有Proto QA，CLUTRR，CODH，RICA，PIQA，TIMEDIAL，RECLOR等一些資料題。

在一些數學及定理證明上，還具有像SVAMP，MATH，IsarStep，HOList 等等資料集。

上述是有關評測方面的資訊。下面，我們對AGI技術的整體特點進行概覽，展望和總結。

AGI系統是一個複雜的多層級系統，我們可以從如下的角度來整理并且概括它，首先，它具有着一些應用目标，比如說，傳感和轉換、創意、智能體控制、大腦機制了解等，其行為層主要包括線上學習，終生、持續學習，主動學習，泛化能力等等行為。

這些高層次行為，需要被一個認知架構所支撐，這個認知架構就包含了感覺部分，記憶部分，心智控制部分，以及推理和輸出，其中感覺包括了多模态的資訊處理，視覺、語言、聲音的提取，世界模型的同步更新，特征抽取，感覺實體常識等等内容，

另外一大部分是記憶，它包括了長期和短期記憶，長期記憶又包括聲明式的情境記憶，語義記憶，而非聲明式的又包括了過程性記憶、感覺到特征的記憶等，短期記憶包括了工作記憶。此外，具體實作方案上，有一些仿記憶的人工記憶形态，包括，深度神經計算機（DNC），Token Turning Machines，Transformer，記憶增強網絡等等。此外，我們也需要研究記憶的讀寫機制以及遺忘機制、溫習機制等，在控制方面，智能體需要具備包括好奇心、興趣、自我意識，情感、專注等内容，在推理和學習方面需要具備邏輯推理、學習、規劃、政策搜尋等能力，此外也具有一些輸出能力。綜上的AGI系統具有感覺、記憶、控制、推理，執行等認知能力，并具有智能行為及應用。

在網絡建構層級上，AGI系統還具有着多種網絡形态，如人工的神經網絡形态及類腦的模型形态，這些網絡是通過相關的構築子產品建構的。在微觀學習機制上，包括以反向傳播微代表的全局學習，及以可塑性機制和本地學習機制為代表的仿生學習。此外，也具有着遷移學習、元學習、強化學習、模仿學習、反繹學習、神經歸納邏輯程式設計等學習機制。此外，AGI還具有基于多任務和廣義泛化為基礎的評估體系。綜上，AGI系統具有多種神經網絡模型結構及構築子產品，多樣化的學習機理，具有基于泛化的評估方法。

最後，我們展望一下AGI的趨勢與未來。通用人工智能系統架構到底如何實作，通用人工智能時代什麼時候能到來呢？目前最有可能的AGI路徑在哪裡？有沒有國際上的一個認可的發展思路？

在這方面，我們需要重點提一下基礎模型（foundation model），其詳細的綜述可以參考斯坦福大學100多位專家聯合編寫的綜述論文《On the Opportunities and Risks of Foundation Models》，論文寫的非常詳細，闡述了基礎模型的概念、能力（如語言、視覺、機器人操縱、推理、人類互動等方面）、技術原理（如模型架構、訓練、資料、系統、安全、評估、理論），應用和社會影響。提出這樣的模型會由于其同質性（可了解為統一處理方式）而具有的新生能力（emergent properties），即原本的單任務模型不會具有的能力。綜上原因，結合目前大模型在業界的影響力和實作SOTA的能力，我們認為收斂于基礎模型可能是目前的主要趨勢，是AGI的強力催化劑。

舉個例子，來自微軟亞洲研究院的MetaLM是基礎模型的一個實作，它是一種通用目的接口模型，它本身是一個準因果transformer結構（單方向因果解碼器，但可以接入多個雙向非因果編碼器），可以用于接入各個大模型并進行進一步的融合，适用于各類自然語言處理、多模态處理等任務。

超越基礎模型的另一個點是大模型本身在精确計算、精确知識問答上還具有着顯著不足，是以需要給它配備一個精确知識計算引擎，Wolfram|Alpha就是一個基于符号表達和精确計算語言建構的計算系統，可以顯著改善ChatGPT這樣的大模型算不對數學題等帶有精确數值邏輯的問題，可以認為統計方法與符号方法的結合是未來的可行演進方向。

此外，超越基礎模型結構，我們還需要很多額外的努力用于更好的了解世界、記憶和模仿，例如我們以前介紹過的一些例子，大模型與記憶的結合（Token Turning Machines），大模型與增強學習的結合（SayCan），世界模型與增強學習的結合（DreamerV3），基于增強學習的模仿學習（Gato）等方法是AGI的非常具有競争力的架構參考。

我們也可以從生物腦為出發，看看還有哪些内容是目前技術尚未涉及到的，例如人腦的幾大元件，大體的分工為：額葉（frontal lobe）：主要負責進階運動中樞，前額葉：新近記憶，資訊整合。頂葉（parietal lobe）：主要負責進階感覺中樞，身體知覺。颞葉（temporal lobe）：主要負責聽覺嗅覺，面部識别，情感。枕葉（occipital lobe）：主要負責進階視覺。小腦（cerebellum）：主要負責運動協調。腦幹（Brain stem）：主要負責身體控制功能。強智能分析資源站LifeArchitect.ai的建立者Alan博士認為：尚未有充分進展的地方包括頂葉，即多腦區之間的綜合資訊處理。其次是枕葉、小腦和前額葉的複雜政策規劃這幾部分，而發展較為良好的包括前額葉，颞葉和腦幹的相關功能。目前，筆者認為這個思路很有趣，但對目前的情況概括并不是非常準确全面的。

另外，還有很多複雜的人類心智行為展現并沒有被囊括在内，包括但不限于如下一些方面：沉思，它可能與長程控制、世界模型、情景記憶、邏輯認知的協同工作有關；自我意識可能與長程控制、世界模型、邏輯認知有關；目的、意圖與好奇心、長程控制（注意力）、邏輯認知有關；意志、欲望、興趣與長程控制、邏輯認知有關；智能體還會具有情緒和感受，這與神經調制（如多巴胺）、長程控制（主要指狀态調節）有關；類似的調節還可以形成宏觀決策的調控力，例如更有勇氣的做事情等等。在這些案例中，長程控制和神經調制具有較為重要的作用。

綜上，我們推薦基于神經網絡的AGI架構如下，首先，它是一種結合了大模型和強規則系統的一類AGI模型，其中大語言模型可以實作有經驗的有想象力的邏輯推理和創造，但其上下文關聯的能力是有限的，因為它具有固定的context window，另外，它的不穩定性和意識流的特性仍然存在，是以需要建構一個長程控制系統，實作有限制力的，有規則限制力的，能夠形成深度的思考，穩定和長程的一個限制結構，它不需要非常靈活，但是它需要實作這種長程的，穩定性的深度思考，或者說是一個控制邏輯，并且具備類似于神經調制的宏觀狀态調控能力。

在此為基礎，通過融合世界模型，接納非結構化資料的感覺，同時通過記憶模型，記憶相應的智能體的曆史經驗和新的一些知識規則，并可以通過對外的資料互通，精确的指令控制，及與人的溝通，實作對客觀世界的互動和輸出。在學習機制上，需要綜合利用超大規模資料預訓練、增強學習、持續學習、仿生學習以及模仿學習等多種學習機制，建構一個具有終生學習能力的開放式系統，并實作智能體與外界環境的閉環與緊密互動，進而實作較為綜合理想的AGI系統。

以上就是通用人工智能綜述的全部分享内容

通用人工智能技術綜述（五）

繼續閱讀

原來機場顯示屏上是PPT？不是人工智能用不起，是人工有成本效益！

揭露！美國大科技公司支援以色列用人工智能實施種族滅絕

人工智能竟學會如何欺騙人類！一場關于AI心機的革命已經開始！

馬雲官宣回國，在雲谷學校談ChatGPT：要用人工智能去解決

史上最強AI大模型GPT4o釋出，openai在人工智能領域繼續遙遙領先

被電力卡脖子？紮克伯格：AI資料中心GPU緊缺已緩解，不可能長期高增長，未來瓶頸将是電力供應【附人工智能行業研發投入分析】

第77屆戛納電影節開幕在即部署人工智能安保技術

人工智能“最佳位置”推動台灣主要股指創新高

聚焦人工智能、深空宇宙、腦機接口等科技前沿，2024搜狐科技年度論壇本周開幕

技術應用 | 人工智能技術在反洗錢工作中的應用研究

2024數字中國創新大賽·人工智能賽道複賽圓滿舉辦

人工智能時代，擁抱 or 拒絕？網警給您支招

美國總統科學技術顧問委員會釋出：《賦能研究：利用人工智能應對全球挑戰》

新研究發現部分人工智能系統已擅長“說謊”……一起來聽健康早聞！2024年5月14日

人工智能也能提供“情緒價值”了，OpenAI釋出全新大模型GPT-4o

編織未見：人工智能與視覺叙事｜MC2 AI影像先導活動