天天看點

通用人工智能技術綜述(一)

作者:AI自智體

原創 AGI聯盟 吳博士 通用人工智能聯盟

大家好,今天起我們開始分享一套通用人工智能(AGI)技術的原創綜述,該簡短的綜述将系統性地梳理目前的AGI發展狀态和現狀,并前沿性收納最具有推動力的成果,可以作為該領域的入門參考資料。本分享将持續四期,每期風景不同,希望能給您帶來一趟開心的前沿學術旅程。

注:本文為PPT+講稿形态,建議采用計算機而非手機顯示觀看,講稿位于所解釋的PPT的上方,此外由于講稿一部分是口述,有不夠嚴謹之處敬請諒解。

那我們開始吧~

通用人工智能技術綜述(一)

以下是目錄,首先我們會分析AGI的定義及現狀,之後從感覺技術、認知技術、學習方法、評測基準四個角度對其研究内容及進展進行介紹,最後對AGI的整體情況進行概覽并總結。

通用人工智能技術綜述(一)

首先介紹AGI的定義及現狀

通用人工智能技術綜述(一)

通用人工智能技術是一種系統性技術,它用于建構具有通用任務解決能力和持續自主學習能力,具有感覺、認知、決策和規劃的智能體。并且這個智能體需要具有類人腦的智能特征及水準。通用人工智能技術的終極目标是讓這樣的智能體具有類人腦的智能能力及能效效率,可以在在環境适應性、非特定域任務處理能力、學習能力、認知和邏輯思維能力、記憶能力、感覺能力、自主驅動能力、情感及意識、運作能效效率等多方面達到人類水準。

通用人工智能技術綜述(一)

很多人一直有一個疑問,就是通用人工智能還遙不可及,不可實作。雖然近期随着OpenAI和google的一系列成果的面世,AGI的呼聲已經較原來高了很多,甚至大家希望GPT-4具有AGI的能力。但目前而言,我們還在AGI的路上,即towards AGI。

我們認為智能本身是一個漸變的過程,是以我們本次讨論主要針對一些對通用智能有幫助的目前技術,是我們離通用智能還有多遠的一個務實作狀整理和讨論。

通用人工智能與諸多相關領域都有交叉:包括認知智能,其又包括了像認知架構、記憶系統、神經符号計算、歸納邏輯程式設計等領域。AGI同時也跟類腦智能具有交叉關系,包括腦啟發模型、脈沖神經網絡、計算神經科學、仿生學習機制等内容。AGI還跟知識資料雙驅動具有一定的關系,包括知識圖譜、世界模型以及常識表達等。AGI還跟自主學習、元學習和線上學習等方面具有着緊密的聯系。最後AGI的主要實作載體通常為人工神經網絡和深度學習技術,尤其的包括了通用大模型和增強學習技術,其中大模型又包括了多模态、開放域的視覺處理以及大語言模型等。

通用人工智能技術綜述(一)

建構了通用的人工智能體。那麼它會表現出哪些能力呢?主要包括以下幾點,如slice左側部分展示,建構了這樣的AGI智能體就可以實作的外在能力如slice右側部分展示。

通用人工智能技術綜述(一)

目前AGI相關的成果還是比較豐富的。首先在自然語言處理、認知、常識處理和邏輯推理方面,GPT-3、PALM、LAMDA、ChatGPT等大語言模型發展迅速,大語言模型在AGI領域目前處于引領地位。在代碼生成、數學問題求解、科學問題及醫學問題問答上,通用大模型也取得了不錯的進展。對于通用規劃等技術,MuZero、Gato等增強學習機制提供了多模态、多任務的通用規劃能力及模仿學習能力,是一類非常有前景的多任務學習方法。在認知架構方面,認知功能級别的腦模組化實作了對我們的認知結構的一個人工實作的頂層結構的讨論,具有非常強的通用智能的借鑒意義。

通用人工智能技術綜述(一)

在一些微觀方面,例如在知識資料雙驅動上,基于神經-符号的處理方法可通過圖像感覺與符号處理的結合實作了結構化的圖像處理。此外,在知識表達方面,基于全局隐資訊及局部資訊的Atom Space方法是知識圖譜一種重要借鑒思路。另外,記憶增強網絡實作了更強的記憶機制。最後,像ARC dataset等類似的通用智能測評資料集顯著增強了對泛化性等通用智能能力的研究與評測。

通用人工智能技術綜述(一)

總結而言,目前AGI的技術與現狀包括如下幾點。

通用人工智能技術綜述(一)

目前AGI的主要國際研究機構主要包括DeepMind、OpenAI、Allen Institute for AI、OpenCog等。此外也包括一些神經符号學習的研究團隊,世界模型的研究團隊等。

通用人工智能技術綜述(一)

下面介紹AGI的國内主要研究機構。統計中主要包括強或通用人工智能,以及認知技術和通用大模型等領域。包括如下組織。

通用人工智能技術綜述(一)

AGI的研究現狀分析可總結如下。在國内組織中,大多在研究的是專業領域加潛認知、大語言模型、生物腦了解、類腦器件等。而系統性的研究AGI理論的機構較少。尤其在泛化性、邏輯思維、記憶、世界模型、知識表達等。核心領域的研究組織和成果仍非常有限。國外組織中AGI的核心領域近些年來發展非常迅速。主要包括基于大語言模型和深度增強學習的一系列技術,這些技術從宏觀上嘗試解決AGI的核心問題。也具有着明顯的成效。此外, neuro-symbolic等神經網絡邏輯推理技術,Memory Augmented Network等記憶技術從微觀的角度研究邏輯推理和知識表達機制。這類尚處于原理證明階段。尚無法解決真實世界問題。此外,傳統認知架構理論經多年發展。仍受限于專有領域的無噪聲符号領域處理。與最新的深度學習技術結合仍有待提升。

通用人工智能技術綜述(一)

下面介紹AGI的研究内容。

通用人工智能技術綜述(一)

我們将從感覺、認知、學習和評測四個方面進行介紹。

通用人工智能技術綜述(一)

首先介紹通用感覺技術。

通用人工智能技術綜述(一)

通用感覺主要解決如下三個科學問題。首先是如何建構通用多模态的感覺機制。其核心在于通用。第二,研究如何建立客觀事物到特征空間的映射,即特征抽取。第三,如何建構現實世界與腦中世界模型的映射和同步。核心是世界模型的映射。

通用人工智能技術綜述(一)

首先介紹第一個科學問題的情況,即多模态融合感覺。目前,神經網絡已經實作了很多種模态的處理。包括視覺的圖像、視訊,聽覺方面的音樂、語音。文本方面的自然語言、代碼和公式。網絡方面的圖和知識圖譜。感覺方面的多通路傳感器,比如觸覺、嗅覺等等。在多模态融合方面,采用多模态transformer是目前的主流方案,例如BEiT-3通過多個FFN的專家系統實作了多種模态的分别處理與融合處理。

通用人工智能技術綜述(一)

我們了解一下第二個科學問題,即通用特征抽取方法方面的情況,主要包括開放域的目标檢測和開放域的目辨別别等内容。目前主要技術是采用對比學習方法。其主要進展包括CLIP網絡模型,可以實作任意圖檔和文本相似度的計算,進而實作開放域新型标簽下的圖像分類。以此為基礎,可建構如VILD類似的開放域目标檢測方法。

通用人工智能技術綜述(一)

第三個研究内容是世界模型。我們認為人腦中是有一個客觀世界的主觀模組化的,且推演和決策都基于這個主觀模型,即世界模型。它具有對客觀世界解釋的主觀性,如右上圖所示。其中第一個圖是一個低像素品質的人臉,第二個圖是懸崖、石頭,也可以看成是一個側面的臉。第三個圖是兩個曲别針構成的一個人安撫另一個人的抽象圖。這三個圖都無法直接從圖像本身以深度學習特征抽取的方式直接進行識别,而更多的需要主觀模型的自頂向下的指導才能夠挖掘出這樣的一個寓意。此外,對于遮擋車輛的檢測,如圖很多車已經被遮擋了90%,但是仍然可以判斷這個位置是有車的。又如特斯拉在進行自動駕駛時,實際上是以一個上帝視角對目前的人、車都進行了模組化,并且對未來的運動進行了估計,這都是決策基于主觀模型的一些例子。

通用人工智能技術綜述(一)

世界模型可以用于場景模組化方向。對感覺有障礙的事物進行決策。此外,可以實作主客觀的适配。即top-down和bottom-up的邏輯推理的融合。

通用人工智能技術綜述(一)

在世界模型的建構方法上,LeCun提出的JEPA模型通過在投影空間上的相似性作為距離度量,進行預測函數的估計,可以更好地抓住事物之間的内在相似性。在世界模型的使用方法上,通過世界模型可以實作行為的決策,也就是說,行為決策是基于世界模型而産生的,智能體可以通過預估多個未來的狀态及行為方案,将最優的方案的行為與現實世界互動。

通用人工智能技術綜述(一)

下面舉一個基于世界模型的智能體例子——DreamerV3,它是一個能在多樣化的任務中采用一套固定參數實作智能體增強學習的通用算法,克服了傳統增強學習方法領域間不通用,調參複雜的問題,具有非常好的通用性。其特點是建構了一個世界模型,用于預測感覺資訊的嵌入表達的未來幾十步的情況,并讓actor和critic網絡完全基于這個世界模型建構的抽象序列上學習行為。這個算法采用固定參數,在多個領域150餘個任務下表現優異,且是第一個在Minecraft中不需要人類資料的指導下開采出鑽石的算法,開采出鑽石是需要長時間幾百個正确的步驟的組合才能完成的複雜任務,原先需要采用模仿學習才能達到,因而展現了這個算法的通用性和能力。

(這個網絡具有3個神經網絡,其中世界模型預測基于估計行為的未來場景,critic網絡預測在目前actor行為下每個狀态的回報,actor網絡基于模型的狀态最大化期望回報。)

通用人工智能技術綜述(一)

下次分享的主題是認知架構及基于大模型的認知技術,敬請繼續支援~

繼續閱讀