通用人工智能技术综述（一）

原创 AGI联盟吴博士通用人工智能联盟

大家好，今天起我们开始分享一套通用人工智能（AGI）技术的原创综述，该简短的综述将系统性地梳理目前的AGI发展状态和现状，并前沿性收纳最具有推动力的成果，可以作为该领域的入门参考资料。本分享将持续四期，每期风景不同，希望能给您带来一趟开心的前沿学术旅程。

注：本文为PPT＋讲稿形态，建议采用计算机而非手机显示观看，讲稿位于所解释的PPT的上方，此外由于讲稿一部分是口述，有不够严谨之处敬请谅解。

那我们开始吧~

以下是目录，首先我们会分析AGI的定义及现状，之后从感知技术、认知技术、学习方法、评测基准四个角度对其研究内容及进展进行介绍，最后对AGI的整体情况进行概览并总结。

首先介绍AGI的定义及现状

通用人工智能技术是一种系统性技术，它用于构建具有通用任务解决能力和持续自主学习能力，具有感知、认知、决策和规划的智能体。并且这个智能体需要具有类人脑的智能特征及水平。通用人工智能技术的终极目标是让这样的智能体具有类人脑的智能能力及能效效率，可以在在环境适应性、非特定域任务处理能力、学习能力、认知和逻辑思维能力、记忆能力、感知能力、自主驱动能力、情感及意识、运行能效效率等多方面达到人类水平。

很多人一直有一个疑问，就是通用人工智能还遥不可及，不可实现。虽然近期随着OpenAI和google的一系列成果的面世，AGI的呼声已经较原来高了很多，甚至大家希望GPT-4具有AGI的能力。但目前而言，我们还在AGI的路上，即towards AGI。

我们认为智能本身是一个渐变的过程，因此我们本次讨论主要针对一些对通用智能有帮助的当前技术，是我们离通用智能还有多远的一个务实现状整理和讨论。

通用人工智能与诸多相关领域都有交叉：包括认知智能，其又包括了像认知架构、记忆系统、神经符号计算、归纳逻辑编程等领域。AGI同时也跟类脑智能具有交叉关系，包括脑启发模型、脉冲神经网络、计算神经科学、仿生学习机制等内容。AGI还跟知识数据双驱动具有一定的关系，包括知识图谱、世界模型以及常识表达等。AGI还跟自主学习、元学习和在线学习等方面具有着紧密的联系。最后AGI的主要实现载体通常为人工神经网络和深度学习技术，尤其的包括了通用大模型和增强学习技术，其中大模型又包括了多模态、开放域的视觉处理以及大语言模型等。

构建了通用的人工智能体。那么它会表现出哪些能力呢？主要包括以下几点，如slice左侧部分展示，构建了这样的AGI智能体就可以实现的外在能力如slice右侧部分展示。

当前AGI相关的成果还是比较丰富的。首先在自然语言处理、认知、常识处理和逻辑推理方面，GPT-3、PALM、LAMDA、ChatGPT等大语言模型发展迅速，大语言模型在AGI领域目前处于引领地位。在代码生成、数学问题求解、科学问题及医学问题问答上，通用大模型也取得了不错的进展。对于通用规划等技术，MuZero、Gato等增强学习机制提供了多模态、多任务的通用规划能力及模仿学习能力，是一类非常有前景的多任务学习方法。在认知框架方面，认知功能级别的脑建模实现了对我们的认知结构的一个人工实现的顶层结构的讨论，具有非常强的通用智能的借鉴意义。

在一些微观方面，例如在知识数据双驱动上，基于神经-符号的处理方法可通过图像感知与符号处理的结合实现了结构化的图像处理。此外，在知识表达方面，基于全局隐信息及局部信息的Atom Space方法是知识图谱一种重要借鉴思路。另外，记忆增强网络实现了更强的记忆机制。最后，像ARC dataset等类似的通用智能测评数据集显著增强了对泛化性等通用智能能力的研究与评测。

总结而言，当前AGI的技术与现状包括如下几点。

当前AGI的主要国际研究机构主要包括DeepMind、OpenAI、Allen Institute for AI、OpenCog等。此外也包括一些神经符号学习的研究团队，世界模型的研究团队等。

下面介绍AGI的国内主要研究机构。统计中主要包括强或通用人工智能，以及认知技术和通用大模型等领域。包括如下组织。

AGI的研究现状分析可总结如下。在国内组织中，大多在研究的是专业领域加潜认知、大语言模型、生物脑理解、类脑器件等。而系统性的研究AGI理论的机构较少。尤其在泛化性、逻辑思维、记忆、世界模型、知识表达等。核心领域的研究组织和成果仍非常有限。国外组织中AGI的核心领域近些年来发展非常迅速。主要包括基于大语言模型和深度增强学习的一系列技术，这些技术从宏观上尝试解决AGI的核心问题。也具有着明显的成效。此外, neuro-symbolic等神经网络逻辑推理技术，Memory Augmented Network等记忆技术从微观的角度研究逻辑推理和知识表达机制。这类尚处于原理证明阶段。尚无法解决真实世界问题。此外,传统认知架构理论经多年发展。仍受限于专有领域的无噪声符号领域处理。与最新的深度学习技术结合仍有待提升。

下面介绍AGI的研究内容。

我们将从感知、认知、学习和评测四个方面进行介绍。

首先介绍通用感知技术。

通用感知主要解决如下三个科学问题。首先是如何构建通用多模态的感知机制。其核心在于通用。第二,研究如何建立客观事物到特征空间的映射,即特征抽取。第三,如何构建现实世界与脑中世界模型的映射和同步。核心是世界模型的映射。

首先介绍第一个科学问题的情况，即多模态融合感知。当前,神经网络已经实现了很多种模态的处理。包括视觉的图像、视频，听觉方面的音乐、语音。文本方面的自然语言、代码和公式。网络方面的图和知识图谱。感觉方面的多通路传感器,比如触觉、嗅觉等等。在多模态融合方面,采用多模态transformer是目前的主流方案，例如BEiT-3通过多个FFN的专家系统实现了多种模态的分别处理与融合处理。

我们了解一下第二个科学问题，即通用特征抽取方法方面的情况，主要包括开放域的目标检测和开放域的目标识别等内容。目前主要技术是采用对比学习方法。其主要进展包括CLIP网络模型，可以实现任意图片和文本相似度的计算，从而实现开放域新型标签下的图像分类。以此为基础，可构建如VILD类似的开放域目标检测方法。

第三个研究内容是世界模型。我们认为人脑中是有一个客观世界的主观建模的，且推演和决策都基于这个主观模型,即世界模型。它具有对客观世界解释的主观性，如右上图所示。其中第一个图是一个低像素质量的人脸，第二个图是悬崖、石头，也可以看成是一个侧面的脸。第三个图是两个曲别针构成的一个人安抚另一个人的抽象图。这三个图都无法直接从图像本身以深度学习特征抽取的方式直接进行识别，而更多的需要主观模型的自顶向下的指导才能够挖掘出这样的一个寓意。此外,对于遮挡车辆的检测，如图很多车已经被遮挡了90%，但是仍然可以判断这个位置是有车的。又如特斯拉在进行自动驾驶时，实际上是以一个上帝视角对当前的人、车都进行了建模，并且对未来的运动进行了估计，这都是决策基于主观模型的一些例子。

世界模型可以用于场景建模方向。对感知有障碍的事物进行决策。此外,可以实现主客观的适配。即top-down和bottom-up的逻辑推理的融合。

在世界模型的构建方法上，LeCun提出的JEPA模型通过在投影空间上的相似性作为距离度量，进行预测函数的估计，可以更好地抓住事物之间的内在相似性。在世界模型的使用方法上，通过世界模型可以实现行为的决策，也就是说,行为决策是基于世界模型而产生的，智能体可以通过预估多个未来的状态及行为方案，将最优的方案的行为与现实世界交互。

下面举一个基于世界模型的智能体例子——DreamerV3，它是一个能在多样化的任务中采用一套固定参数实现智能体增强学习的通用算法，克服了传统增强学习方法领域间不通用，调参复杂的问题，具有非常好的通用性。其特点是构建了一个世界模型，用于预测感知信息的嵌入表达的未来几十步的情况，并让actor和critic网络完全基于这个世界模型构建的抽象序列上学习行为。这个算法采用固定参数，在多个领域150余个任务下表现优异，且是第一个在Minecraft中不需要人类数据的指导下开采出钻石的算法，开采出钻石是需要长时间几百个正确的步骤的组合才能完成的复杂任务，原先需要采用模仿学习才能达到，因而展现了这个算法的通用性和能力。

（这个网络具有3个神经网络，其中世界模型预测基于估计行为的未来场景，critic网络预测在当前actor行为下每个状态的回报，actor网络基于模型的状态最大化期望回报。）

下次分享的主题是认知架构及基于大模型的认知技术，敬请继续支持~

通用人工智能技术综述（一）

继续阅读

吴晶张晓霞赵予慈｜人工智能投资顾问立法保障研究

学会动态中国人工智能产业年会大模型与通用人工智能论坛圆满落幕

施耐德电气与NVIDIA重新定义人工智能数据中心设计以实现卓越表现及性能

AI如何重塑汽车行业？这场人工智能大会展开探讨

研究者提出人工智能新概念，让大语言模型与真实物理世界进行交互

孙远钊 | 论人工智能生成内容应否享有著作权

汇贤论商月度沙龙第五期《人工智能与商业变革》圆满举办

“东哥AI分身”启示录：人工智能重塑零售的开始

人工智能、物联网、大数据等信息技术广泛应用——为乡村全面振兴插上“数字翅膀”

Meta 发布最新人工智能模型 Llama 3；特斯拉全球裁员已推出赔偿方案，马斯克道歉；华为 Pura 70 系列一分钟售罄｜极客早知道

国有企业如何发展人工智能

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

学会动态丨2023中国人工智能产业年会高水平报告回顾

人工智能专业世界排名出炉！中国8所高校上榜，清华大学排名第一

共建共兴中国人工智能体系 | CCF C³

医疗影像国家新一代人工智能开放创新平台建成贯通科研到临床全链路