天天看点

通用人工智能技术综述(四)

作者:AI自智体

Original AGI联盟 吴博士 通用人工智能联盟

大家好,今天我们继续分享通用人工智能(AGI)技术的原创综述,该简短的综述将系统性地梳理目前的AGI发展状态和现状,并前沿性收纳最具有推动力的成果,可以作为该领域的入门参考资料。本分享将持续五期,本期主要讲述类人脑的学习方法。

注:本文为PPT+讲稿形态,建议采用计算机而非手机显示观看,讲稿位于所解释的PPT的上方,此外由于讲稿一部分是个人观点,有不够严谨之处敬请谅解。

首先"学习"不等于"训练",今天研究的是广义的学习,不研究怎么炼丹。那我们开始吧~

通用人工智能技术综述(四)

我们首先观察一下学习的特点,首先是学习的条件。类人的学习过程是基于在线、流式的一个学习环境下进行的,这个环境是边用边学,或者说在智能体的工作期间进行学习的这么一个环境,因此叫在线学习,那么第二个特点,第二是流式,相较于当前深度学习通过先构建海量数据集再去训练的方式不同,它的学习更多的是依靠现实世界的流式串行数据。第二,学习是在外界刺激和好奇心的双驱动下进行的。也就是说学习的动机主要出于两者,一者是外界的激励刺激,另一个是自身的好奇心,儿童通常在外界刺激之外,做出一些探索性的、基于自身的好奇而去做的事情,这些事情正是智能体进化的关键。

第二部分是如何学,也就是学习的过程,第一类是元技能的获取与组合,如果一个任务,例如做手术或者炒菜需要分解成几百个甚至更多的步骤,那么每一个步骤就是一个技能,这些技能需要通过锻炼获取,智能体也可以将其组合起来,形成复杂的行为机制,那么这些元技能的获取的过程和组合方式就是要学习的地方。

第二类是模仿学习,人类通过模仿可以快速的学习技能及组合方式,是人类知识传承的主要途径。

第三类是仿生的学习机制,包括神经调制方法,突触可塑性机制等,这些机制可用于更新突触权重,重构网络的结构,这些学习机制是神经网络的构建和更新机制的底层。

第四类是记忆,我们认为记忆机制是一类特殊的学习,因为人类通常是通过以往的经验来决策的,我们通常会基于一些重要但极少样本的历史经历来指导当前的决策,我们并没有对神经网络进行结构或权重的广范围的更新,只是把这个情况和需要采取的策略记住了,并且应用它,因此它也是一种特殊的学习,即以记代学,这是一个重要的工作方式。

最后,在学习的效果方面,学习的成果主要用于对新环境的适应和新任务的处理,以及持续不断的学习更新自我,即终生学习。

通用人工智能技术综述(四)

由于学习方面的话题非常大,在此,我们主要关心如下6个核心的科学问题,包括:

科学问题1. 如何实现终生、持续、在线的学习能力,并实现新环境及新任务的快速适配;

科学问题2. 如何基于好奇心与主观能动性,实现自我驱动学习;

科学问题3. 显式及隐式知识的获取及应用模式;

科学问题4. 如何通过模仿学习,通用且高效率的获取知识及技能;

科学问题5. 如何利用记忆辅助学习及决策;

科学问题6. 生物学习机制对智能体的学习有何借鉴。

通用人工智能技术综述(四)

首先我们讨论第一个科学问题,即科学问题1. 如何实现终生、持续、在线的学习能力,并实现新环境及新任务的快速适配。

这部分,我们就需要介绍终生学习机的概念,我们可以认为人脑就是一个终生学习系统,我们从出生到今天,一直都在根据需要的生活、工作和学业需求进行更新。而目前的智能体通常基于预训练+finetune+部署的形态工作,更新能力是有限的。因此我们需要研究终生学习。终生学习从不终止,性能根据经验增长,且使用的计算和存储资源适当的学习机制。终生学习又包含着迁移学习和持续学习的概念。具体的,包括如下几个方面:

第一,迁移和适应, 即有能力将知识迁移到新环境,并采用少样本和元学习适配新环境。其中元学习指的是学习如何更快的学习概念。

第二,克服灾难性遗忘,获取新知识同时不忘记旧知识。

第三,利用任务相似性辅助学习,技能基元化及组合性(compositionality),实现旧任务学到的技能迁移到新任务,及反过来(forward/backward transfer)。

通用人工智能技术综述(四)

第四,任务诊断学习,指智能体在训练过程中需自行判断任务的变化,需自行寻找与新任务类似的旧任务;

第五,噪声忍受,由于传感器数据大多与优化清理过的训练集数据不一样,更脏,更易环境变化,智能体需要适应这样的脏的训练数据;

第六,资源效率和可持续,首先需要不影响实时推理,其次需要维持记忆的增长;

第七,非任务性学习(自主性)包括自监督学习和基于好奇心的监督学习。

通用人工智能技术综述(四)

这些领域中,机器学习关注并实现了部分的内容,我们重点讨论一下,首先是在线学习,它指的是一类边用边学,持续更新,而不是先训练再部署的学习方法。在这个领域,一个主要研究的方向是克服任务随时间变化的问题以及需要流式处理的问题,即需要检测任务变化,并根据新的任务更新模型,此外,需要采用少量的样本更新并立即生效。

另外一个领域是持续学习,其中一个研究方向是克服灾难性遗忘。目前可以采用的方案包括互补学习系统,即采用临时的记忆(情境记忆或工作记忆)实现短期的快速学习,通过网络结构及突触参数的改变实现长期学习,通过重放机制可以实现短期学习的信息重现并转换到长期学习,类似于海马和大脑皮层组成的互补机制。

值得指出的是,机器学习中的这些概念是生物中对应概念的缩小版或者不完全版的现象很多,甚至有些时候只是有点沾边,后边的诸多概念也具有这个情况。

通用人工智能技术综述(四)

接下来我们讨论第二个科学问题, 即如何基于好奇心与主观能动性,实现自我驱动学习。

好奇心是人类学习的核心驱动力,尤其是孩子。在增强学习领域,目前已经有不少有关内在动力(Intrinsic motivation) 或者说好奇心驱动(Curiosity-driven)的一些成果。例如一个比较典型的例子是OpenAI研发的仅通过好奇心驱动的增强学习智能体,它可以实现对于54个Atari游戏、超级玛丽游戏及机器人控制的多领域的优秀的性能。其核心是使用预测误差作为奖励信号的好奇心,在外在环境奖励非常稀疏或者难以设计的情况下,采用内在奖励实现对环境的主动探索。结果表明内在好奇心目标函数和手工设计的外在奖励的效果类似,都实现了很不错的学习。

目前好奇心及内在动力方面大多是增强学习系统在考虑,其生物学尚的特性大多还没有挖掘,具有很大的研究空间。

通用人工智能技术综述(四)

下面介绍科学问题3. 知识的获取及应用模式。首先介绍显式知识,它在此主要指能够被明确表达的一个个技能或声明式记忆存储的常识,如三元组。我们可以将这些知识理解成元知识或者元技能,使用时需要将其组合实现复杂的逻辑思维或规划执行。下面,先介绍元技能的学习和组合过程。首先是元技能的管理,我们可以认为元技能是一系列小的独立的技能,因此需要进行有效的存储和管理。其次是元技能的学习与更新,对于每一个元技能而言,它可以被独立的更新和学习,第三是元技能的组合,也就是元技能本身学好之后,它可以被组合使用,并且如果经常被组合使用,它也可以合并若干小的技能,变成一个大的技能,也就是chunked rule,元技能的合并也可以发生在两个非常相似的元技能合并成一个,另外也有元技能的遗忘,不需要技能的可以丢弃。

通用人工智能技术综述(四)

在这方面,神经归纳逻辑编程做了一些尝试性的工作,其可以从规则模板和一系列正反例子中学习出规则逻辑,传统的ILP是符号表达,而Neural ILP是基于神经网络的可微分实现。Neural ILP致力于解决几大挑战:首先,规则如何归纳,并且可以泛化,让它脱离具体的事物和具体的参数,这是一个规则的提升的挑战,也就是我们更希望获取的是抽象的规则,适应度更高的规则。第二,需要支持高阶关系数据和量词,第三,需要支持大的规则复杂度,尤其是逻辑规则串联形成的指数增长问题,最后,需要使用尽量少的先验,如我们不对规则进行手工的模板限制,或者搜索空间限制等等。那么某些Neural ILP的方案采用了如下的主体思路,其中包括采用软的逻辑如t-norm替代二制逻辑,这样才可以实现可微分,之后构建单个逻辑层和多步逻辑网络,从而构建出一个比较完备的逻辑网络,之后构建与输入感知的匹配,可以通过全连接或稀疏互联等方案,之后可以构建量词的表达能力,如无元、单元、多元等等及其切换路径,最后构建完的网络通过BP训练方法实现训练。

通用人工智能技术综述(四)

这是一些典型的认知逻辑过程的学习案例,包括用神经网络等价带有量词的多步骤符号推理,以及通过CNN作为感知的并且通过relations模块作为grounding方式的,后期介入逻辑主范式的网络等效实现的形态。另外,右图也展示了一个逻辑网络的神经网络等效描述及可微分训练获得参数的方案。这些方案能在一些小的智能体任务及一些逻辑推理数据集上获得一定的成绩。

通用人工智能技术综述(四)

另一个方面是反绎学习,它可以将符号系统与神经网络系统协同工作,这个系统与上述系统不同的是,它并不是把神经网络改成逻辑或者反之,而是将两者都存在并协同工作作为核心点,它的特点是符号系统通过知识实现规则违背的检测,并通过修改一部分标签,让规则在当前的神经网络的检测结果下更可能成立,也就是说,神经系统的预测结果,通过符号系统进行标签级的纠正,因为它具有知识框架,从而可以修正提供一个更好的伪标签,回馈给神经网络,神经网络通过这个新的标签进行权重更新,让其推理结果在新的标签下的概率符合性,新的标签在通过knowledge base进行逻辑上的匹配,以此作为一个循环,从而实现良性的更新循环,我们可以右侧的例子作为一个典型案例进行阐述,比如,中间这个图,我们可以理解成海?百川几个字,但是中间这个字可能看不太懂,那么我们怎么猜测这个草书的内容呢,首先我们具有语文知识库,我们学过这个成语,因此我们可以猜测出中间这个词是海纳百川的‘纳’字,这个就是采用知识进行推理的结果的一个纠正的一个过程,那么有了海纳百川这个标签之后,我们右边这个图可能就更容易理解了,因为,这个图我们可能也只能从感知中推理出海、百、川几个字,剩下的字都很难理解,但我们推理出中间是纳字之后,剩余的字就变成了海纳百川之后的四个字应该是什么,通过语文知识库,我们可以推理出有容乃大,因此剩余的草书上的字就被猜出来,这个例子就是感知系统或者神经网络与基于知识库的逻辑推理进行深度的融合,循环,互纠正构建出来的一个反绎学习的例子。

通用人工智能技术综述(四)

下面介绍科学问题3的另一方面:隐式知识的获取及应用模式。我们可以发现,很多知识常识是隐藏在视觉感知信息之后的,例如FPICU这5个核心要素,可以理解成是隐式的常识知识,但可以从视觉特征中学习,包括这五个方面:

Causality:行为作用于物体,形成一种因果关系,导致物体瞬态的改变,如开关处于打开和关闭的状态;

Physics:物理常识,如树枝能否承担住小孩,人会对超出物理直觉的东西表示惊讶;

Functionality:物体的功能,例如杯子可以盛水;

Intentions and goals: 意图和目标,例如去一个地方取东西;

Utility and preference: 效用,人的行为通常具有最优效用,如人从一个地方走到另一个地方,一般会走最短路径。

这些常识信息可以显著辅助视觉信息的处理和推理,且这些信息具有更优的泛化能力,相当于针对图像而言构造了一个高层次的认知模型,因此可以实现双向推理,即自顶向下与自底向上的结合,从而也可以用更少的数据实现学习、工具的使用等等。另一个方面,整体感觉这样的总结更多是从感知系统出发往认知去扩展想到的规划方案,原文的好多例子也更像是感知+简化的专用认知方案,而我觉得如果从一个通用的认知架构本体往感知去考虑可能会更通用,更有泛化性。

通用人工智能技术综述(四)

例如下边这个物理常识方面的例子,对很多的物理常识,如物理运动定律,数学的一些基础的规律等等,这些规律可以通过感知抽取后进行关系图或与或图的表达,将感知到信息通过认知的知识进一步加工,在认知层面上通过符号或次符号表达实现相应的分析,实现对于这些物理常识的一个推理和利用。

通用人工智能技术综述(四)

下面介绍科学问题4. 即如何通过模仿学习,通用且高效率的获取知识及技能。目前多个增强学习算法已经展现了模仿学习是快速学习的一个重要途径,例如基于GATO的大语言模型的这么一个例子,它可以实现通用的多任务处理,例如玩Atari游戏,给图像打文字标签,聊天,用机器人手摞积木等等这样一些任务,它可以将各个需要被模仿各种模态的输入和输出都当做token作为输入,进行embedding,之后通过transformer(图像需要先通过ResNet)预测下一个token。采用自回归方法进行训练,就可以训练出一个符合我们预期的模仿出来的action的网络,这样的智能体具有一定的泛化性,适应新任务的能力也比较强。

通用人工智能技术综述(四)

下面介绍科学问题5. 即如何利用记忆辅助学习及决策。首先介绍基于语义记忆例如知识图谱进行决策的过程。其中一个主要的问题是如何借助以往经验解决当前问题,由于以往学习的知识跟当前的需求并不是完全一致的,因此需要从以往经验总结到的知识图谱中寻找当前问题的解。

知识图谱的预测和补全是这种思维逻辑的典型案例,解释如何通过三元组知识图处理当前的输入的三元组补全或预测。首先我们可以把知识存储在三元组构建的知识图谱中,但这样的知识图谱通常会缺少当前所问的问题的直接信息,例如右图的这个例子,X,Y和Appear in TV show这样的一个三元组关系是否成立呢,我们可以从这个图中去获取相应的隐藏关联,并推算它成功的概率。这个成立的概率,包括了两者之间节点的多跳的关系情况,以及中间某些连接可能是反向蕴含的关系,例如X和Y的Has Actor的这么一个反向蕴含的情况,那么可以直接推断上述是成立的,也可以有下面这个X-U-V-Y的这么一个复杂的链条,这个链条中的蕴含有正向的,也有反向的,也暗示了X和Y具有类似的一个属性的可能性,因此也一定程度上可以推理出最上面的这个结论。为了实现类似的一个知识补全的能力,我们可以通过一个增强学习的Agent,在这个Knowledge Base的三元组上游走,遍历新的路径,确定新的事实关系,首先将节点和关系嵌入到低维空间,并通过状态向量,状态转移概率矩阵,等等方式进行位置表达和游走关系的表达,并通过奖赏机制,让其在知识图中进行游走。奖赏机制概括为以下几个程度的组合,是否达到了目标,目标节点路径的有效性,路径的多样化程度等,训练过程和采用REINFORCE的方法进行更新。

这里边的Agent实际上是脑中的思维逻辑控制器,类似于认知架构的动态运行的循环,这个例子与人通过历史经验寻找问题的解是有一定的类似性的。

通用人工智能技术综述(四)

下面介绍一个采用情境记忆+好奇心用于构建增强学习奖赏信号的例子。它的网络结构中引入了情境记忆,这个记忆体可以记录住历史上感知信息的嵌入向量,并与当前嵌入的类似性进行比较,比较通过comparator network完成。最后,通过比较结构,构建好奇心奖赏,这个奖赏用于增强RL的奖赏信号,即相加的过程。其中在进行comparator network的训练的时候,引入了可达性的概念,因为没有任何一个当前嵌入会与历史信息完全一致,因此可以认为当两个场景离得不远,可以用几步范围内到达的情况下,就可以认为是正例,足够远的,即步数非常多的是负例,这样就可以训练出一个比较网络,用于区分情境记忆与当前嵌入的区分度有多大。

通用人工智能技术综述(四)

最后介绍一个跟工作记忆有关的一个案例,它是神经图灵机的改进版本,大家应该对Neural Turing Machines即NTM并不陌生,可以说是开启了神经网络记忆机制的先河,然而由于NTM的读写头训练困难,专有化程度高,因此并没有真正流行起来,这次的改进方案即Token Turing Machines,将Transformer与记忆模块结合,实现了长程视觉理解任务的处理,例如视频活动的检测和saycan机器人任务完成率的显著优化。其主要特点是构建了一个更容易训练且更通用的读写头,并采用transformer实现了多步计算。在读写头设计上,通过token summariser实现降维计算,例如读内存部分可以将96个记忆的token和3000多个输入的token降维到10个token并通过处理单元(即transformer)处理。这个降维的过程使用token summariser完成的,具体的是通过类注意力或者mlp网络实现。这个模型有效的补充了transformer在记忆上的不足,也可以认为是通过工作记忆进行工作的一个典型例子。

通用人工智能技术综述(四)

上边我们分别从三种记忆模式的神经网络实现进行了记忆能力的展示。记忆的发展空间非常大,至于是用单独的存储体还是直接存储在网络中目前思路并不一致,但具有单样本、少样本的记忆能力是至关重要的。

下面我们介绍第六个科学问题,即生物学习机制对智能体的学习有何借鉴。首先我们了解一下生物神经网络的特点,它主要包括如下几个方面:首先类脑网络具有多簇回环结构,网络高度回环互联,而不像大多深度学习算法采用的feed forward形态,其次,神经元之间的连接稀疏度很高,且遵循局部较为稠密,跨局部稀疏的特点,即使是局部的稠密部分,例如1mm^2的microcircuit视觉皮层模型,神经元间的连接密度也只有4%左右。再次,类脑网络的执行遵循动力学过程,即具有时间维度的演变过程,可以类比于recurrent neural network。此外,神经元具有较为复杂的内部结构,突触、树突也具有较为复杂的结构,如果详细建模的话,一个神经元就可以等同于深度学习的一个小型网络。此外,突触具有本地化的学习能力,称突触可塑性。最后,网络遵循事件驱动,脉冲传播的特点,也叫动态稀疏性,有输入才有突触计算,这也是生物脑比较省能量的原因之一。因此从生物脑出发,可以挖掘一些新的实现思路。例如基于MoE的大型transformer可以认为是事件驱动和块稀疏网络的人工版本。然而另一方面,这种稀疏的事件驱动的结构对大规模的规则并行计算及并行访存而言并不友好,不如矩阵乘或卷积的计算效率高(以每瓦操作数为衡量),此外训练也有难度,因此目前我们更多的是有取舍的进行借鉴更为恰当。

通用人工智能技术综述(四)

基于生物的神经网络结构,我们就可以理解生物脑中与学习有关的机制。

神经发育:动态结构,生长新的神经元、突触,记忆新的信息,有助于克服灾难性遗忘,并满足新的增长的处理需求。

情境重演:(海马体-皮层)记忆模型(即海马体快速学习随后皮层 缓慢学习)。新皮层将这些从海马体发起的重播与其自身(已经巩固的)神经模式的重播交织在⼀起,以便整合新信息而不重写以前的记忆结构,重播对于大脑记忆巩固起到很大作用。

元可塑性:突触可塑性是记忆的核心机制,而plasticity of plasticity(metaplasticity)指突触被修改的能力取决于其内部生化状态,而这又取决于突触修改的历史和最近的神经活动。突触强化有助于记忆的强化,快记忆,慢遗忘的实现。此外,生物突触权重的修改涉及在不同时间尺度上运行的多个级联过程。快速和慢速机制允许快速获取新信息,并根据后续事件延迟决定是否永久更改。虚假信号可能只会导致突触强度的暂时改变,而重复的强输⼊信号会留下永久的记忆痕迹。有助于解决稳定性-可塑性困境。

神经调制:释放神经递质,对活动和可塑性具有局部作用和全局作用。神经调节可以促进学习,帮助克服灾难性遗忘,支持适应不确定和新奇的经历,并提⾼对环境变化的理解。

上下文依赖的感知和门控:上下文在调节、过滤和吸收新信息方面起着重要作用。这对于跟踪不断变化的环境、关注变化的部分以及整合新信息都⾮常重要。上下文门控是神经元亚群的选择性开启,有助于减少相似经验之间的干扰。也帮助过滤掉不太相关的刺激,并专注于需要立即响应的关键性刺激。

层次化分布式系统:这允许处理和学习分布在整个身体的多个神经元网络中,每个网络都具有网络内稠密但相对稀疏的网络间连接。通过利用这种分层和分布式架构,生物系统大大减少了每⼀层的输⼊和输出维度,以减少延迟并加速学习。

脑外认知:许多生物系统展示了无需神经系统的帮助的智能,例如从经验中学习、预测未来事件和适应性地应对新挑战的能力。单个细胞甚至分子网络,非神经⽣物电网络或转录网络等亚细胞过程。生物学利用相同的机制(生物电和其他类型的网络、多尺度稳态机制、 组织层次内部和之间的合作与竞争)来解决困难空间中的搜索问题。最近的数据也揭示了在全身神经网络和单细胞通路网络中如何处理信息的重要共性。

可重配置能力:生物有机体具有高度可重构性,也能够重塑脑组织,同时保持信息内容(记忆)。

多传感融合:如上丘整合了来自不同感官的感觉信息(即视觉、触觉和听觉信号)以产生协调的眼睛和头部运动。

通用人工智能技术综述(四)

下面介绍仿生学习与机器学习机制的融合,在这部分,我们主要介绍可塑性及本地学习方面,全局学习有大家比较熟悉的back-propagation等,仿生本地学习主要仿生的是生物脑神经元的可塑性及突触的可塑性,可塑性就是可塑造、可改变的意思,那么突触的可塑性,包括着连接或者结构上的可塑性,以及突触强度的可塑性,强度可塑性可简单概括为长期的和短期的,其中长期的分增强和减弱,例如Hebb法则,STDP法则及其变种等等,胞体可塑性包括了神经元内部的一些参量的调整能力,例如内稳态,类似于深度学习的自演化机制,以及阈值自适应方法,因为脉冲神经网络是超阈值发放的一个基础形态,因此阈值的自调节非常重要,全局本地融合学习即融合了全局和本地的一些学习机制,那么它的权重更新具有全局的范围的更新,也具有本地的相互相邻神经元间突触的更新,例如Reward-modulated STDP,Predictive Coding,Equilibrium Propagation等方法。

通用人工智能技术综述(四)

目前,仿生学习还处于较为原始的阶段,算法很多但精度和通用性大多较为有限。

本期分享就到这里,由于学习机制目前还尚不成熟,大量问题并没有定论和代表作,因此本部分概念更多,实现方案有限。下期,我们将关注智能基准评测,并进行AGI的总结和展望。谢谢大家关注~

继续阅读