天天看点

人工智能研究|免疫计算概述

人工智能研究|免疫计算概述

前言

如今,人工智能已成为世界高度重视的热点领域,相关研究和应用在学术界和工业界如火如荼地进行。机器学习通常被认为是人工智能领域的热门话题,而深度学习是机器学习中的一个热门分支。众所周知,深度学习,以前称为人工神经网络,或早期的感知机器,起源于由人脑中的神经细胞组成的神经网络,属于计算智能的一个分支。

在计算智能领域,受人类信息处理机制启发的计算模型包括深度学习、进化计算和免疫计算。目前,深度学习就像12点钟的太阳,深受研究和开发者的欢迎。相比之下,进化计算就像早上八点或九点钟的太阳。今年,IEEE进化计算杂志的影响因子已达到11.169,从侧面表明其影响是显着的。至于免疫计算,只是一个曙光,有很多不确定和未知的东西需要探索和研究。

与深度学习和进化计算不同,免疫计算的灵感来自生物免疫系统中包含的信息处理机制。生物免疫系统是生物体的自我保护系统,具有免疫防御、免疫监测和免疫自我稳定等功能,是一个复杂的适应性系统。因此,生物免疫系统可以看作是自然界中典型的安全智能系统,它包含着值得我们探索和研究的机制,设计了新颖高效的免疫计算理论、方法和系统。

在此背景下,邀请了西安电子科技大学贾立成先生、四川大学李涛、深圳大学林秋珍、郑州轻工业研究所张伟伟带领团队,基本现状免疫计算,以及克隆选择算法、负选择算法、免疫优化图像解读、多靶点免疫算法,希望能推动计算智能新分支的发展。

作者:罗文建

0 引言

免疫计算又称人工免疫系统,是计算智能领域的重要新研究方向,其基本模型和算法受到生物免疫系统的启发。从信息处理的角度来看,生物免疫系统是一个具有自学和自我保护能力的自适应系统,它是一个典型的安全智能系统,可以为下一代计算智能、人工智能模型和方法提供灵感。国内外研究人员将生物免疫系统所隐含的信息处理机制引入计算机科学领域,并提出了多种免疫计算模型和算法,逐步形成了免疫计算的研究领域。

免疫计算相关研究始于20世纪80年代中期,最初发展于1990年代。1986年,法默和其他人首次提出了受生物免疫系统适应性机制启发的机器学习模型。1990年,Bersini和Varela提出了一些使用免疫网理论解决适应性问题的想法。同年,石田提出了一种基于免疫网络原理的并行分布式处理模型,用于分布式故障检测。1994年,Forrest等人提出了基于免疫T细胞成熟机制和识别原理的负选择模型和算法,这是第一个典型的免疫计算模型和方法,尽管相对简单。然后,从20世纪90年代末至今,提出了克隆选择算法(克隆选择算法),人工免疫网络(Artificial免疫网络)和树突状细胞算法,并逐渐形成了免疫计算领域的四个典型研究分支,即信息的负表示,克隆选择算法,人工免疫网络算法和树突状细胞算法。在应用方面,免疫计算模型和算法已广泛应用于异常检测、网络安全、隐私保护、复杂优化问题解决、模式分析和机器学习等领域。

随着免疫计算研究的发展,一系列相关的学术活动诞生和发展起来。IEEE计算智能协会下属的进化计算技术委员会(IEEE CIS ECTC)专门成立了人工免疫系统工作组,以促进免疫计算领域的研究和开发。近年来,在IEEE计算智能研讨会的IEEE研讨会系列中,有IEEE计算免疫计算研讨会。IEEE进化计算大会(CEC)是进化计算领域的重要会议,多年来一直举办人工无流行病系统特别会议。

IEEE进化计算学报、IEEE计算智能新兴主题学报、应用软计算、群体与进化计算、自然通信、信息科学、人工智能工程应用、神经计算与应用、群体智能、遗传编程与可进化》等国际知名学术期刊《机器》和《西奥计算机科学》等国际知名学术期刊均发表特刊。 免疫计算。2015年,免疫计算领域的两位领先学者Stephanie Forrest和Dipankar Dasgupta当选为IEEE成员,他们的主要贡献包括免疫计算研究。

1 生物免疫系统的简要说明

生物免疫系统是生物体的自我保护系统,它代表了一系列生物结构和复杂的生物和化学反应。免疫系统对检测和清除各种病原体和有害物质以及保护生物体的生命和健康负有重大责任。人类对免疫系统的研究有着悠久的历史,直到今天,免疫系统仍然是人类医学和生命科学中最重要的研究对象之一。在这些研究中,提出了克隆选择理论、免疫网模型、免疫风险理论等许多免疫学模型和专门理论,为计算机科学技术研究人员提供了启示,为免疫计算的诞生和发展提供了生物免疫学的基础。

在组成方面,免疫系统由免疫器官、免疫细胞和免疫分子组成。其中,免疫器官主要负责免疫细胞的产生,如脾脏和胸腺。免疫细胞是与免疫反应过程相关的细胞,如淋巴细胞和吞噬细胞,而免疫分子大多是免疫细胞分泌的物质,如抗体和补体。

像许多系统一样,生物免疫系统是一个分层系统,通常分为三层。第一层由皮肤和粘膜的物理屏障组成,第二层主要依靠杀菌物质和吞噬细胞的防御功能,第一层和第二层是天生的非特异性免疫机制。第三层是特定的免疫机制,也称为获得性免疫,其中免疫系统识别入侵的病原体并产生特定的免疫反应;当相同的病原体再次入侵时,特异性免疫系统迅速产生强大的特异性免疫作用。值得一提的是,在免疫计算中,免疫学的理论基础是第三层特异性免疫的理论和实验研究成果。

2 代表性模型和算法

2.1 信息的负面表示

信息的阴性表示是免疫计算领域的一个重要分支。这是一种新颖的数据表示方法,灵感来自免疫T细胞的"自我非我"识别机制:在生物免疫系统中,识别"自我"的免疫T细胞被破坏,而不识别"自我"的免疫T细胞成熟并用于识别"非我"。受这种机制的启发,负信息表示模型的存储和操作通常是原始信息的补充(或子集)。负面信息代表了三个主要的研究方向:选择负面算法,负面数据库和负面调查。

负选择算法,也称为负选择算法,最初是由Forrest在1994年提出的,并在过去20年中得到了广泛的研究。典型的负选择算法可以分为三个步骤。首先,根据实际环境构建自采样集合S。接下来,生成探测器的集合 D。特别是,D中的每个探测器都无法匹配S中的任何样本。最后,使用探测器集D监控异常数据。只要监测的数据与D中的任何探测器匹配,就被认为是异常的。

负选择算法已应用于异常检测、错误检测、网络和计算机安全等诸多领域。例如,Dasgupta和其他人使用负选择算法来监控时间序列异常,Moncayo等使用负选择算法来检测飞机故障,Wang和其他人使用负选择算法来识别病毒和恶意代码。

负数据库是信息负表示的主要模型和重要研究方向之一,这是Esponda及其同事在2004年左右首次提出的概念。在负数据库中,原始数据集被存储和操作。根据数据存储的形式,负数据库可以分为二进制负数据库和真实负数据库。目前的研究集中在二进制负数据库上,所以这里只是对二进制负数据库的简要介绍。请记住,完整集是 U , 1, db , x1, x2, ., xm ,是包含 m 个二进制字符串的正数据库(即.raw数据),然后 U-DB 是正数据库的补码。为了压缩存储空间,请引入符号 ,该符号用于表示0和1中的任何一个。因此,U-DB的压缩表示形式称为DB的负数据库(NDB)。NDB中的每条记录可能包含三个符号,0,1和。其中,0 和 1 的值称为 ok 位,其中值称为 ok 位。例如,如果DB是{000},那么可能的NDB是。值得一提的是,二进制负数据库可以逐个对应SAT公式,反转负数据库等价于解对应的SAT公式。因此,对于负数据库的研究,可以直接利用SAT问题的许多研究成果。事实上,许多负数据库生成算法都是由SAT公式生成算法转换的。

负数据库已在许多领域使用,例如隐私保护,安全身份验证等。例如,使用负数据库(如 Dasgupta)可避免在身份验证过程中将身份验证服务器数据直接暴露给前端,而例如,Luo 使用负数据库来提高哈希密码身份验证的安全性。

这项负面调查最初是由Esponda等人于2006年提出的,作为在保护受访者隐私的同时收集敏感信息的一种方式。当涉及到敏感或私人信息时,如果使用传统的问卷调查,受访者往往不愿意提供真实的信息。在否定调查中,只有一个(或部分)被调查用户被要求选择与实际情况不对应的类别(称为负类别),并将其返回给数据收集器。收集者在收集了用户返回的负类别后,可以统计地估计真实类别的分布。根据受访者返回的负面类别数量,负面调查可分为单选负面调查和多项选择负面调查。根据受访者选择不同选项的概率,负面调查甚至可以分为负面调查和非统一负面调查,其中"一致性"是指受访者是否以相同的概率选择不同的选项。

负面调查既可用于收集敏感信息,也可用于保护数据发布等领域。例如,Horey等人使用负调查技术收集传感器网络中的敏感信息,罗等人利用负调查收集产品评价信息用于网上购物,并于2014年提出了否定发布的概念和相应的两种负面数据发布方法。

2.2 克隆选择算法

克隆选择算法的灵感来自生物免疫科学中的克隆选择理论。克隆选择算法的基本免疫学原理是,识别侵袭性病原体的免疫细胞繁殖迅速,而免疫细胞在增殖过程中发生突变,克隆突变的结果是产生更高的亲和力免疫细胞,使免疫系统能够更有效地识别和去除病原体,这是生物免疫系统自学和适应性特征的体现。

典型的克隆选择算法由选择、增殖、突变等基本策略组成,可分为五个步骤。

(1)初始化:随机生成含有N抗体的群体。

(2)亲和力评估:逐个计算群体中每种抗体和抗原的亲和力。

(3)抗体再生:根据亲和力对群体中的抗体进行降序排序,选择前n(<N)抗体进行克隆和超变异。克隆是所选抗体的复制。所谓超变异图就是克隆抗体的突变。拷贝数和突变概率取决于抗体的亲和力。

(4)抗体再选择:评估突变后抗体的亲和力,选择最优的N抗体进入下一代群体,有时用随机生成的d(<N)抗体替换所选n""抗体中最差的d抗体,以增加群体的多样性,避免陷入局部最优。

(5)终止判断:如果结果符合要求,或者如果总体已经收敛,或者如果迭代次数达到预定数,则结束算法;应该注意的是,克隆选择算法有很多个版本,尽管它们的基本框架相似,但特定的运算符(甚至特定的过程)并不完全相同。此外,在具体应用中,"抗体"和"亲和力"需要根据实际问题来定义。

目前,克隆选择算法的主要应用领域有全局优化、约束优化、组合优化、多目标优化和动态优化等复杂优化问题。除了优化问题之外,克隆选择算法在许多其他领域也有应用,包括模式识别、机器学习和数据挖掘。例如,De Castro和Von Zuben在2002年推出的clonALG已被用于复杂优化问题解决和模式识别等领域。

2.3 人工免疫网络

人工免疫网络算法的灵感来自生物免疫中的免疫网络学理论。免疫网络学理论最早由Jerne于1974年提出,该理论的核心思想是免疫系统的元素(细胞、抗原、抗体等)不是孤立的个体,而是存在相互刺激、限制、识别等关系,整个免疫系统是动态平衡的巨大网络。对人工免疫网络的研究也是基于免疫网络的学说。目前,主流中有两种主要类型的人工免疫网络模型,即Timmis和de Casto提出的AINE模型等。

AINE模型提出了人工识别球的概念。人工鉴定球代表由特定类型的B淋巴细胞覆盖的抗原区域,并且相似的人工鉴定球相互连接,形成网络结构。在AINE模型中,资源是有限的,有限资源的分配由人工识别球的激活程度决定。一般来说,人工识别球的激活程度越高就可以得到

更多资源。未分配资源的弱人工识别球被清除,而超过阈值被激活的人工识别球则发生克隆变异,形成新的人工识别球群体。

aiNet模型使用加权图来表示抗体网络模型,而该算法通过模拟生物免疫系统中的抗原刺激和免疫反应过程来运行,使用克隆选择使产生的抗体网络适应抗原模式。aiNet算法的主要过程:首先,针对每个抗原模式,计算抗体的亲和力,根据亲和力进行选择、克隆和变异操作,重新评估突变个体并选择好的抗体加入记忆集;其次,在处理完所有抗原模式后,根据抗体之间的亲和力对记忆组中的抗体进行网络抑制。最后,确定是否满足终止条件或继续执行上述步骤。人工免疫网络算法已被用于数据挖掘、机器学习和复杂优化问题解决。例如,AINE算法是一种无监督的机器学习方法,aiNet也是如此。这两种算法都可用于解决数据的聚类问题。此外,De Castro等人将aiNet算法应用于优化问题区域,提出了optaiNet算法,Yue等人使用aiNet算法过滤垃圾邮件并提出了ICAInet算法。

2.4 树突状细胞算法

树突状细胞算法是由生物免疫危险理论和树突状细胞工作机制提出的一种分类算法。在生物免疫系统中,树突状细胞是用于呈递抗原的免疫细胞,最初收集抗原并接收不同的刺激信号(安全信号,危险信号,病原体相关分子模式PAMP等),根据接收信号进入半成熟状态(更高的安全信号浓度)或成熟状态(高风险信号或PAMP浓度等)。半成熟和成熟的树突状细胞向免疫T细胞呈递抗原,但半成熟的树突状细胞抑制免疫反应,而成熟的树突状细胞刺激免疫反应。

树突状细胞算法模拟生物免疫系统中的树突状细胞如何工作。通常,典型的树突状细胞算法依次包括初始化、检测、环境评估和分类。在初始化阶段,生成一定大小的树突状细胞群,然后选择训练集元素中的关键属性,根据属性的实际含义和问题的需求,将其映射到不同类型的信号,包括安全信号,危险信号和PAMP信号。在检测阶段,通过未成熟的树突状细胞收集抗原和信号,然后计算和积累共刺激信号,半成熟信号和成熟信号的值。当累积的共刺激信号值超过迁移阈值时,进入环境评估阶段。在环境评估阶段,半成熟信号值和成熟信号值中较大的一个成为小区的环境。通常,半成熟环境值记录为 0,成熟环境值记录为 1。最后,分类阶段根据细胞环境值的总和以及mcAV量表可能引起的危害程度来计算成熟环境抗原值(MCAV)。MCAV值越接近1,抗原就越有可能有害。

Greensmith和Aickelin在2005年提出了第一个树突状细胞算法;目前,树突状细胞算法已应用于故障检测、网络入侵检测等诸多领域。例如,Greensmith和其他人使用树突状细胞算法进行网络入侵检测。

3 结束语

本文介绍了免疫计算的发展历史和生物免疫系统的多层保护机制,重点介绍了免疫计算研究的四个典型分支,包括其免疫学原理、基本内容和应用领域。生物免疫系统是一个具有适应性,自学性和稳健性的复杂系统。从信息处理的角度来看,生物免疫系统本质上是一个典型的安全智能系统,它结合了安全与智能,可以为智能科学技术提供许多新的思路和模式,并逐渐催生了免疫计算领域。从目前的研究现状来看,免疫计算在机器学习、数据挖掘、异常检测、网络安全、隐私保护等许多与人工智能和信息安全相关的领域具有良好的发展潜力和应用前景。

(略有参考)

人工智能研究|免疫计算概述

摘自中国工业情报学会通讯

第11卷,第3期,2021年

免疫计算的主题

继续阅读