人工智能是当下时代的大方向,也是未来5-10年内下一代信息技术的发展趋势。无论哪个角色,了解人工智能的基本思路、主要方法框架、主要流程,对于我们在洽谈业务、与技术部门协作时都大有裨益。数之联算法研究中心的小伙伴本次将分享人工智能技术的整体框架、入门级机器学习的基本原理等内容,帮助我们更好地理解人工智能。
Part.1 人工智能技术整体框架
01 什么是模型?
最近很火的ChatGPT大家应该都听过,它就是一种自然语言处理模型,那什么是模型?模型是对客观世界的抽象,会不断修正和完善。
比如在天文上,我们怎么去认识地球?小时候学习时,地球仪就是一个模型,我们知道地球是圆的,经过学习修正,我们才发现地球是一个椭球形的。
比如元素周期表,是对化学元素的建模,它的表现形式是一个表,暗含不同的元素规律。
再比如说物理上的质点,可以把质点看成一个模型,经过中学到大学,你会学习到质点不能再表示的东西可能体现为一种刚体。
这些所谓的模型就是一种对某个事物的抽象,同时这个模型自身也在不断的进行完善修正。
02 从经验、模式到模型
作为个人,我们如何认识客观世界呢?
第一阶段就是从经验层面。这里引入一个最常见的问题。什么是鸟?我们小的时候会去看很多识图卡片,学习什么是鸟。通常一开始学到的是鸟会飞,有一天大人告诉我们鸡不会飞,但它也是鸟。这些就是通过学习总结经验得出的(母鸡是鸟,麻雀也是鸟)。我们认识客观世界的第一个层面就是经验。这些经验就像数学归纳法,要总结归纳一些现象和数学规律。
第二个阶段是模式。那什么是模式?个人的经验是有限的,但是我们可以通过大量经验总结提炼出一套模式或者规则,比如这里,结合母鸡和麻雀的例子,我们就会纠正经验认识,可能会觉得只要长羽毛的就是鸟,这就是一种模式。
第三个阶段是通过数学模型或者物理模型。假设鸟有一种特定的DNA片段,通过这个DNA片段,我们就能识别出一个未知物种是不是鸟。
第四个阶段就是人工智能。人工智能怎么去识别鸟呢?这其实是一个图像识别问题。对于人工智能模型,它得到一张图片,他就会去学习这个图片的特征,我们可能也不清楚他到底看的是羽毛还是嘴巴还是脚,但他就是能捕获这个图片及特征,你只需要告诉他有这样的图片就是鸟,那样的图片不是鸟,通过大量的图片训练,他就能够把握其中的规律。
(比如上图中的深色区域就是人工智能模型在识别判断“下方四种鸟是不是左侧那种特定类型的鸟”时,所重点关注的区域,可以看出人工智能模型主要抓住了左侧鸟的喙部特征)
因此,我们通过人工智能模型,可以不去挖掘特定的模式,不用指定规律或者规则,直接把数据放进去,让它自己去学习探索客观世界。
Part.2 入门级机器学习基本原理
01 机器学习简单原理
机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。目前在业界使用机器学习比较突出的领域很多,例如:计算机视觉、自然语言处理、推荐系统等等。
机器学习算法利用统计学的技巧,能够自动学习并识别数据内的规律。凭着这些规律,算法便能作出高度准确的预测。
通俗地讲,通过算法模型使计算机在数据中学习从而进行预测。
为什么选择使用机器学习?“与其把经验和知识总结了告诉计算机,不如让计算机自主地学习经验和知识。”
比如判断橘子口味,普通计算机算法需要人为穷举所有可能性,并判断哪种可能性组合会导致橘子是甜的。
机器学习算法则是把问题抛给计算机,让计算机学习哪些组合会导致橘子是甜的。
若含有颜色,尺寸,产地,降雨量,天气,季节等大量特征时,普通算法便难以适用。
02 人工智能的基本流程
人工智能的基本流程可包括训练和预测两个阶段。
训练阶段
首先要训练数据,专业名词叫做训练集。模型通过训练数据进行学习,并挖掘内部规律,不断调整以提高学习效果。
例如,提供特定图片和标签数据,模型会自动构建并学习,形成经验知识并挖掘内部规律。如果判断错误,可通过提供更多数据来调整模型。
预测阶段
训练完成后,进入预测/测试阶段,与学生学习后考试同理。已经训练好的模型预测的值需与真实值进行比较,如有差异则需要调整模型并提供新数据进行学习。其中的核心在于模型自主学习数据和特征。
需要强调的是,训练数据和测试数据应来源于同一个总体,即独立同分布。例如,若提供鸟的图片进行训练,则测试时应提供同类别的图片。
接下来将详细阐述这些模型具体是什么。
03 基于统计的机器学习
线性回归
例如,选取人工智能中比较简单的线性回归模型,其本质在于利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
此时,模型是一个数学表达式,表现在图像上,就是一条直线(如下图所示)。试想,如果这个表达式由一次表达式变成更高阶的高次表达式(高次表达式可以拟合得更加精确),将会呈现为曲线。下方另一个图展现的是用logistic回归做分类问题,其表现在图像上,直观的展现形式就是一条logistic曲线。
SVM
SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
有时,模型不仅可以是一条直线或曲线,还可能是一个空间中的高维超平面。下图是一个示意图(仅为示意),两种颜色的点代表着不同类别,两个类交错混杂,单是一条普通的高阶曲线,已经无法分隔开,此时可以通过SVM模型,可以找到一个更复杂的空间高维平面(可以想象一个高维的空间曲面)来把两个颜色分隔开。
此时,在SVM模型中,模型在数学上,本质上就是优化问题的方程(目标函数、约束条件),模型是平面上无法绘制的一个超平面。
决策树
决策树是在已知各种情况发生概率的基础上,通过层层判断、构成决策树,来求取净现值的期望值大于等于零的概率,是直观运用概率分析,模拟人类层次化决策判定过程的一种模型构建方法。
此时,模型在逻辑形式上是一系列判断的规则,模型形象化的展现形式就是一颗树(也可以是多棵树,例如随机森林、Xgboost等)。
神经网络
神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习。神经网络的核心在于:在输入和输出之间,构建了复杂的连接网络,以实现对抽象数据(如典型的图像、文本等)高维度特征的自动抽取和表征。
此时,模型在数学上,本质是一个优化问题(如上图所示的高维空间中基于梯度下降寻找最优解),模型表现在可视化的图形上,就是一个网络。
(该图展现了机器学习中的更多模型)
Part.3机器学习相关拓展
01 人工智能的基本特点
- 大数据量
- 大量标注
- 复杂的模型结构
- 和数据强相关
综上,我们可以知道,为什么大家常说人工智能技术三大核心要素是数据、模型和算力。数据是基础,没有足够的数据,就无法进行深度学习,无法进行模型训练。模型是最重要的决定因素,模型直接决定了人工智能技术在特定应用场景下解决问题时的准确程度。算力是性能效果的瓶颈,算力决定了人工智能技术的计算速度和处理能力。
另外,相信大家可能还有另一个问题,那就是机器学习、深度学习和数据挖掘之间到底有什么区别呢?
大家可以从这张图中看出,尽管不同的人有不同的理解方式,但是总的来说,业内公认的理解都是传统的数据挖掘,以及机器学习、深度学习之间,本质上是相互交叉重叠的!
而对于机器学习和深度学习之间的关系,这个问题非常有意思,将在下一节重点分析。
02 机器学习的发展
下面将从基础理论、工程实现、数据场景3个层面,展现笔者对机器学习发展历程的理解。
从这张图中可以看出,机器学习的理论不断拓展,包括集成学习、强化学习、迁移学习等。这些基础理论极其重要,是机器学习能够不断创新发展的核心。
与此同时,在机器学习方法的应用过程中,面对数据获取、特征提取、模型构建、模型部署等多个环节的相应难题(如少数据、特征提取构造困难、传统模型表征刻画不充分、模型太大在一些场景部署困难等),又发展出相应的解决手段,如下图所示。
需要特别指出强调的,在特征提取和模型构建方面,由于神经网络方法的应用,模型可以做到高维特征的自动抽取和表征,而且模型可以构建得更加复杂、灵活。
特别是在图像、文本等领域大获成功后,蓬勃发展,最终发展为一个特殊的分支:深度学习。(看到这里,你是否已经明白机器学习和深度学习的区别了呢?)
随着神经网络、强化学习的引入,深度学习蓬勃发展,那么下一个突破点在哪里呢?未来,值得期待!(还记得前文的观点么?机器学习的基础理论,如强化学习、迁移学习、主动学习等将是未来人工智能不断创新蓬勃发展的基石和不竭源泉)
最后,我们展现面向特定数据场景难题时,机器学习方法的拓展,在实际问题中,数据是复杂多样的,因而机器学习方法针对特定场景的数据难题发展了一系列技巧方法。
03 机器学习的局限性
数据分布问题
必须保证数据独立同分布,模型学习的数据和考察的数据要是同一个分布。
模型结果的可靠性
多次结果的稳定性,预测结果的推理可靠性。
安全性问题
如何保证人工智能模型的安全性?例如基于对抗样本的模型攻击等。
其他
- 可推理性(例如模型如何给出因果层面的推理,模型如何辅助决策)
- 可解释性(模型是否是无偏好、公正的?模型的方法是否是可靠的)
- 大模型的挑战(例如大模型所需的更多训练数据,更高算力需求,更复杂不可知的模型结构)
- 标注量的挑战(例如少标注,少负样本,不确定的正样本,质量不好的标注等)
关于作者
阿珂&Luoling
数之联算法研究中心
*本文部分图片源于网络,来源见水印,侵删