4.1基本概念
1、数据挖掘中的分类的目的
它是为了得到一个分类函数或分类模型(也称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。
比如:可以将股票分为易涨和易跌股票两类。这样就可以选择属于易涨的哪类股票买入。
2、分类描述
①输入数据(训练集),它是有一条条的数据库记录组成的。
②每条记录包含若干个属性,组成一个特征向量。
③训练集的每条记录还有一个特定的类标签与之对应。
④该类标签是系统的输入,通常是以往的一些经验数据
⑤一个具体样本的形式可为样本向量:(v1,v2,...vn;c),这里的vi表示字段值,c表示类别。
3、分类的目的:
①分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或模型。
②由此生成的类描述用来对未来测试数据进行分类。
③尽管这些未来的测试数据的类标签是未知的,仍可以由此预测这些新数据所属的类。注意是预测不是肯定。
4、分类定义:
对现有的数据进行学习,得到一个目标函数或规则,把每个属性集x映射到一个预先定义的类标号y上。
目标函数或规则也称为分类模型,它有两个主要内容。
①一个是描述性建模,即作为解释性工具,用于区别不同类中的对象。②另一个是预测性建模,即用于预测未知记录的类标号。
5、分类的原理
①需要一个训练集,它有类标号已知的记录组成。
②使用训练集建立分类模型
③分类模型运用于检验集,检验集由类标号未知的记录组成。
![]()
数据挖掘学习------------------4-分类方法-1-基本概念4.1基本概念
6、训练模型分类
①分类规则形式
②决策树形式或数学公式形式。
例如:给定一个顾客信用信息数据库,通过学习所获的分类规则可用于识别顾客是否具有良好的信用等级或一般的信用低级。
7、构造模型的过程
两个阶段:①训练、②测试
在构造模型之前,要求将数据集随机地分为训练数据和测试数据。
(1)在训练阶段
①使用训练数据集,通过分析由属性描述的数据库元组来构造模型,假设每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。②训练数据集中的单个元组也称作训练样本,一个具体样本的形式可为:(u1,u2,....,un;c),其中ui表示属性值,c表示类别。③由于提供了每个训练样本的类标号,该阶段也称有指导的学习。④模型以分类规则、判定树或数学公式的形式提供。(2)在测试阶段①使用测试数据集来评估模型的分类准确率。②如果认为模型的准确率可以接受,就可以用该模型对其他数据进行分类。③一般测试阶段的代价远远低于训练阶段。
8、预处理
在分类之前,对数据进行预处理:
(1)清理数据。目的:消除或减少数据噪声。
(2)相关性分析。目的:删除这些不相关或冗余的属性。
(3)数据变换。目的:数据可概化到较高的概念。比如连续性数值变为离散型、按比例缩放,落入较小的区间,比如【0,1】区间等。
9、常用的分类方法
常用的共7种:①K-紧邻(KNN)②贝叶斯分类③神经网络④逻辑斯谛(Logistic)⑤判别分析⑥支持向量机(SVM)⑦决策树后面章节一一介绍。