天天看点

数据挖掘之数据准备——原始数据的描述

数据挖掘之数据准备——原始数据的描述

<b>数据样本</b>是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。

首先介绍两种常见的基本类型:<b>数值型 和 分类型</b>

<b>数值型值</b>包括实型变量和整型变量如年龄,速度或长度。

<b></b>

<b>数值型特征有两个重要的属性</b>:其值有顺序关系和距离关系。

与其形成对照的是,<b>分类型变量</b>没有上述两种关系,<b>分类型变量的两个值</b> 可以相等或者不等。它们只建立一种<b>等同关系</b>(蓝色=蓝色 或者 红色 != 蓝色),这种类型变量的例子有眼睛颜色,性别,国籍。若分类型变量有两个值,则原则上它可以转换成一个二进制的数值型变量,这种数值型变量有两个值:0或1.

具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。

另一种基于变量值的变量分类方法是,根据它是<b>连续型变量</b>还是<b>离散型变量</b>来分类。

<b>连续型变量也称为定量型或度量型变量</b>,可以使用<b>间隔尺度</b>或<b>比例尺度</b>来衡量。这两种尺度都允许在理论上无限精密地定义或者度量变量。而这两种尺度的区别在于它们<b>定义零点方式</b>。在间隔尺度中,<b>零点的位置是任意的</b>,因此,零点并不代表被测变量没有值。间隔尺度最佳的例子是温度尺度。

相反,<b>比例尺度有绝对的零点</b>。所有用这种尺度测量变量之间存在真实的比例关系。

在大型数据集中,连续型变量用实例或者整型值来表示。

<b>离散型变量也叫做定性型变量,</b>这种变量用两种非度量的尺度——<b>名义尺度或有序尺度</b>——来衡量或定义它的值。

<b>名义尺度</b>是无序的,它使用不同的符号,字符和数字来表示被测量变量的不同状态。名义尺度的一个例子是通用的顾客类型的标识符。

<b>有序尺度包括规则的,离散的顺序</b>,例如排名。有序变量是定义了顺序关系而没有定义距离关系的分类型变量。有序属性的例子有学生在班上的排名以及体育竞赛中的金牌,银牌和铜牌。<b>有序尺度未必是线性的</b>。在有序尺度中,有序属性只有大于,等于或小于关系。一般情况下顺序变量可以把数值型变量编码成为和有序变量值相对应的小交集。

一种特殊的离散型变量是周期变量,周期变量的特征是存在距离关系,而不存在顺序关系,如星期,月或日。

<b>最后另一种数据分类纬度是基于数据与时间有关的行为特性</b>。一些数据不随时间的变化而变化,它们成为静态数据。另一方面,也有随时间变化而变化的属性值叫做动态数据或者时间数据。

大多数数据挖掘方法更适合于静态数据,挖掘动态数据时,常常需要特殊的考虑和预处理。

产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征,此外,这些样本往往是高纬度的。这就意味者它们有极多的可测量特征。大数据集中这些多余的纬度产生了数据挖掘术语中所谓的“维数灾”。它是由高纬空间几何学产生的。

高纬度空间特性常常是违反直觉的。因为我们所在的世界是一个低纬度空间如二维空间或者三维空间。

高纬数据的4个重要属性会影响输入数据和数据挖掘结果的解释。

  1、若数据集在n纬度空间中生成密度相同密度的数据点,则该数据集的大小随维数呈指数增长。

  2、在高维空间中,需要更大的半径才能放入一小部分数据点。对给定的子样本,可以用公式e(p) = p的d分之一次幂  测定超立方体边长e,其中,p是预先指定的字样本,d是维数。

      通过上述公式表明,即使想获取数据的一小部分,也需要非常大的领域。

 3、在高纬度空间中,几乎每个点都比其他样本点更接近某一边界。在d维空间中,对大小维n的样本来讲,数据点之间的期望值距离d为:

          d(d,n) = 1/2((1/n)的d分之一次幂)

 4、几乎每个点都是异常点,当输入空间的纬度增加时,预测点到分类点中心的距离也在增加。每个新样本的预测点都像是初始分类数据的异常点。

数据集的维数增加时,数据将越来越稀疏,在这些数据所在的空间中,他们大都是异常点。因此必须重新考虑,重新评估统计学中的传统概念:距离,相似度,数据分布,均值,标准差等

继续阅读