天天看点

1.4.1 类/概念描述:特征化与区分

“数据可以与类或概念相关联。”

用汇总的、简洁的、精确的表达方式描述每个类和概念是有用的。这种类或概念的描述称为类/概念描述。

这种描述可以通过下述方法得到:(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据;(2)数据区分,将目标类与一个或多个可比较类(通常称为对比类)进行比较;(3)数据特征化和区分。

数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。

将数据汇总和特征化有一些有效的方法。基于统计度量和图的简单数据汇总。基于数据立方体的OLAP上卷操作可以用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。

数据特征化的输出可以用多种形式提供,例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结构描述也可以用广义关系或规则(称做特征规则)形式提供。

数据区分(data discrimination)是将类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类可以由用户指定,而对应的数据对象可以通过数据库查询检索。

用于数据区分的方法与用于数据特征化的方法类似。

“如何输出区分描述?”输出的提供形式类似于特征描述,但是区分描述应当包括比较度量,以便帮助区别目标类和对比类。用规则表示的区分描述称为区分规则。

(王)将概念用数据特征来表示。

概念在对世界的分析理解预测中非常重要。

概念包括定义、属性等。