《R语言数据挖掘》——2.4 序列数据集挖掘

2021-11-08 06:01:20

序列数据集挖掘的一个重要任务是序列模式挖掘。a-priori-life算法被用来进行序列模式挖掘，这里使用的a-priori-life算法，它是采用广度优先策略。然而，fp-growth算法，采用深度优先策略。出于不同的原因，算法有时还需要综合考虑一些约束。

从序列模式中，可以发现商店消费者的常见购买模式。在其他方面，特别是广告或市场营销，序列模式挖掘发挥重要作用。可以从网络日志挖掘、网页推荐系统、生物信息学分析、病历跟踪分析、灾害预防与安全管理等领域中预测个人消费者行为。

本章中的规则都是从序列模式中挖掘出来的，它们具有多种。其中一些类型序列模式如下所示：

序列规则：x→y，其中xy。

标签序列规则（label sequential rule，lsr）：形如x→y，其中y是一个序列，x是将序列y中的若干项用通配符替换后而产生的序列。

类序列规则（class sequential rule，csr）：定义为x，若：

x→y，假设s为序列数据集，i是序列数据集s中所有项的集合，y是类标签的集合，i∩y=，x是一个序列且y∈y。

序列数据集s定义为元组（sid, s）的集合，其中sid为序列id，s为序列。

在序列数据集s中，序列x的支持度定义为s中包含x的元组数，即

supports(x)={(sid, s)∨(sid, s)∈s←xs}

这是序列模式的一个内在性质，它应用于相关的算法，如apriori算法的apriori性质。对于序列x及其子序列y，support（x）≤support(y)。

广义序列模式（generalized sequential pattern，gsp）算法是一个类似apriori的算法，但它应用于序列模式。该算法是逐层算法，采取宽度优先策略。它具有如下的特征：

gsp算法是apriori算法的扩展。它利用apriori性质（向下封闭），即，给定最小支持计数，若不接受某个序列，则其超序列也将丢弃。

需要对初始事务数据集进行多次扫描。

采用水平数据格式。

每次扫描中，通过将前一次扫描中发现的模式进行自连接来产生候选项集。

在第k次扫描中，仅当在第（k-1）次扫描中接受所有的（k-1）子模式，才接收该序列模式。

gsp算法为：

伪代码为：

继续阅读