序列数据集挖掘的一个重要任务是序列模式挖掘。a-priori-life算法被用来进行序列模式挖掘,这里使用的a-priori-life算法,它是采用广度优先策略。然而,fp-growth算法,采用深度优先策略。出于不同的原因,算法有时还需要综合考虑一些约束。
从序列模式中,可以发现商店消费者的常见购买模式。在其他方面,特别是广告或市场营销,序列模式挖掘发挥重要作用。可以从网络日志挖掘、网页推荐系统、生物信息学分析、病历跟踪分析、灾害预防与安全管理等领域中预测个人消费者行为。
本章中的规则都是从序列模式中挖掘出来的,它们具有多种。其中一些类型序列模式如下所示:
序列规则:x→y,其中xy。
标签序列规则(label sequential rule,lsr):形如x→y,其中y是一个序列,x是将序列y中的若干项用通配符替换后而产生的序列。
类序列规则(class sequential rule,csr):定义为x,若:
x→y,假设s为序列数据集,i是序列数据集s中所有项的集合,y是类标签的集合,i∩y=,x是一个序列且y∈y。
序列数据集s定义为元组(sid, s)的集合,其中sid为序列id,s为序列。
在序列数据集s中,序列x的支持度定义为s中包含x的元组数,即
supports(x)={(sid, s)∨(sid, s)∈s←xs}
这是序列模式的一个内在性质,它应用于相关的算法,如apriori算法的apriori性质。对于序列x及其子序列y,support(x)≤support(y)。
广义序列模式(generalized sequential pattern,gsp)算法是一个类似apriori的算法,但它应用于序列模式。该算法是逐层算法,采取宽度优先策略。它具有如下的特征:
gsp算法是apriori算法的扩展。它利用apriori性质(向下封闭),即,给定最小支持计数,若不接受某个序列,则其超序列也将丢弃。
需要对初始事务数据集进行多次扫描。
采用水平数据格式。
每次扫描中,通过将前一次扫描中发现的模式进行自连接来产生候选项集。
在第k次扫描中,仅当在第(k-1)次扫描中接受所有的(k-1)子模式,才接收该序列模式。
gsp算法为:

伪代码为: