序列資料集挖掘的一個重要任務是序列模式挖掘。a-priori-life算法被用來進行序列模式挖掘,這裡使用的a-priori-life算法,它是采用廣度優先政策。然而,fp-growth算法,采用深度優先政策。出于不同的原因,算法有時還需要綜合考慮一些限制。
從序列模式中,可以發現商店消費者的常見購買模式。在其他方面,特别是廣告或市場營銷,序列模式挖掘發揮重要作用。可以從網絡日志挖掘、網頁推薦系統、生物資訊學分析、病曆跟蹤分析、災害預防與安全管理等領域中預測個人消費者行為。
本章中的規則都是從序列模式中挖掘出來的,它們具有多種。其中一些類型序列模式如下所示:
序列規則:x→y,其中xy。
标簽序列規則(label sequential rule,lsr):形如x→y,其中y是一個序列,x是将序列y中的若幹項用通配符替換後而産生的序列。
類序列規則(class sequential rule,csr):定義為x,若:
x→y,假設s為序列資料集,i是序列資料集s中所有項的集合,y是類标簽的集合,i∩y=,x是一個序列且y∈y。
序列資料集s定義為元組(sid, s)的集合,其中sid為序列id,s為序列。
在序列資料集s中,序列x的支援度定義為s中包含x的元組數,即
supports(x)={(sid, s)∨(sid, s)∈s←xs}
這是序列模式的一個内在性質,它應用于相關的算法,如apriori算法的apriori性質。對于序列x及其子序列y,support(x)≤support(y)。
廣義序列模式(generalized sequential pattern,gsp)算法是一個類似apriori的算法,但它應用于序列模式。該算法是逐層算法,采取寬度優先政策。它具有如下的特征:
gsp算法是apriori算法的擴充。它利用apriori性質(向下封閉),即,給定最小支援計數,若不接受某個序列,則其超序列也将丢棄。
需要對初始事務資料集進行多次掃描。
采用水準資料格式。
每次掃描中,通過将前一次掃描中發現的模式進行自連接配接來産生候選項集。
在第k次掃描中,僅當在第(k-1)次掃描中接受所有的(k-1)子模式,才接收該序列模式。
gsp算法為:

僞代碼為: