關聯規則
隐藏在大型資料集中的令人感興趣的聯系
例子:
關聯規則的強度可以用它的支援度和置信度度量
支援度與置信度
關聯規則的支援度
支援度是一種重要度量,因為支援度很低的規則可能隻是偶然出現,從商務角度來看,低支援度的規則多半也不是令人感興趣的,因為對顧客很少同時購買的商品進行促銷可能并無益處。
是以,支援度通常用來删除那些不令人感興趣的規則。
關聯規則的置信度(相當于條件機率)
置信度通過規則進行推理的可靠性。對于給定的規則
先驗原理
如果一個項集是頻繁的,則它的所有子集一定也是頻繁的
Apriori算法
第一個關聯規則挖掘算法,開創性地使用基于支援度的剪枝技術,系統地控制侯選項集指數增長。其核心是基于兩階段頻集思想的遞推算法。
主要步驟(以購物車為例)
- 首先會生成所有單個物品的項集清單
- 掃描交易記錄來檢視哪些項集滿足最小支援度要求,那些不滿足最小支援度的集合會被去掉
- 對剩下的集合進行組合以生成包含兩個元素的項集
- 接下來重新掃描交易記錄,去掉不滿足最小支援度的項集,重複進行直到所有項集都被去掉
序列模式: