天天看點

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

關聯規則

隐藏在大型資料集中的令人感興趣的聯系

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

例子:

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

關聯規則的強度可以用它的支援度和置信度度量

支援度與置信度

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

關聯規則的支援度

支援度是一種重要度量,因為支援度很低的規則可能隻是偶然出現,從商務角度來看,低支援度的規則多半也不是令人感興趣的,因為對顧客很少同時購買的商品進行促銷可能并無益處。

是以,支援度通常用來删除那些不令人感興趣的規則。

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

關聯規則的置信度(相當于條件機率)

置信度通過規則進行推理的可靠性。對于給定的規則 

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

先驗原理

如果一個項集是頻繁的,則它的所有子集一定也是頻繁的

《資料挖掘:理論與算法》學習筆記(九)—關聯規則

Apriori算法

第一個關聯規則挖掘算法,開創性地使用基于支援度的剪枝技術,系統地控制侯選項集指數增長。其核心是基于兩階段頻集思想的遞推算法。

主要步驟(以購物車為例)

《資料挖掘:理論與算法》學習筆記(九)—關聯規則
《資料挖掘:理論與算法》學習筆記(九)—關聯規則
  • 首先會生成所有單個物品的項集清單
  • 掃描交易記錄來檢視哪些項集滿足最小支援度要求,那些不滿足最小支援度的集合會被去掉
  • 對剩下的集合進行組合以生成包含兩個元素的項集
  • 接下來重新掃描交易記錄,去掉不滿足最小支援度的項集,重複進行直到所有項集都被去掉

序列模式:

繼續閱讀