《資料挖掘：理論與算法》學習筆記（九）—關聯規則

2022-05-27 22:46:03

關聯規則

隐藏在大型資料集中的令人感興趣的聯系

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

例子：

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

關聯規則的強度可以用它的支援度和置信度度量

支援度與置信度

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

關聯規則的支援度

支援度是一種重要度量，因為支援度很低的規則可能隻是偶然出現，從商務角度來看，低支援度的規則多半也不是令人感興趣的，因為對顧客很少同時購買的商品進行促銷可能并無益處。

是以，支援度通常用來删除那些不令人感興趣的規則。

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

關聯規則的置信度（相當于條件機率）

置信度通過規則進行推理的可靠性。對于給定的規則

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

先驗原理

如果一個項集是頻繁的，則它的所有子集一定也是頻繁的

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

Apriori算法

第一個關聯規則挖掘算法，開創性地使用基于支援度的剪枝技術，系統地控制侯選項集指數增長。其核心是基于兩階段頻集思想的遞推算法。

主要步驟（以購物車為例）

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

《資料挖掘：理論與算法》學習筆記（九）—關聯規則

首先會生成所有單個物品的項集清單
掃描交易記錄來檢視哪些項集滿足最小支援度要求，那些不滿足最小支援度的集合會被去掉
對剩下的集合進行組合以生成包含兩個元素的項集
接下來重新掃描交易記錄，去掉不滿足最小支援度的項集，重複進行直到所有項集都被去掉

序列模式：

機器學習關聯規則條件機率遞推算法

上一篇: 《資料挖掘：理論與算法》學習筆記（七）—支援向量機

下一篇: 不容錯過的實用理财小知識

繼續閱讀