本節書摘來自華章社群《python資料挖掘:概念、方法與實踐》一書中的第2章關聯規則挖掘,作者[美] 梅甘·斯誇爾(megan squire),更多章節内容可以通路雲栖社群“華章社群”公衆号檢視
第2章
關聯規則挖掘
在資料挖掘工具箱中,計量某個模式的頻率是一項關鍵任務。在某些情況下,較頻繁出現的模式可能最終成為更加重要的模式。如果我們可以發現經常同時出現的兩個或者三個項目,就更為有趣了。
在本章中,我們開始研究頻繁項集,然後将其擴充為稱作關聯規則的一類模式。我們将介紹如下主題:
什麼是頻繁項集?使用哪些技術找出頻繁項集?瓶頸在哪裡?如何加速這一過程?
如何将頻繁項集擴充為關聯規則?
什麼是好的關聯規則?我們将根據資料庫中的支援程度、對規則本身的置信度以及我們找出的規則所增加的價值,學習描述特定關聯規則的價值。
為此,我們将編寫一個程式,在關于一組軟體項目的中繼資料(事實)公開資料集中尋找頻繁項集。然後,學習在用于描述那些項目的标記中尋找頻繁項集。接着,将學習通過計算資料庫支援度,然後增加機率導向(x蘊含y)置信區間,将頻繁項集擴充為關聯規則。最後,将學習如何解讀關聯規則。具體地說,我們應該了解關聯規則說明以及沒有說明的情況。