天天看點

《Python資料挖掘:概念、方法與實踐》——1.5節小結

本節書摘來自華章社群《python資料挖掘:概念、方法與實踐》一書中的第1章,第1.5節小結,作者[美] 梅甘·斯誇爾(megan squire),更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

1.5 小結

在本章中,我們學習了将資料挖掘工具箱擴充到大師級别所需要做的工作。首先,我們從作為資料庫知識發現(kdd)過程一部分的資料挖掘曆史開始,對該領域進行了全面的介紹。還比較了資料挖掘其他類似的領域,如資料科學、機器學習和大資料等。

接下來,概述了kdd過程中大部分專家認為最重要的工具和技術,特别關注挖掘和分析步驟中最頻繁使用的技術。為了真正精通資料挖掘,重要的是要關注和簡單的教科書示例不同的問題。是以,我們将緻力于更獨特的資料挖掘技術,如生成摘要和尋找離群值,并關注更加不同尋常的資料類型,如文本和網絡。

在本章的最後,我們組合了一個健全的資料挖掘系統。我們的工作空間以強大的全功能程式設計語言python及其許多實用資料挖掘程式包(如ntlk、gensim、numpy、networkx和scikit-learn)為中心,輔之以易于使用的免費資料庫mysql。

現在,通過以上對軟體包的讨論使我們想到:你是否對哪些程式包最經常一起使用感到疑惑?是較為常見的ntlk和networkx組合,還是相對不常見的程式包搭配?在下一章中,我們将解決這一類問題。在第2章中,我們将學習如何生成經常發現的配對、三元組、四元組等的清單,然後根據找出的模式作出預測。