天天看點

《Python資料挖掘:概念、方法與實踐》——第1章擴充你的資料挖掘工具箱

本節書摘來自華章社群《python資料挖掘:概念、方法與實踐》一書中的第1章擴充你的資料挖掘工具箱,作者[美] 梅甘·斯誇爾(megan squire),更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

第1章

擴充你的資料挖掘工具箱

面對感官資訊時,人類自然想要尋找模式,對其進行差別、分類和預測。這種尋找周圍模式的過程是人類的基本活動,人類的大腦對此很擅長。利用這種技能,我們的祖先更好地掌握了狩獵、聚會、烹饪群組織知識。是以,人類最早計算機化的任務是模式識别和模式預測也就不足為奇了,這種渴望一直持續到現在。近來,根據給定項目的目标,使用計算機找出資料中的模式,已經涉及資料庫系統、人工智能、統計學、資訊檢索、計算機視覺和其他各種計算機科學子領域,以及資訊系統、數學或者商業等。不管我們将這種活動稱作什麼—資料庫中的知識發現、資料挖掘、資料科學,其主要使命始終是找出有趣的模式。

這一使命聽起來似乎有些微不足道,資料挖掘已經存在了很長時間,對其實作已經積累了足夠多的變種,但是現在它已經成為了一個廣泛而複雜的領域。我們可以想象一所烹饪學校,其中的每位新人首先學習的是如何煮開水,如何使用刀具,然後才轉向更進階的技能,如制作松餅或者為雞肉去骨。在資料挖掘中,也有一些常用的技術,剛入門的資料挖掘人員也要學習它們:如何建構分類器,如何在資料中找到聚類宏。但是,本書的主題是精通python資料挖掘,是以,作為“精通”級别的書籍,目标是傳授給你一些在之前的資料挖掘項目中未曾見過的技術。

在第1章中,我們将介紹如下主題:

什麼是資料挖掘?要确定資料挖掘在不斷增強的其他相似概念中的位置,還将學習這一學科成長和變化的曆史。

我們如何進行資料挖掘?在此,我們将對比資料挖掘項目中常用的幾種過程或者方法論。

資料挖掘中使用哪些技術?在這一部分,将總結資料挖掘定義中包含的典型資料分析技術,并強調這本精通級書籍将要涵蓋的較為獨特卻未得到應有重視的技術。

如何建立資料挖掘工作環境?最後,我們将經曆建立基于python開發環境的過程,我們将用這個環境完成本書餘下部分中的項目。