本節書摘來自華章社群《python資料挖掘:概念、方法與實踐》一書中的第1章,第1.4節如何建立資料挖掘工作環境,作者[美] 梅甘·斯誇爾(megan squire),更多章節内容可以通路雲栖社群“華章社群”公衆号檢視
1.4 如何建立資料挖掘工作環境
前面幾節幫助我們更好地了解了将要從事的項目及原因。現在可以開始建立一個開發環境,支援所有項目工作了。由于本書的目的是介紹如何建構挖掘資料模式的軟體,是以我們将用一種通用程式設計語言編寫程式。python程式設計語言具有非常強大且仍在不斷成長、專門緻力于資料挖掘的社群。這個社群已經貢獻了一些非常友善的程式庫,我們可以用來進行高效的處理,我們還可以依靠他們提供的許多資料類型,更快地工作。
在本書編著時,有兩個版本的python可供下載下傳:現在被視為經典的python 2(最新版本為2.7)和python 3(最新版本為3.5)。本書将使用python 3。因為我們需要使用許多相關的程式包和程式庫,盡可能地使資料挖掘體驗不那麼痛苦,也因為其中一些程式包和庫難以安裝,是以這裡我建議使用專為科學及數學計算設計的python分發版本。具體地說,我推薦continuum analytics 制作的python 3.5 anaconda分發版本。他們的基本python分發版本是免費的,所有元件都保證能夠協同工作,而無需我們進行令人沮喪的相容性保證工作。
啟動該軟體
根據你使用的版本和下載下傳的時間,anaconda中的每個應用程式中除了launch按鈕之外可能還有幾個update(更新)按鈕。如果你的軟體版本顯示需要,可以單擊每個按鈕以更新程式包。
為了開始編寫python代碼,單擊spyder以啟動代碼編輯器和內建開發環境。如果你想使用自己的文本編輯器(如macos上的textwrangler或者windows上的sublime編輯器),完全沒有問題。可以從指令行運作python代碼。
花一點時間将spyder配置成你喜歡的樣子,設定顔色和正常布局,或者保留預設值。對于我自己的工作空間,我移動了幾個控制台視窗,建立一個工作目錄,并進行幾個自定義調整,使自己更适應這個新編輯器。你也可以這麼做,使開發環境更舒适。
現在,我們已經為測試編輯器和安裝程式庫做好了準備。單擊file(檔案)并選擇new file(建立檔案)測試spyder編輯器,觀察其工作方式。然後,輸入簡單的“hello world”語句:
單擊綠色箭頭,按下f5鍵或者單擊run(運作)菜單中的run指令,運作程式。不管用哪一種方式,程式将執行,你将在控制台輸出視窗看到輸出。
此時,我們知道spyder和python正在工作,可以測試和安裝一些程式庫了。
首先,打開一個新檔案,将其儲存為packagetest.py。在這個測試程式中,我們将确定scikit-learn是否已經随anaconda正确安裝。scikit-learn是很重要的程式包,包含了許多機器學習函數,以及用于測試這些函數的現成資料集。許多書籍和教程使用scikit-learn示例教授資料挖掘,是以在我們的工具箱中也有這個程式包。我們将在本書的多個章節中使用這個程式包。
最後,由于本書是關于資料挖掘或者資料結構中的知識發現的書籍,是以使用某種資料庫軟體絕對是個好主意。我選擇mysql實作本書中的項目,因為它是免費軟體,易于安裝,可用于許多種作業系統。
為了讓anaconda python與mysql通信,必須安裝一些mysql python驅動程式。我喜歡pymysql驅動程式,因為它相當健壯,沒有标準驅動程式常會有的一些bug。從anaconda中,啟動一個終端視窗,運作如下指令:

現在所有子產品似乎都已經安裝,可以在需要它們時使用。如果還需要其他子產品,或者其中一個子產品過時,現在我們也已經知道如何在必要時安裝或者更新子產品了。