《Python資料挖掘：概念、方法與實踐》——1.4節如何建立資料挖掘工作環境

本節書摘來自華章社群《python資料挖掘：概念、方法與實踐》一書中的第1章，第1.4節如何建立資料挖掘工作環境，作者[美] 梅甘·斯誇爾（megan squire），更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

1.4　如何建立資料挖掘工作環境

前面幾節幫助我們更好地了解了将要從事的項目及原因。現在可以開始建立一個開發環境，支援所有項目工作了。由于本書的目的是介紹如何建構挖掘資料模式的軟體，是以我們将用一種通用程式設計語言編寫程式。python程式設計語言具有非常強大且仍在不斷成長、專門緻力于資料挖掘的社群。這個社群已經貢獻了一些非常友善的程式庫，我們可以用來進行高效的處理，我們還可以依靠他們提供的許多資料類型，更快地工作。

在本書編著時，有兩個版本的python可供下載下傳：現在被視為經典的python 2（最新版本為2.7）和python 3（最新版本為3.5）。本書将使用python 3。因為我們需要使用許多相關的程式包和程式庫，盡可能地使資料挖掘體驗不那麼痛苦，也因為其中一些程式包和庫難以安裝，是以這裡我建議使用專為科學及數學計算設計的python分發版本。具體地說，我推薦continuum analytics 制作的python 3.5 anaconda分發版本。他們的基本python分發版本是免費的，所有元件都保證能夠協同工作，而無需我們進行令人沮喪的相容性保證工作。

啟動該軟體

根據你使用的版本和下載下傳的時間，anaconda中的每個應用程式中除了launch按鈕之外可能還有幾個update（更新）按鈕。如果你的軟體版本顯示需要，可以單擊每個按鈕以更新程式包。

為了開始編寫python代碼，單擊spyder以啟動代碼編輯器和內建開發環境。如果你想使用自己的文本編輯器（如macos上的textwrangler或者windows上的sublime編輯器），完全沒有問題。可以從指令行運作python代碼。

花一點時間将spyder配置成你喜歡的樣子，設定顔色和正常布局，或者保留預設值。對于我自己的工作空間，我移動了幾個控制台視窗，建立一個工作目錄，并進行幾個自定義調整，使自己更适應這個新編輯器。你也可以這麼做，使開發環境更舒适。

現在，我們已經為測試編輯器和安裝程式庫做好了準備。單擊file（檔案）并選擇new file（建立檔案）測試spyder編輯器，觀察其工作方式。然後，輸入簡單的“hello world”語句：

單擊綠色箭頭，按下f5鍵或者單擊run（運作）菜單中的run指令，運作程式。不管用哪一種方式，程式将執行，你将在控制台輸出視窗看到輸出。

此時，我們知道spyder和python正在工作，可以測試和安裝一些程式庫了。

首先，打開一個新檔案，将其儲存為packagetest.py。在這個測試程式中，我們将确定scikit-learn是否已經随anaconda正确安裝。scikit-learn是很重要的程式包，包含了許多機器學習函數，以及用于測試這些函數的現成資料集。許多書籍和教程使用scikit-learn示例教授資料挖掘，是以在我們的工具箱中也有這個程式包。我們将在本書的多個章節中使用這個程式包。

最後，由于本書是關于資料挖掘或者資料結構中的知識發現的書籍，是以使用某種資料庫軟體絕對是個好主意。我選擇mysql實作本書中的項目，因為它是免費軟體，易于安裝，可用于許多種作業系統。

為了讓anaconda python與mysql通信，必須安裝一些mysql python驅動程式。我喜歡pymysql驅動程式，因為它相當健壯，沒有标準驅動程式常會有的一些bug。從anaconda中，啟動一個終端視窗，運作如下指令：

現在所有子產品似乎都已經安裝，可以在需要它們時使用。如果還需要其他子產品，或者其中一個子產品過時，現在我們也已經知道如何在必要時安裝或者更新子產品了。

《Python資料挖掘：概念、方法與實踐》——1.4節如何建立資料挖掘工作環境

繼續閱讀

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

MySQL的4種隔離級别？出現問題

neo4j之cypher使用文檔

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

mysql使用source指令導入.sql檔案

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入