《Python数据挖掘：概念、方法与实践》——1.4节如何建立数据挖掘工作环境

本节书摘来自华章社区《python数据挖掘：概念、方法与实践》一书中的第1章，第1.4节如何建立数据挖掘工作环境，作者[美] 梅甘·斯夸尔（megan squire），更多章节内容可以访问云栖社区“华章社区”公众号查看

1.4　如何建立数据挖掘工作环境

前面几节帮助我们更好地了解了将要从事的项目及原因。现在可以开始建立一个开发环境，支持所有项目工作了。由于本书的目的是介绍如何构建挖掘数据模式的软件，因此我们将用一种通用编程语言编写程序。python编程语言具有非常强大且仍在不断成长、专门致力于数据挖掘的社区。这个社区已经贡献了一些非常方便的程序库，我们可以用来进行高效的处理，我们还可以依靠他们提供的许多数据类型，更快地工作。

在本书编著时，有两个版本的python可供下载：现在被视为经典的python 2（最新版本为2.7）和python 3（最新版本为3.5）。本书将使用python 3。因为我们需要使用许多相关的程序包和程序库，尽可能地使数据挖掘体验不那么痛苦，也因为其中一些程序包和库难以安装，所以这里我建议使用专为科学及数学计算设计的python分发版本。具体地说，我推荐continuum analytics 制作的python 3.5 anaconda分发版本。他们的基本python分发版本是免费的，所有组件都保证能够协同工作，而无需我们进行令人沮丧的兼容性保证工作。

启动该软件

根据你使用的版本和下载的时间，anaconda中的每个应用程序中除了launch按钮之外可能还有几个update（更新）按钮。如果你的软件版本显示需要，可以单击每个按钮以更新程序包。

为了开始编写python代码，单击spyder以启动代码编辑器和集成开发环境。如果你想使用自己的文本编辑器（如macos上的textwrangler或者windows上的sublime编辑器），完全没有问题。可以从命令行运行python代码。

花一点时间将spyder配置成你喜欢的样子，设置颜色和常规布局，或者保留默认值。对于我自己的工作空间，我移动了几个控制台窗口，建立一个工作目录，并进行几个自定义调整，使自己更适应这个新编辑器。你也可以这么做，使开发环境更舒适。

现在，我们已经为测试编辑器和安装程序库做好了准备。单击file（文件）并选择new file（新建文件）测试spyder编辑器，观察其工作方式。然后，输入简单的“hello world”语句：

单击绿色箭头，按下f5键或者单击run（运行）菜单中的run命令，运行程序。不管用哪一种方式，程序将执行，你将在控制台输出窗口看到输出。

此时，我们知道spyder和python正在工作，可以测试和安装一些程序库了。

首先，打开一个新文件，将其保存为packagetest.py。在这个测试程序中，我们将确定scikit-learn是否已经随anaconda正确安装。scikit-learn是很重要的程序包，包含了许多机器学习函数，以及用于测试这些函数的现成数据集。许多书籍和教程使用scikit-learn示例教授数据挖掘，所以在我们的工具箱中也有这个程序包。我们将在本书的多个章节中使用这个程序包。

最后，由于本书是关于数据挖掘或者数据结构中的知识发现的书籍，因此使用某种数据库软件绝对是个好主意。我选择mysql实现本书中的项目，因为它是免费软件，易于安装，可用于许多种操作系统。

为了让anaconda python与mysql通信，必须安装一些mysql python驱动程序。我喜欢pymysql驱动程序，因为它相当健壮，没有标准驱动程序常会有的一些bug。从anaconda中，启动一个终端窗口，运行如下命令：

现在所有模块似乎都已经安装，可以在需要它们时使用。如果还需要其他模块，或者其中一个模块过时，现在我们也已经知道如何在必要时安装或者升级模块了。

《Python数据挖掘：概念、方法与实践》——1.4节如何建立数据挖掘工作环境

继续阅读

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

MySQL的4种隔离级别？出现问题

neo4j之cypher使用文档

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

mysql使用source命令导入.sql文件

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入