Apache Spark机器学习.2.2　数据清洗

<b></b>

在本节中，我们将回顾一些spark平台上的数据清洗方法，重点关注数据不完备性。然后，我们将讨论一些spark数据清洗方面的特殊特征，以及一些基于spark平台更加容易的数据清洗解决方案。

学习完本节，我们将能够完成数据清洗，并为机器学习准备好数据集。

2.2.1　处理数据不完备性

对于机器学习，数据越多越好。然而，通常数据越多，“脏数据”也会越多——这意味着会有更多的数据清洗工作。

数据质量控制可能会有许多问题需要处理，有些问题可能很简单，如数据输入错误或者数据复制。原则上，解决他们的方法是类似的——例如，利用数据逻辑来实现探索和获取项目的本质知识，利用分析逻辑来纠正他们。为此，在本节中，我们将重点关注缺失值处理，以便说明在这个主题上spark的使用方法。数据清洗涵盖了数据的准确性、完整性、独特性、时效性和一致性。

虽然听起来可能很简单，但是处理缺失值和不完备性并不是一件容易的事情。它涉及许多问题，往往需要以下步骤：

1.计算数据缺失百分比。

这取决于研究项目，有些项目中的比例如果低于5%或10%，我们可能不需要在数据缺失问题上花费时间。

2.学习数据缺失的模式。

数据缺失有两种模式：完全随机或不随机。如果数据缺失是完全随机的，我们可以忽略这个问题。

3.确定解决数据缺失模式的方法。

处理数据缺失有几种常用的方法。均值填充，缺失数据删除，数据替换是最为主要的方法。

4.为数据缺失模式执行数据填补。

为了处理数据缺失和不完整性，数据科学家和机器学习从业者通常会利用他们熟悉的sql工具或r语言编程。幸运的是，在spark环境中，有spark sql和r notebook可以让用户继续使用他们熟悉的方法，为此，我们将在下面两节中进行详细阐述。

数据清洗也包含其他的问题，诸如处理数据输入错误和异常值。

2.2.2　在spark中进行数据清洗

在上一节中，我们讨论了处理数据不完备性。

安装spark后，我们可以很容易地在databricks workspace中使用spark sql和r notebook处理上一节中所描述的数据清洗工作。

特别需要指出的是，sqlcontext中的sql函数使得应用程序能够完成sql查询编程，并返回一个dataframe类型的结果。

例如，借助r notebook，我们可以用下面的语句来执行sql命令，并把结果放到一个data.frame：

数据清洗是一个非常繁琐和耗时的工作，在本节，我们想请你关注sampleclean，对于机器学习从业者，它可以使数据清洗更为简单，特别是分布式数据清洗。

sampleclean是建立在amplab伯克利数据分析栈（bdas）上的一个可扩展的数据清洗库。该库使用apache spark sql 1.2.0及以上版本和apache hive来支持分布式数据清洗操作和相关的脏数据查询处理。 sampleclean可以执行一组可互换和可组合的、物理和逻辑的数据清洗操作，这使得我们可以快速地构建和调整数据清洗pipelines。

我们先在spark和sampleclean中输入以下命令开启工作：

使用sampleclean，我们需要创建一个名为samplecleancontext的对象，然后使用该上下文来管理工作会话中所有的信息，并提供api基元与数据进行交互。 samplecleancontext由sparkcontext对象构造而成，具体如下：

2.2.3　更简便的数据清洗

使用sampleclean和spark，我们可以把数据清洗工作变得容易，可以编写更少的代码，并利用更少的数据。

总体而言，sampleclean采用了一个很好的策略。它采用异步方式以规避延迟，并使用采样来规避数据体量巨大的问题。此外，sampleclean在一个系统中结合了所有三个方面因素（算法、机器和人），因此变得更加高效。

更多使用sampleclean的信息，请访问：http://sampleclean.org/guide/ 和http://sampleclean.org/release.html。

为了更好地说明，让我们假设一个有四个数据表的机器学习项目：

要清洗这个数据集，我们需要：

无论是使用sql还是r语言命令，都要计算每个变量有多少个缺失值。

如果我们选择的策略是均值填充，那么用平均值填补缺失值。

尽管上述工作很容易实现，但是在数据体量巨大的情况下，这样做有可能非常耗时。因此，为了提高效率，我们可能需要将数据分割成许多子集，同时并行完成前面的步骤，spark是完成此项工作的最佳计算平台。

在databricks r notebook环境中，我们可以先用r语言命令sum(is.na(x))创建notebook来计算数据缺失的情况。

为了用平均值替代缺失值，我们可以使用下面的代码：

在spark中，我们可以轻松地对所有的数据集群使用r notebook。

Apache Spark机器学习.2.2　数据清洗

继续阅读

SQL语言基础：常用的数据查询语句

Linux 7 中配置Apache服务，及禁止ip访问，删除apache广告页面。

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

neo4j之cypher使用文档

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

sqlServer根据经纬查距离

Apache Spark机器学习.2.2 数据清洗

继续阅读

Apache Spark机器学习.2.2　数据清洗