Spark-ML-数据获取/处理/准备

2016-05-17 23:50:00

注意:

Spark 1.2.0引入了一个实验性质的新MLlib API，位于ml包下（现有的接口则位于mllib包下）。新API旨在加强原有的API和接口的设计，从而更容易衔接数据流程的各个环节。这些环节包括特征提取、正则化、数据集转化、模型训练和交叉验证。

新API仍处于实现阶段，在后续的版本中可能会出现重大的变更。因此，后续的章节将只关注相对更成熟的现有MLlib API。随着版本的更新，本书所提到的各种特征提取方法和模型将会简单地桥接到新API中。但新API的核心思路和大部分底层代码仍会保持原样。

用户数据

电影数据

评级数据

过滤掉或删除非规整或有值缺失的数据：这通常是必须的，但的确会损失这些数据里那些好的信息。

填充非规整或缺失的数据：可以根据其他的数据来填充非规整或缺失的数据。方法包括用零值、全局期望或中值来填充，或是根据相邻或类似的数据点来做插值（通常针对时序数据）等。选择正确的方式并不容易，它会因数据、应用场景和个人经验而不同。

对异常值做鲁棒处理：异常值的主要问题在于即使它们是极值也不一定就是错的。到底是对是错通常很难分辨。异常值可被移除或是填充，但的确存在某些统计技术（如鲁棒回归）可用于处理异常值或是极值。

对可能的异常值进行转换：另一种处理异常值或极值的方法是进行转换。对那些可能存在异常值或值域覆盖过大的特征，利用如对数或高斯核对其转换。这类转换有助于降低变量存在的值跳跃的影响，并将非线性关系变为线性的。

数值特征（numerical feature）：这些特征通常为实数或整数，比如之前例子中提到的年龄。

 类别特征（categorical feature）：它们的取值只能是可能状态集合中的某一种。我们数据集中的用户性别、职业或电影类别便是这类。

 文本特征（text feature）：它们派生自数据中的文本内容，比如电影名、描述或是评论。

注意：

 其他特征：大部分其他特征都最终表示为数值。比如图像、视频和音频可被表示为数值数据的集合。地理位置则可由经纬度或地理散列（geohash）表示。

Spark支持Scala、Java和Python的绑定。我们可以通过这些语言所开发的软件包，借助其中完善的工具箱来实现特征的处理和提取，以及向量表示。特征提取可借助的软件包有scikit-learn、gensim、scikit-image、matplotlib、Python的NLTK、Java编写的OpenNLP以及用Scala编写的Breeze和Chalk。实际上，Breeze自Spark 1.0开始就成为Spark的一部分了。后几章也会介绍如何使用Breeze

的线性代数功能。

MovieLens 100k数据集

Spark-ML-数据获取/处理/准备

继续阅读

学习软件测试基础测试第七天

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入