天天看点

《机器学习与数据科学(基于R的统计学习方法)》——2.15 小结

本节书摘来异步社区《机器学习与数据科学(基于r的统计学习方法)》一书中的第1章,第1.15节,作者:【美】daniel d. gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

在本章中,我们了解了为何数据源是机器学习方程的命脉。我们介绍了许多连接原始数据并将其导入r环境中以用于机器学习算法的方法。下一步将会是“加工”这些原始数据,便于你选择的算法能够使用数据。这叫做“数据处理”,这是第3章的主题。

下面是本章主要内容的小结:

机器学习用的数据以各种形式存在,仅举几例,包括csv、excel和json。

使用各种各样的r包,你可以直接连接以sql数据库表形式存在的数据。

来自像twitter这样的社交媒体的数据已经成为机器学习应用流行的数据源。在r的帮助下,你可以很容易地连接twitter作为数据源。

谷歌分析代表了另一种激动人心的机器学习数据源。

你可以非常容易地将数据从r中写到外部文件中。