天天看點

《機器學習與資料科學(基于R的統計學習方法)》——2.15 小結

本節書摘來異步社群《機器學習與資料科學(基于r的統計學習方法)》一書中的第1章,第1.15節,作者:【美】daniel d. gutierrez(古鐵雷斯),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

在本章中,我們了解了為何資料源是機器學習方程的命脈。我們介紹了許多連接配接原始資料并将其導入r環境中以用于機器學習算法的方法。下一步将會是“加工”這些原始資料,便于你選擇的算法能夠使用資料。這叫做“資料處理”,這是第3章的主題。

下面是本章主要内容的小結:

機器學習用的資料以各種形式存在,僅舉幾例,包括csv、excel和json。

使用各種各樣的r包,你可以直接連接配接以sql資料庫表形式存在的資料。

來自像twitter這樣的社交媒體的資料已經成為機器學習應用流行的資料源。在r的幫助下,你可以很容易地連接配接twitter作為資料源。

谷歌分析代表了另一種激動人心的機器學習資料源。

你可以非常容易地将資料從r中寫到外部檔案中。