天天看點

《機器學習與資料科學(基于R的統計學習方法)》——2.7 使用檔案連接配接

本節書摘來異步社群《機器學習與資料科學(基于r的統計學習方法)》一書中的第2章,第2.7節,作者:【美】daniel d. gutierrez(古鐵雷斯),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

另一種從資料源中讀取資訊的方式是通過檔案連接配接。利用連接配接,你可以讀入csv檔案,就像我們在前面看到的那樣。不同的是,你也可以從文本檔案中讀取資料行。在資料不太規整的情況下,從文本檔案中按行讀取資料是有意義的。為此,r有一個有用的函數readlines(),可以和檔案連接配接一同使用。在我們檢視readlines()的例子之前,首先來看看檔案連接配接是如何工作的。考慮下面的示例代碼:

con &lt;- url("http://radicaldatascience.wordpress.com/", "r") rds &lt;- readlines(con, n=20) close(con) head(rds)<code>`</code> 在上文中,使用head(),展示了從我的部落格上讀取的html文本。
class(rds)

[1] "character"<code>`</code>

将檔案中的文本行存儲在向量中意味着你必須寫r代碼來處理資料,以解釋資料的含義。舉個例子,如果資料行中包含twitter社交媒體内容,那麼你可能希望開發一個算法來執行推文中的文本傾向性分析。

r中有很多其他函數涉及連接配接。要檢視完整的清單,使用如下指令:

繼續閱讀