在本章中,我們學習了在r中管理資料的基礎。從深入剖析用來存儲不同類型資料的資料結構開始。r資料的基本結構是向量,它擴充群組合成更複雜的資料結構,比如,清單和資料框。資料框是與資料集概念相聯系的r資料結構,資料框内同時有特征和案例。r提供了從電子表格類的資料檔案讀取資料和把資料框寫入電子表格類的資料檔案的函數。
然後,我們探索了一個包含二手車價格的真實世界資料集。我們使用常用的中心趨勢和分散程度統計量來檢驗數值變量,用散點圖來可視化價格和裡程表讀數。我們用表格檢驗名義變量。在檢驗二手車資料時,我們采用一種可以用來了解所有資料集的探索分析過程。整本書的其他項目都要求這些技能。
既然我們花了些時間來了解r中資料管理的基礎,我們就已經準備好了使用機器學習來解決真實世界的問題。第3章,我們将用最近鄰方法處理我們的第一個分類任務。