天天看點

《資料科學:R語言實作》——第3章 資料預處理和準備 3.1 引言

本節書摘來自華章計算機《資料科學:r語言實作》一書中的第3章,第3.1節,作者 丘祐玮(david chiu),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在之前的章節中,我們介紹了如何把各種來源的資料整合在一起。然而,隻是采集資料并不夠,還需要確定所采集資料的品質。如果資料的品質不高,分析的結果可能會由于有偏采樣或缺失資料而誤導大家。而且,如果采集的資料沒有良好的結構化和形态,你會很難進行資料關聯和分析。是以資料預處理和準備是資料分析前的基礎性工作。

熟悉sql操作的讀者可能已經了解如何使用資料庫來處理資料。例如,sql允許使用者使用插入操作添加新的記錄,使用更新操作修改資料,使用删除操作移除記錄。但是,我們并不需要把采集的資料放到資料庫中,r已經提供了更強大和更友善的預處理函數和程式包。在本章中,我們會展示在r中執行資料預處理是如此的簡單。