天天看點

《資料科學:R語言實作》——3.7 舍棄資料

本節書摘來自華章出版社《資料科學:r語言實作》一 書中的第3章,第3.7節,作者:r for data science cookbook 丘祐玮(david chiu),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在之前的教程中,我們介紹了如何修改和過濾資料集。這些步驟基本上涵蓋了資料預處理和資料準備的主要過程。但是,我們還想找出資料集中的壞資料。那些壞資料或者不想要的資料應該丢棄,避免生成誤導的結果。這裡,我們會介紹一些移除無用資料的實用方法。

準備工作

按照3.3節“轉換資料類型”教程,把導入資料的每個屬性轉換成合适的資料類型。同時按照3.2節“重命名資料變量”中的步驟,命名employees和salaries資料集的列名。

實作步驟

《資料科學:R語言實作》——3.7 舍棄資料

運作原理

舍棄行資料的想法與資料過濾很類似,你隻需要在過濾階段給出要舍棄行的反向索引,然後可以使用過濾後的資料替換原來的資料。由于last_name列是第5個索引,你可以在方括号中的逗号右邊給定-5來移除這個屬性。除了重新賦予非空值,你也可以給要舍棄的屬性指定null值。要移除行,你可以在方括号的逗号左邊放置反向索引,然後用過濾的資料子集替換原來的資料集。

更多技能

除了使用資料過濾或給具體屬性指定null值,你也可以使用函數within移除不需要的屬性。所需的操作隻是在函數rm中放置不需要的屬性名稱:

《資料科學:R語言實作》——3.7 舍棄資料

繼續閱讀