天天看點

《R語言資料挖掘:實用項目解析》——第1章,第1.5節索引或切分資料框

本節書摘來自華章出版社《r語言資料挖掘:實用項目解析》一書中的第1章,第1.5節索引或切分資料框,作者[印度]普拉迪帕塔·米什拉(pradeepta mishra),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

1.5 索引或切分資料框

在處理一個有着大量觀測記錄的客戶資料集時,需要根據一些篩選規則和有無放回取樣來切分資料集。索引是根據一些邏輯條件從資料框中提取資料子集的過程。subset函數的功能與索引一樣,可用于從資料框中提取元素。

《R語言資料挖掘:實用項目解析》——第1章,第1.5節索引或切分資料框

上述代碼的意思是:從audit資料集中選取那些性别為女且年齡超過65歲的觀測記錄。應該用哪個指令來提取基于這兩條規則的audit資料子集呢?本例中有10條觀測記錄滿足前面的條件,上面的代碼中輸出了資料框的行号。類似的結果也可以使用subset函數獲得。這裡不使用which 函數,而應使用subset函數,因為後者在傳遞多個條件參數時效率更高。讓我們看看subset函數的使用方法:

《R語言資料挖掘:實用項目解析》——第1章,第1.5節索引或切分資料框

subset函數中的附加參數使這個函數更為高效,因為它提供了僅從資料框中選取滿足邏輯條件的特定列這個附加益處。

繼續閱讀