天天看點

高效資料處理R包---data.table

這個包讓你可以更快地完成資料集的資料處理工作。放棄選取行或列子集的傳統方法,用這個包進行資料處理。用最少的代碼,你可以做最多的事。相比使用data.frame,data.table可以幫助你減少運算時間。你一定會對這個包的簡潔性感到震驚。

一個資料表格包含三部分,即DT[i, j, by]。你可以了解為我們告訴R用i來選出行的子集,并計算通過by來分組的j。大多數時候,by是用于類别變量的。在下面的代碼中,我用了兩個資料集(airquality和iris)。

第一步、加載資料,加載data.table包

高效資料處理R包---data.table

第二步、把資料轉換成data.table格式

高效資料處理R包---data.table

如果你學習過python語言,你應該比較熟悉。這個包和Python中的dataframe很相似。可以索引查詢。

第三步、按照你想要的查詢

高效資料處理R包---data.table
高效資料處理R包---data.table

記住,一定是[]符号才能索引data[a,b]表示a行,b列。逗号前不寫,則表明查找滿足列的條件的所有行。

高效資料處理R包---data.table
高效資料處理R包---data.table
高效資料處理R包---data.table

還可以多條件查詢。如上所示。

END

有問題,歡迎留言。

每日更新(sql,R,python,databricks,sqlserver),感謝關注!!!

繼續閱讀