這個包讓你可以更快地完成資料集的資料處理工作。放棄選取行或列子集的傳統方法,用這個包進行資料處理。用最少的代碼,你可以做最多的事。相比使用data.frame,data.table可以幫助你減少運算時間。你一定會對這個包的簡潔性感到震驚。
一個資料表格包含三部分,即DT[i, j, by]。你可以了解為我們告訴R用i來選出行的子集,并計算通過by來分組的j。大多數時候,by是用于類别變量的。在下面的代碼中,我用了兩個資料集(airquality和iris)。
第一步、加載資料,加載data.table包

第二步、把資料轉換成data.table格式
如果你學習過python語言,你應該比較熟悉。這個包和Python中的dataframe很相似。可以索引查詢。
第三步、按照你想要的查詢
記住,一定是[]符号才能索引data[a,b]表示a行,b列。逗号前不寫,則表明查找滿足列的條件的所有行。
還可以多條件查詢。如上所示。
END
有問題,歡迎留言。
每日更新(sql,R,python,databricks,sqlserver),感謝關注!!!