天天看点

高效数据处理R包---data.table

这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法,用这个包进行数据处理。用最少的代码,你可以做最多的事。相比使用data.frame,data.table可以帮助你减少运算时间。你一定会对这个包的简洁性感到震惊。

一个数据表格包含三部分,即DT[i, j, by]。你可以理解为我们告诉R用i来选出行的子集,并计算通过by来分组的j。大多数时候,by是用于类别变量的。在下面的代码中,我用了两个数据集(airquality和iris)。

第一步、加载数据,加载data.table包

高效数据处理R包---data.table

第二步、把数据转换成data.table格式

高效数据处理R包---data.table

如果你学习过python语言,你应该比较熟悉。这个包和Python中的dataframe很相似。可以索引查询。

第三步、按照你想要的查询

高效数据处理R包---data.table
高效数据处理R包---data.table

记住,一定是[]符号才能索引data[a,b]表示a行,b列。逗号前不写,则表明查找满足列的条件的所有行。

高效数据处理R包---data.table
高效数据处理R包---data.table
高效数据处理R包---data.table

还可以多条件查询。如上所示。

END

有问题,欢迎留言。

每日更新(sql,R,python,databricks,sqlserver),感谢关注!!!

继续阅读