hadoop 排重优化

2021-11-08 17:20:38

如果觉得有帮助的话就顶下吧

在统计的时候经常会用到排重，比如想统计每日登陆用户，但是一个用户一次多次登陆情况，或者一个产品被多少个用户下载。。等等情况

截图一是我之前写的代码：

hadoop 排重优化

下面是我优化后代码

multiset，会将相同的key,存到value种，只要将key遍历出来取值的个数就是排重后的数据。

前者是循环嵌套查找但是占用内存少 ,1179个组，平均每个组被分到6万条，最坏情况下(6w/2)^2*1179级别的循环，后者利用hashmap高效的存取值方式，是o(n)的级别，但是占用内存比较大

性能对比，下图是输入的数据,经过map的筛选，，

hadoop 排重优化

下图是代码1执行的用时

hadoop 排重优化

执行了一小时还没结束，下图是代码二的时间只要俩分钟不到，执行速度有大幅提升

hadoop 排重优化

分布式计算 hadoop pai优化 hadoop优化

上一篇: 被 Github 删除后，Popcorn Time 建立自己的 Git 库

下一篇: 技术干货分享：如何选择 HTML5 游戏引擎

继续阅读