天天看点

Redis(十):Redis特殊类型之Hyperloglog基数统计

redis 2.8.9版本就更新了Hyperloglog数据结构!

Hyperloglog:基数统计算法!0.81%的错误率,不过统计大量数据可以忽略!

在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基 数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。

但是,因为 HyperLogLog 只会根据输入元素来计算基数,而不会储存输入元素本身,所以 HyperLogLog 不能像集合那样,返回输入的各个元素。

1、什么是基数

比如数据集 {1, 3, 5, 7, 5, 7, 8}, 那么这个数据集的基数集为 {1, 3, 5 ,7, 8}, 基数(不重复元素)为5。 基数估计就是在误差可接受的范围内,快速计算基数。

A{1,3,6,7,5,6}

B{1,3,5,7,6}

两个的基数都(不重复的元素)=5,可以接受误差!

2、Hyperloglog简介

Redis Hyperloglog 基数统计的算法!

比如在CSDN中一位用户访问多次,但是统计中依旧算作一个人

传统的方式是用set集合把每个人的id保存下来,然后统计元素数量,但是太费内存了,而目标是统计数量,如果还要浪费大量的空间,就很不划算!

优点:占用的内存是固定的,统计2^64这么大的基数,只占用12kb的内存,就很方便!

3、常用命令

127.0.0.1:6379> PFADD thekey1 a b c d e f g h i j k l m	//创建第一组元素
(integer) 1
127.0.0.1:6379> PFADD thekey2 n o p q r s t u v w x y z //创建第二组元素
(integer) 1
127.0.0.1:6379> PFCOUNT thekey1	//查询数量
(integer) 13
127.0.0.1:6379> PFCOUNT thekey2
(integer) 13
127.0.0.1:6379> PFMERGE thekey3 thekey1 thekey2 //合并两组
OK
127.0.0.1:6379> PFCOUNT thekey3
(integer) 25		//百分之零点八的误差出现了?
           

允许容错的话,可以使用Hyperloglog

继续阅读