redis 2.8.9版本就更新了Hyperloglog資料結構!
Hyperloglog:基數統計算法!0.81%的錯誤率,不過統計大量資料可以忽略!
在 Redis 裡面,每個 HyperLogLog 鍵隻需要花費 12 KB 記憶體,就可以計算接近 2^64 個不同元素的基 數。這和計算基數時,元素越多耗費記憶體就越多的集合形成鮮明對比。
但是,因為 HyperLogLog 隻會根據輸入元素來計算基數,而不會儲存輸入元素本身,是以 HyperLogLog 不能像集合那樣,傳回輸入的各個元素。
1、什麼是基數
比如資料集 {1, 3, 5, 7, 5, 7, 8}, 那麼這個資料集的基數集為 {1, 3, 5 ,7, 8}, 基數(不重複元素)為5。 基數估計就是在誤差可接受的範圍内,快速計算基數。
A{1,3,6,7,5,6}
B{1,3,5,7,6}
兩個的基數都(不重複的元素)=5,可以接受誤差!
2、Hyperloglog簡介
Redis Hyperloglog 基數統計的算法!
比如在CSDN中一位使用者通路多次,但是統計中依舊算作一個人
傳統的方式是用set集合把每個人的id儲存下來,然後統計元素數量,但是太費記憶體了,而目标是統計數量,如果還要浪費大量的空間,就很不劃算!
優點:占用的記憶體是固定的,統計2^64這麼大的基數,隻占用12kb的記憶體,就很友善!
3、常用指令
127.0.0.1:6379> PFADD thekey1 a b c d e f g h i j k l m //建立第一組元素
(integer) 1
127.0.0.1:6379> PFADD thekey2 n o p q r s t u v w x y z //建立第二組元素
(integer) 1
127.0.0.1:6379> PFCOUNT thekey1 //查詢數量
(integer) 13
127.0.0.1:6379> PFCOUNT thekey2
(integer) 13
127.0.0.1:6379> PFMERGE thekey3 thekey1 thekey2 //合并兩組
OK
127.0.0.1:6379> PFCOUNT thekey3
(integer) 25 //百分之零點八的誤差出現了?
允許容錯的話,可以使用Hyperloglog