天天看點

Redis(十):Redis特殊類型之Hyperloglog基數統計

redis 2.8.9版本就更新了Hyperloglog資料結構!

Hyperloglog:基數統計算法!0.81%的錯誤率,不過統計大量資料可以忽略!

在 Redis 裡面,每個 HyperLogLog 鍵隻需要花費 12 KB 記憶體,就可以計算接近 2^64 個不同元素的基 數。這和計算基數時,元素越多耗費記憶體就越多的集合形成鮮明對比。

但是,因為 HyperLogLog 隻會根據輸入元素來計算基數,而不會儲存輸入元素本身,是以 HyperLogLog 不能像集合那樣,傳回輸入的各個元素。

1、什麼是基數

比如資料集 {1, 3, 5, 7, 5, 7, 8}, 那麼這個資料集的基數集為 {1, 3, 5 ,7, 8}, 基數(不重複元素)為5。 基數估計就是在誤差可接受的範圍内,快速計算基數。

A{1,3,6,7,5,6}

B{1,3,5,7,6}

兩個的基數都(不重複的元素)=5,可以接受誤差!

2、Hyperloglog簡介

Redis Hyperloglog 基數統計的算法!

比如在CSDN中一位使用者通路多次,但是統計中依舊算作一個人

傳統的方式是用set集合把每個人的id儲存下來,然後統計元素數量,但是太費記憶體了,而目标是統計數量,如果還要浪費大量的空間,就很不劃算!

優點:占用的記憶體是固定的,統計2^64這麼大的基數,隻占用12kb的記憶體,就很友善!

3、常用指令

127.0.0.1:6379> PFADD thekey1 a b c d e f g h i j k l m	//建立第一組元素
(integer) 1
127.0.0.1:6379> PFADD thekey2 n o p q r s t u v w x y z //建立第二組元素
(integer) 1
127.0.0.1:6379> PFCOUNT thekey1	//查詢數量
(integer) 13
127.0.0.1:6379> PFCOUNT thekey2
(integer) 13
127.0.0.1:6379> PFMERGE thekey3 thekey1 thekey2 //合并兩組
OK
127.0.0.1:6379> PFCOUNT thekey3
(integer) 25		//百分之零點八的誤差出現了?
           

允許容錯的話,可以使用Hyperloglog

繼續閱讀