Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性例子

2023-07-30 21:48:53

工作需要使用 python 处理 mongodb 数据库两亿数据量去重复，需要在大数据量下快速判断数据是否存在

参考资料:https://segmentfault.com/q/1010000000613729

网上了解到 Bloom Filter ，Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员。

关于 Bloom Filter 的详细介绍请参考：百度百科

使用Python可直接安装 Pybloom 包，这里已经实现了 Bloom Filter。

安装 Pybloom 包过程曲折，报错及解决办法在此：windows下python3.7安装pybloom报错解决办法

包安装成功后就可以愉快的使用了

使用例子如下：

from pybloom import BloomFilter

bf = BloomFilter(capacity=10000, error_rate=0.001)

bf.add("www.baidu.com")

print("www.baidu.com" in bf)   # True

print("www.douban.com" in bf)  # False

更具体的使用可参考：https://blog.csdn.net/preyta/article/details/72970887

BloomFilter 是一个定容的过滤器，error_rate 是指最大的误报率是0.1%（可以省略），capacity 是容量大小，而 ScalableBloomFilter 是一个不定容量的布隆过滤器，它可以不断添加元素。add 方法是添加元素，如果元素已经在布隆过滤器中，就返回 true，如果不在返回 fasle 并将该元素添加到过滤器中。判断一个元素是否在过滤器中，只需要使用 in 运算符即可了。

简单易用的一个 Python 库，希望对大家有帮助。

Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性例子

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

Ubuntu14.04 LTS下安装mongodb

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性 例子

继续阅读

Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性例子