布隆过滤器

17 Mar 2025 | 5 分钟阅读

布隆过滤器是一种节省空间的概率数据结构，用于测试一个元素是否是集合的成员。它由 Burton Howard Bloom 于 1970 年提出。布隆过滤器相对于其他数据结构的主要优势在于其令人印象深刻的空间和时间效率。

理解布隆过滤器

在底层，布隆过滤器是一个位数组，最初所有位都设置为零。此位数组的大小取决于预期存储的元素数量和所需的误报率。

布隆过滤器使用多个哈希函数将每个元素映射到一个或多个数组索引。当一个元素添加到过滤器中时，这些哈希索引处的位被设置为 1。当查询一个元素时，过滤器检查这些哈希索引处的位。如果任何位为 0，则该元素不在集合中。如果所有位都为 1，则该元素可能在集合中。

布隆过滤器的主要特性

空间效率：布隆过滤器比哈希表或二叉搜索树等其他记录结构占用更少的空间。
时间效率：添加元素或检查成员身份的时间是恒定的，即 O(1)，并且不会随着添加更多元素而增加。
无假阴性：如果一个元素已被添加到过滤器中，查询将始终确认它在集合中。
可能出现假阳性：如果一个细节尚未添加到过滤器中，查询通常会成功报告它不在集合中。但是，存在一定的假阳性可能性，即过滤器错误地报告该元素在集合中。

布隆过滤器操作

布隆过滤器支持两个主要操作：

插入：此操作将一个元素添加到过滤器中。元素被哈希到多个数组索引，这些索引处的位被设置为 1。
查找：此操作检查一个元素是否在过滤器中。元素被哈希到多个数组索引，并检查这些索引处的位。如果任何位为 0，则该元素不在集合中。如果所有位都为 1，则该元素可能在集合中。

布隆过滤器工作原理

取一个二进制数组，大小为 'm' 位，初始全部为 0，用于最多 n 个不同的元素，在通过哈希函数后，将所有 n 个不同元素的输出所选位置的 'k' 位设置为 1。现在取你想要识别的元素，判断它是否已存在。通过相同的哈希函数，如果所有位都已设置，则该元素很可能已存在，并具有 p 的假阳性率；如果任何位未设置，则该元素不存在。

布隆过滤器示例

考虑一个位数组大小为 10 且具有三个哈希函数的布隆过滤器。让我们将字符串 "hello" 添加到过滤器中。假设哈希函数将 "hello" 映射到索引 1、3 和 7。插入操作后的位数组将如下所示：

0 1 0 1 0 0 0 1 0 0

现在，如果我们对 "hello" 执行查找，过滤器会检查索引 1、3 和 7 处的位。由于所有这些位都是 1，过滤器报告 "hello" 可能在集合中。

通过代码理解

import math
import mmh3
from bitarray import bitarray

class BloomFilter:
    def __init__(self, items_count, fp_prob):
        self.fp_prob = fp_prob
        self.size = self._get_size(items_count, fp_prob)
        self.hash_count = self._get_hash_count(self.size, items_count)
        self.bit_array = bitarray(self.size)
        self.bit_array.setall(0)

    def add(self, item):
        for i in range(self.hash_count):
            digest = mmh3.hash(item, i) % self.size
            self.bit_array[digest] = True

    def check(self, item):
        for i in range(self.hash_count):
            digest = mmh3.hash(item, i) % self.size
            if not self.bit_array[digest]:
                return False
        return True

    @staticmethod
    def _get_size(n, p):
        m = -(n * math.log(p)) / (math.log(2) ** 2)
        return int(m)

    @staticmethod
    def _get_hash_count(m, n):
        k = (m / n) * math.log(2)
        return int(k)

if __name__ == "__main__":
    n = 30  # no of items to add
    p = 0.01  # false positive probability

    bloomf = BloomFilter(n, p)
    print(f"Bit array size: {bloomf.size}")
    print(f"False positive rate: {bloomf.fp_prob}")
    print(f"Hash functions count: {bloomf.hash_count}")

    # words to be added
    word_present = ['apple', 'banana', 'mango', 'strawberry', 'grapefruit',
                    'kiwi', 'peach', 'plum', 'nectarine', 'lime', 'lemon',
                    'orange', 'pineapple', 'raspberry', 'blueberry', 'blackberry',
                    'watermelon', 'cantaloupe', 'papaya', 'guava', 'pomegranate']

    # word not added
    word_absent = ['potato', 'tomato', 'onion', 'lettuce', 'spinach',
                   'broccoli', 'carrot', 'pepper', 'cucumber', 'celery',
                   'asparagus', 'cauliflower', 'mushroom', 'squash', 'zucchini']

    for item in word_present:
        bloomf.add(item)

    test_words = word_present[:15] + word_absent

    for word in test_words:
        if bloomf.check(word):
            if word in word_absent:
                print(f"'{word}' is a false positive!")
            else:
                print(f"'{word}' is likely present!")
        else:
            print(f"'{word}' is certainly not present!")

输出

布隆过滤器的应用

布隆过滤器用于各种对空间效率至关重要的应用。它们用于数据库、缓存、路由器和其他系统，以快速确定给定项目是否在集合中。例如，网页浏览器可能会使用布隆过滤器来检查一个 URL 是否在一组恶意 URL 中。

布隆过滤器的局限性

虽然布隆过滤器具有很高的空间和时间效率，但它们确实存在一些局限性：

假阳性：如前所述，布隆过滤器有时会错误地报告一个元素在集合中。
无法删除：从布隆过滤器中删除一个元素并不简单，因为清除一个位可能会删除共享相同位的其他元素。
无法检索元素：布隆过滤器不存储实际元素，因此无法从布隆过滤器中检索元素。

尽管存在这些局限性，但在正确的使用场景下，布隆过滤器是一个强大的工具。它们的空间和时间效率使其成为需要快速高效地测试集合成员资格的大规模系统的绝佳选择。

优化布隆过滤器

虽然布隆过滤器已经很节省空间，但仍有一些方法可以进一步优化它们：

选择合适的尺寸：位数组的大小 (m) 和哈希函数的数量 (k) 可以显著影响布隆过滤器的性能。更大的位数组会降低假阳性的概率，但会消耗更多的内存。同样，更多的哈希函数会减少假阳性，但会增加插入和查找的时间复杂度。
多个哈希函数：哈希函数的选择至关重要。适用于布隆过滤器的良好哈希函数应该是独立的（一个函数的输出不影响另一个函数的输出）和均匀分布的（数组中的每个位被设置为 1 的机会相等）。
双重哈希：与其使用多个哈希函数，我们可以使用两个哈希函数来模拟额外的哈希函数。这种称为双重哈希的技术可以节省计算时间。

下一主题计算可被 k 整除的数组对

布隆过滤器

理解布隆过滤器

布隆过滤器的主要特性

布隆过滤器操作

布隆过滤器工作原理

布隆过滤器示例

通过代码理解

布隆过滤器的应用

布隆过滤器的局限性

优化布隆过滤器

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

数据结构教程

DS 数组

DS 链表

DS 栈

DS 队列

DS 树

DS 图

DS 搜索

DS 排序

哈希与堆

差异

二叉树

二叉搜索树

AVL 树

单向链表

双向链表

循环链表

循环双向链表

DS 选择题

其他

布隆过滤器

理解布隆过滤器

布隆过滤器的主要特性

布隆过滤器操作

布隆过滤器工作原理

布隆过滤器示例

通过代码理解

布隆过滤器的应用

布隆过滤器的局限性

优化布隆过滤器

相关帖子

对近乎排序的数组进行排序

具有相同最高数字的最大和对

检查两个数组是否相等

Recaman 序列

欧拉路径和哈密顿路径

二叉搜索树前序遍历的叶节点

用有限的额外空间合并两个 BST

判断一个数组是否是另一个数组的子集

获取二叉树中给定键的层级

计算指定范围内的优美数字

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器