✅<1>主页：：我的代码爱吃辣

📃<2>知识讲解：数据结构——布隆过滤器

☂️<3>开发环境：Visual Studio 2022

💬<4>前言：布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

一.布隆过滤器提出

二.布隆过滤器概念

编辑

一.布隆过滤器提出

我们在使用新闻客户端看新闻时，它会给我们不停地推荐新的内容，它每次推荐时要去重，去掉

那些已经看过的内容。问题来了，新闻客户端推荐系统如何实现推送去重的？用服务器记录了用

户看过的所有历史记录，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那

些已经存在的记录。如何快速查找呢？

用哈希表存储用户记录，缺点：浪费空间
用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理了。
将哈希与位图结合，即布隆过滤器。

二.布隆过滤器概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概
率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存
在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也
可以节省大量的内存空间。

编辑

三.布隆过滤器实现

1.布隆过滤器的结构

template<size_t N,class K=string,
  class Hash1= HashChange1,
  class Hash2=HashChange2 ,
  class Hash3=HashChange3>
class Bloom
{
  Hash1 hash1;
  Hash2 hash2;
  Hash3 hash3;
public:
  void set(const K key)
  {
  }
  bool test(const K key)
  {
  }
private:
  static const size_t _X = 5;//存储数据个数和hash函数个数的一种关系，使得冲突率降到最低
  BitSet<N*_X> _bit;         //位图共开N*_x个位
};

注意：

static const size_t _X = 5;//存储数据个数和hash函数个数的一种关系，使得冲突率降到最低

BitSet<N*_X> _bit; //位图共开N*_x个位

具体介绍见详解布隆过滤器的原理，使用场景和注意事项 - 知乎。

2.布隆过滤器插入

向布隆过滤器插入“百度”，“Tencent”

编辑

struct HashChange1
{
  size_t operator()(const string& str)
  {
    size_t hash = 0;
    for (auto ch : str)
    {
      hash += ch;
      hash *= 31;
    }
    return hash;
  }
};
struct HashChange2
{
  size_t operator()(const string& str)
  {
    size_t hash = 0;
    for (long i = 0; i < str.size(); i++)
    {
      size_t ch = str[i];
      if ((i & 1) == 0)
      {
        hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
      }
      else
      {
        hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
      }
    }
    return hash;
  }
};
struct HashChange3
{
  size_t operator()(const string& str)
  {
    size_t hash = 5381;
    for (auto ch : str)
    {
      hash += (hash << 5) + ch;
    }
    return hash;
  }
};
template<size_t N,class K=string,
  class Hash1= HashChange1,
  class Hash2=HashChange2 ,
  class Hash3=HashChange3>
class Bloom
{
  Hash1 hash1;
  Hash2 hash2;
  Hash3 hash3;
public:
  void set(const K key)
  {
        //分别使用三个hash函数分别插入三个位置
    _bit.set(hash1(key) % (_X * N));
    _bit.set(hash2(key) % (_X * N));
    _bit.set(hash3(key) % (_X * N));
  }
  bool test(const K key)
  {
  }
private:
  static const size_t _X = 5;
  BitSet<N*_X> _bit;
};

3.布隆过滤器的查询

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特

位一定为1。所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为
零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。

注意：布隆过滤器如果说某个元素不存在时，该元素一定不存在，如果该元素存在时，该元素可
能存在，因为有些哈希函数存在一定的误判。

例如：

编辑

如果此时我们查询“bilibili”，即使我们没有插入"bilibili"，也会得到一个存在的反馈，所以说存在的反馈是不准确的，但是如果我们得到的反馈是不存在，那就一定不存在。

bool test(const K key)
  {
    //当有一个位置不存在时就是准确的不存在
    if (!_bit.test(hash1(key) % (_X * N)))
    {
      return false;
    }
    if (!_bit.test(hash2(key) % (_X * N)))
    {
      return false;
    }
    if (!_bit.test(hash3(key) % (_X * N)))
    {
      return false;
    }
    return true;//不准确，存在误判
  }

4.布隆过滤器的删除

布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

比如：删除上图中"tencent"元素，如果直接将该元素所对应的二进制比特位置0，“baidu”元素也

被删除了，因为这两个元素在多个哈希函数计算出的比特位上刚好有重叠。

一种支持删除的方法：将布隆过滤器中的每个比特位扩展成一个小的计数器，插入元素时给k个计
数器(k个哈希函数计算出的哈希地址)加一，删除元素时，给k个计数器减一，通过多占用几倍存储
空间的代价来增加删除操作。

四.布隆过滤器优点

增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数，一般比较小)，与数据量大小无关。
哈希函数相互之间没有关系，方便硬件并行运算。
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势。
在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势。
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能。
使用同一组散列函数的布隆过滤器可以进行交、并、差运算。

五.布隆过滤器缺陷

有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再建立一个白名单，存储可能会误判的数据)。
不能获取元素本身。
一般情况下不能从布隆过滤器中删除元素。

六.布隆过滤器实现源码：

BitSet.hpp

#include<vector>
#include<iostream>
#include<string>
using namespace std;
template<size_t N>
class BitSet
{
public:
  BitSet()
  {
    _map.resize((N / 8) + 1, 0);
  }
  void set(const int num)
  {
    size_t i = num / 8;
    size_t j = num % 8;
    _map[i] |= 1 << j;
  }
  void reset(const int num)
  {
    size_t i = num / 8;
    size_t j = num % 8;
    _map[i] &= ~(1 << j);
  }
  bool test(const int num)
  {
    size_t i = num / 8;
    size_t j = num % 8;
    return _map[i] & (1 << j) ;
  }
private:
  vector<char> _map;
};

Bloom.hpp

#pragma once
#include"BitMap.hpp"
struct HashChange1
{
  size_t operator()(const string& str)
  {
    size_t hash = 0;
    for (auto ch : str)
    {
      hash += ch;
      hash *= 31;
    }
    return hash;
  }
};
struct HashChange2
{
  size_t operator()(const string& str)
  {
    size_t hash = 0;
    for (long i = 0; i < str.size(); i++)
    {
      size_t ch = str[i];
      if ((i & 1) == 0)
      {
        hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
      }
      else
      {
        hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
      }
    }
    return hash;
  }
};
struct HashChange3
{
  size_t operator()(const string& str)
  {
    size_t hash = 5381;
    for (auto ch : str)
    {
      hash += (hash << 5) + ch;
    }
    return hash;
  }
};
template<size_t N,class K=string,
  class Hash1= HashChange1,
  class Hash2=HashChange2 ,
  class Hash3=HashChange3>
class Bloom
{
  Hash1 hash1;
  Hash2 hash2;
  Hash3 hash3;
public:
  void set(const K key)
  {
    _bit.set(hash1(key) % (_X * N));
    _bit.set(hash2(key) % (_X * N));
    _bit.set(hash3(key) % (_X * N));
  }
  bool test(const K key)
  {
    //当有一个位置不存在时就是准确的不存在
    if (!_bit.test(hash1(key) % (_X * N)))
    {
      return false;
    }
    if (!_bit.test(hash2(key) % (_X * N)))
    {
      return false;
    }
    if (!_bit.test(hash3(key) % (_X * N)))
    {
      return false;
    }
    return true;//不准确，存在误判
  }
private:
  static const size_t _X = 5;
  BitSet<N*_X> _bit;
};

七.海量数据处理

1. 给定100亿个整数，设计算法找到只出现一次的整数？

答：我们要标识一个整数的状态，此时应该由三种：

一次也没有出现
只出现一次
出现次数在一次以上

我们使用两张位图即可，每个数值就会由两个比特位进行标识，两个比特位就可以标识这三种状态：

一次也没有出现：00
只出现一次：01
出现次数在一次以上：10

2.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

方法一：我们将第一个文件插入位图，用第二个文件对第一个文件的位图进行查询，查询到了就是交集数据。如果文件中都有重复数据，就会对重复文件反复找到交集，我们可以每次，找到交集以后将上面一个位图交集位置置0，就不会下一次再重复找到交集了。

方法二：将两个文件的数据，全部加载带位图，在对两个位图按位与，交集位置都是1，按位与之后得到的就是交集。

3.位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

这个问题与第一个问题相似，想找到出现次数不超过两次的数据，我们就看需要几个状态进行标识，进而选择使用几张位图即可。不超过2次即需要4中状态标识：

一次也没有出现:00
出现一次：01
出现两次：10
出现两次以上：11

问题迎刃而解。

4.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？

首先我们使用hash切割：针对A，B文件分别创建1000个小文件Ai,Bi（1<i<1000）。对文件A和文件B的每个query进行hash分割，分割就是对每一个query执行哈希函数，得到一个hash位置 i 控制在1000以内，然后进入Ai和Bi文件中。A和B相同的query因为使用同一个hash函数，就会得到同一个hash位置i，继而进入编号一样的小文件。

编辑

如果我们在hash分割小文间的时候，出现某一个小文件过大：

编辑

哈希的应用——布隆过滤器

一.布隆过滤器提出

二.布隆过滤器概念

三.布隆过滤器实现

1.布隆过滤器的结构

2.布隆过滤器插入

3.布隆过滤器的查询

4.布隆过滤器的删除

四.布隆过滤器优点

五.布隆过滤器缺陷

六.布隆过滤器实现源码：

七.海量数据处理

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

哈希的应用——布隆过滤器

一.布隆过滤器提出

二.布隆过滤器概念

三.布隆过滤器实现

1.布隆过滤器的结构

2.布隆过滤器插入

3.布隆过滤器的查询

4.布隆过滤器的删除

四.布隆过滤器优点

五.布隆过滤器缺陷

六.布隆过滤器实现源码：

七.海量数据处理

热门文章

最新文章

相关电子书