【C++】-- 哈希应用之布隆过滤器(二)

简介: 【C++】-- 哈希应用之布隆过滤器

五、布隆过滤器应用

1.找文件交集

给两个文件,分别有100亿个query,只有1G内存,如何找到两个文件交集?请给出近似算法和精确算法。

(1)近似算法

判断交集本质上是判断在不在,读取第一个query,将元素都映射到布隆过滤器中,再读取第二个文件中的query,判断每个query在不在布隆过滤器中,如果在就是交集。

(2)精确算法

假设每个query是20字节,100亿个query就是100亿*20个字节=2000亿KB=200GB,使用哈希切分

2.扩展布隆过滤器

如何扩展BloomFilter使得它支持删除元素的操作?

       布隆过滤器本不支持删除,这是由于布隆过滤器判断一个元素在不在时可能会存在误判,删除它对应的bit位时会影响其他元素,且多个元素可能会映射到同一bit位,因此删除某一bit位时会影响其他元素,可能会导致其他元素也被删除。

       不过可以采用以下方法让布隆过滤器支持删除元素:

       在布隆过滤器中找到该元素后,由于使用多个位表示一个元素,因此可以对布隆过滤器的每一个bit位使用计数来代替0/1(在不在),当有多个元素映射到该bit位时,该bit计数++ ,删除时,该bit计数--。

六、哈希应用

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 与上题条件相同,如何找到top K的IP?如何直接用Linux系统命令实现?

1.找到出现次数最多的IP

(1)文件超过100G,不能加载到内存中,就需要将文件进行哈希切分,通过一个哈希函数,将log文件中的每个IP都转换为整数,如果IP相同,那么转换后的整数也相同,就会映射到同一个小文件中。

(2)切分成小文件后就可以加载到内存了,对于每次加载到内存的小文件,使用map<string,int>对该小文件中的所有IP进行次数统计,找出出现次数最多的IP。

(3)将每个文件中出现次数最多的IP再使用map<string,int>进行统计,就能找到出现次数最多的那个IP了。

另外:将文件切分为100个小文件,这100个小文件并不是均匀切分的,有的可能会小于1G,有的则可能会大于1G,当有几十个文件都大于1G时,可以考虑将文件直接切分为200份,而不是100份,这样每个小文件大约为512MB。

2. 找到top K的IP

(1)对100G的文件建堆,内存放不下,因此还是要切分成小文件,如上图中将100G的大文件利用哈希函数切分成100个小文件。

(2)将第一个文件加载到内存中,对第一个小文件建有K个元素的小堆,只要比堆顶元素大就进堆,最后堆里剩下的就是第一个小文件中出现次数最多的K个IP。

(3)将剩下的其它小文件依次加载到内存,每加载一个小文件,就将该小文件中的所有IP和堆顶元素进行比较,只要比堆顶元素大,就进堆。最后堆里留下的就是出现次数最多的K个IP。

3.用Linux系统命令实现找到top K的IP

假如有以下文件IP.log:

1. 192.168.1.5
2. 69.52.220.44
3. 10.152.16.23
4. 192.168.3.10
5. 192.168.1.4
6. 192.168.2.1
7. 192.168.0.9
8. 10.152.16.23
9. 192.163.0.9
10. 192.168.0.9
11. 69.52.220.44
12. 192.168.1.4
13. 192.168.1.5
14. 192.163.0.9
15. 192.168.2.1
16. 192.168.0.1
17. 192.168.0.2
18. 192.168.0.9
19. 9.9.9.9
20. 127.0.0.1
21. 192.168.0.90
22. 192.168.0.89
23. 192.168.0.8
24. 192.168.0.9
25. 192.163.0.9

(1)按行排序,并将结果输出到标准输出

sort 文件名

(2)统计并显示文本文件中出现的行或列的次数

uniq -c

(3)根据出现次数倒序排序

sort -r

(4)查看开头K行

head -k

显示出现次数最多的前K个IP

相关文章
|
30天前
|
存储 算法 C++
C++ STL应用宝典:高效处理数据的艺术与实战技巧大揭秘!
【8月更文挑战第22天】C++ STL(标准模板库)是一组高效的数据结构与算法集合,极大提升编程效率与代码可读性。它包括容器、迭代器、算法等组件。例如,统计文本中单词频率可用`std::map`和`std::ifstream`实现;对数据排序及找极值则可通过`std::vector`结合`std::sort`、`std::min/max_element`完成;而快速查找字符串则适合使用`std::set`配合其内置的`find`方法。这些示例展示了STL的强大功能,有助于编写简洁高效的代码。
32 2
|
1月前
|
存储 搜索推荐 Serverless
【C++航海王:追寻罗杰的编程之路】哈希的应用——位图 | 布隆过滤器
【C++航海王:追寻罗杰的编程之路】哈希的应用——位图 | 布隆过滤器
27 1
|
30天前
|
存储 编译器 C++
C++多态实现的原理:深入探索与实战应用
【8月更文挑战第21天】在C++的浩瀚宇宙中,多态性(Polymorphism)无疑是一颗璀璨的星辰,它赋予了程序高度的灵活性和可扩展性。多态允许我们通过基类指针或引用来调用派生类的成员函数,而具体调用哪个函数则取决于指针或引用所指向的对象的实际类型。本文将深入探讨C++多态实现的原理,并结合工作学习中的实际案例,分享其技术干货。
38 0
|
1月前
|
JSON Android开发 C++
Android c++ core guideline checker 应用
Android c++ core guideline checker 应用
|
1月前
|
存储 缓存 NoSQL
【C++】哈希容器
【C++】哈希容器
|
2天前
|
编译器 C++
C++ 类构造函数初始化列表
构造函数初始化列表以一个冒号开始,接着是以逗号分隔的数据成员列表,每个数据成员后面跟一个放在括号中的初始化式。
43 30
|
16天前
|
存储 编译器 C++
C ++初阶:类和对象(中)
C ++初阶:类和对象(中)
|
1月前
|
存储 安全 编译器
【C++】类和对象(下)
【C++】类和对象(下)
【C++】类和对象(下)
|
16天前
|
C++
C++(十六)类之间转化
在C++中,类之间的转换可以通过转换构造函数和操作符函数实现。转换构造函数是一种单参数构造函数,用于将其他类型转换为本类类型。为了防止不必要的隐式转换,可以使用`explicit`关键字来禁止这种自动转换。此外,还可以通过定义`operator`函数来进行类型转换,该函数无参数且无返回值。下面展示了如何使用这两种方式实现自定义类型的相互转换,并通过示例代码说明了`explicit`关键字的作用。
|
16天前
|
存储 设计模式 编译器
C++(十三) 类的扩展
本文详细介绍了C++中类的各种扩展特性,包括类成员存储、`sizeof`操作符的应用、类成员函数的存储方式及其背后的`this`指针机制。此外,还探讨了`const`修饰符在成员变量和函数中的作用,以及如何通过`static`关键字实现类中的资源共享。文章还介绍了单例模式的设计思路,并讨论了指向类成员(数据成员和函数成员)的指针的使用方法。最后,还讲解了指向静态成员的指针的相关概念和应用示例。通过这些内容,帮助读者更好地理解和掌握C++面向对象编程的核心概念和技术细节。