当前位置：首页 > news >正文

41.C++哈希6（哈希切割/分片/位图/布隆过滤器与海量数据处理场景）

news 2025/4/3 15:29:16

⭐上篇文章：40.C++哈希5（布隆过滤器的原理与代码实现详解）-CSDN博客

⭐本篇代码：c++学习/21. 位图与布隆过滤器 · 橘子真甜/c++-learning-of-yzc - 码云 - 开源中国 (gitee.com)

⭐标⭐是比较重要的部分

一. 哈希切割

二. 位图

三. 布隆过滤器

3.1 方案一

3.2 方案二

一. 哈希切割

假设有这样一个场景：

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？如何直接用Linux系统命令实现？

统计次数：一般都需要使用map/unordered_map来处理。不过100G太大了，不能直接使用搜索树/哈希表处理。

可以考虑使用哈希算法对所有的IP进行映射，然后将所有相同的结果放入同一个小文件中。文件的编号是 i = Hash(IP) % 1000。这样一来就能分为1000个小文件（约0.1G）。

然后遍历所有的小文件，使用map/unordered_map来计算所有IP的数量，找出最多数量的IP，然后将其他数据清空。再去计算下一个文件的最多数量的IP。

最后保留的结果就是次数出现最多的IP

找到top K 的IP，只需要使用一个小根堆处理即可。如果使用Linux命令，直接使用命令排序，然后找到次数最多的数量即可。

二. 位图

场景1如下：给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

使用位图保存两个文件中的数据，即便使用long long整形，最多42亿个数字。2^32次方个整数。使用两个位图来保存，需要 2^32 bit 。即 2^29 byte大约0.5G内存，两个文件刚好是1G左右的内存！

然后使用位图1中的所有比特位与位图2中所有的比特位做 & 运算即可得到两个文件的交集！

场景2如下：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

不超过两次就是0次或者1次，可以改进位图使用00表示没有出现，01表示出现了1次。10出现两次，11出现3次，出现更多的次数仍保持为11。

同理由于int只占用2^32个数字，假如每一个数字占用2bit。共需要 2^32 * 2 bit。换算的结果刚好为1G空间。

上述题目：如果使用的整数是long long类型的，可以采取哈希分割切片的方式。分解为小文件然后再进行处理

三. 布隆过滤器

给两个文件，分别有100亿个query（查询参数），我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法

3.1 方案一

直接使用一个长度为1G的布隆过滤器，使用合适的哈希算计将所有的query映射到这个布隆过滤器中。

然后遍历文件二，查询每一个参数是否在布隆过滤器中，查询成功，则进行保存。

此方案有一定的缺陷：由于布隆过滤器如果判断某一个元素不存在，那么这个元素是真的没有，但是判断存在的元素可能是真的元素，也有可能是误判的结果。所以我们得到的结果可能会比原始的交集多一些误判的内容。但是所有的交集都是能够找到的

3.2 方案二

使用哈希算法将所有的文件A分割为1000个小文件，所有的文件B分割为1000个小文件。这样一来，假设一个参数30字节，一共3000亿字节大约300G，分割后就只有0.3G了。

对所有的文件编号为A1 A2 ... A1000，B1 B2 ... B1000。然后遍历所有的Ai的小文件，每一个小文件都是用set/unorderd_set进行保存，保存后再遍历对应的Bi文件并判断某一个参数是否存在于set/unordered_set中。如果存在则说明这个文件是交集，将其保存。

最后得到的交集就是精确的交集了！

查看全文

http://www.mrgr.cn/news/96767.html