海量数据处理

这一篇是你的差异化武器。 海量数据题考的是“内存放不下时怎么办“的系统思维——而你做设备指纹 SDK,天天和内存约束、大规模数据、性能极限打交道。一般应用开发者答不深,你能结合底层经验讲透,这是面试加分点。

核心套路就四招:分治(哈希拆分)、位图、布隆过滤器、堆/外部排序。

进度自测

面试给的经典约束:数据量远超内存(如 40 亿整数、100GB 日志,但内存只有 1GB)。解题主线:

思想:用一个 bit 表示一个数是否存在。40 亿个 int 若用 int 数组要 16GB,用位图只需 40亿/8 ≈ 500MB,省 32 倍。

判断整数 x 是否存在:
  字节下标 = x / 8,位下标 = x % 8
  set:  bitmap[x/8] |= (1 << (x%8))
  get:  bitmap[x/8] &  (1 << (x%8))

思想:位图 + 多个哈希函数。判断元素“一定不存在“或”可能存在“。极省空间,代价是有误判率(false positive)。

插入 x:用 k 个哈希函数算出 k 个位置,全部置 1。
查询 x:k 个位置全为 1 → 可能存在;任一为 0 → 一定不存在。

误判率 p 的近似公式:p ≈ (1 - e^(-kn/m))^k
- m: 位数组的长度(bit 数)
- n: 预计插入的元素个数
- k: 哈希函数的个数
最优 k 值的直觉推导:k ≈ (m/n)·ln2 ≈ 0.7·(m/n)
- 为什么 k 不能太小? 如果哈希函数太少，位图中会有大量闲置的 0 没被利用，区分度低，导致误判率变高。
- 为什么 k 不能太大? 如果哈希函数过多，每次插入都会将大量的 bit 置为 1，位图很快就被填满，导致后续查询大概率全命中 1，误判率急剧上升。

假设在风控 SDK 中，我们需要在本地拦截 10 万个恶意设备黑名单(n = 100,000),且要求误判率低于 1%(p = 0.01)。根据估算公式 m ≈ -n·ln(p) / (ln2)^2:

所需位数组大小 m 约为 96 万 bit。
折算成内存: 960,000 / 8 / 1024 ≈ 117 KB。
面试话术: “比起把 10 万个 32 字节的 String 设备指纹存入内存（约 3MB），使用布隆过滤器可以将黑名单压缩到 100KB 左右，这对 Android 端内存极其友好，且 O(k) 的查询速度完全满足主线程流畅度要求。”

不支持删除: 标准布隆过滤器如果将某个位置 0，可能会影响其他同样映射到该位的元素。
解法 (Counting Bloom Filter): 将原本的 1 个 bit 扩展为一个计数器（例如 4-bit 数组）。插入时计数器 +1，删除时计数器 -1。
空间权衡: 虽然支持了删除，但空间开销直接膨胀（如 4-bit 计数器使占用翻 4 倍），且计数器有溢出风险。需在“是否必须删除“与“内存占用上限“间做取舍。
应用:缓存穿透防护(Redis 前挡一层)、爬虫 URL 去重、垃圾邮件过滤、判断 key 是否可能在数据库。
联系你的背景:风控/反作弊里黑名单判断、设备去重就常用布隆过滤器,这是你能讲实战的点。

思想:大文件按 hash(key) % N 拆成 N 个小文件,相同 key 必进同一小文件。每个小文件能进内存后单独处理,再汇总。

模板流程:

三种解法按场景选:

小顶堆(数据流/超大数据):维护大小为 K 的小顶堆,堆顶是第 K 大,O(n log K) 时间、O(K) 空间。海量数据首选(不用全载入)。
快速选择(数据能进内存):基于快排分区,平均 O(n) 找第 K 大,但会修改/需载入数据。
哈希分治 + 堆(数据放不下):先哈希分治统计频次,各桶取局部 Top-K,再归并。

→ Top-100 热搜词:哈希分治统计词频 + 每桶小顶堆 + 归并。

思想:数据放不下内存时的排序。分块 + 多路归并:

回答海量数据题时,先问清约束(数据量、内存、是否允许误判、要精确还是近似),再选招式,最后说权衡。这套“先问约束再设计“的思路本身就是工程素养。

你可以主动关联:

“我做设备指纹 SDK 时,设备去重和黑名单判断都涉及大规模数据 + 内存约束。用过位压缩做去重、布隆过滤器做快速存在性判断,对空间/时间/误判率的权衡有实战体会。”

这一句话就把算法题变成了你的项目亮点,是普通应用开发者给不出的答案。