去重是大数据计算中的常见场景,本文介绍了Flink结合数据倾斜问题的一般性解决方案——两阶段聚合,以及位图(Bitmap)的优化版数据结构——Roaringbitmap给出的一种实时去重解决方案,并在最后与其他方案进行了对比。
大数据去重的两种思路
我们知道,离线大数据计算有很多框架,如hive、spark-sql、clickhouse、impala、kylin、presto等等,各个框架在处...
阅读全文