开发者社区> 问答> 正文

利用有限资源进行数据去重

请教大家一个问题: 内存只有1GB,又n行内容,其中有非常多的内容重复。这N行内容有10GB,重复内容有3GB。请问应该如何去重? 如果电脑内存足够,我可以维护一个集合,把这N行内容一行一行判断在不在集合在,如果在,就丢弃。如果不在,就加入集合。
但是这样一来,这个集合的大小会超过6GB。而我内存只有1GB。请问有什么好办法处理吗?
来源:云原生后端社区


https://www.yuque.com/server_mind/answer

展开
收起
Atom 2020-04-25 16:35:38 2469 0
1 条回答
写回答
取消 提交回答
  • 对数据准确性有严格要求吗。如果允许小概率判断错误的话,可以考虑布隆过滤。 [青南]布隆过滤器是最后的办法,但如果能用其他办法最好不要用布隆过滤器。因为数据会持续增加,布隆过滤器满了以后迁移起来很麻烦。
    来源:云原生后端社区


    https://www.yuque.com/server_mind/answer

    2020-04-25 16:36:12
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
数据带来无限可能 立即下载
基于etcd的超大规模生产级弹性键值存储实践与优化 立即下载
存储分层企业数据存储类型选择与优化 立即下载