开发者社区> 问答> 正文

大数据怎么样判断数据唯一性效率高?

我想用python对全网的网站进行扫描记录,想用mysql建个表记录每个网站的信息,数据量大后怎么能快速的判断这个网站已经记录过呢?
基本表结构有:id,url,name,datetime等相关字段,url想有唯一性,是拿到url查询一下判断没有数据再插入还是怎么办?如果做了唯一性索引直接插入时会报错,谢谢
或是有没有别的有效的解决办法?

展开
收起
loophole 2014-07-23 11:23:54 9913 0
1 条回答
写回答
取消 提交回答
  • Re大数据怎么样判断数据唯一性效率高?
    分布式kv数据库
    对url分组

    -------------------------

    Re大数据怎么样判断数据唯一性效率高?
    推荐使用Bloom Filter存储已经抓取到的url.
    Bloom Filter实际上是由一组哈希函数和一个字节列表组成.
    详细介绍可以参考百度百科
    http://baike.baidu.com/view/1912944.htm
    和这篇博文.
    http://www.dbafree.net/?p=36
    如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.
    2014-07-23 12:31:29
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载