一只爬虫如果每天勤劳工作,一年以后,已经爬取了上亿的数据,此时redis也同步存放了上亿的url,内存说不定去到了10G以上,请问各位大神,一般使用了redis去重机制之后,是不是数据就一直存放在redis里面?
还是说,可以有啥办法适当删除一部分数据达到优化效果,不然这样下去内存早晚得奔溃
redis数据库一般作为数据缓存的地方比较好,redis存入的数据,尽量少用长久保存的,这样会降低查询效率。如果数据较少当然没问题,如果是大型数据的入库保存最好的选择是MySQL,或者MongoDB比较好。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。