我理解selenium和playwright都是浏览器自动化的工具,如果用于频繁的数据采集,确实会被网站限制访问,所以需要配置相应的ip代理,并且模拟真人访问,这都是比较有难度的操作。
如果是技术能力不强的团队,对于python处理复杂爬虫不了解,可以尝试去用bright data的网页解锁浏览器api,这是一个远程浏览器,和普通浏览器本质一样,但可以绕过爬虫检测,直接通过selenium或者playwright去访问就可以,不需要什么复杂的配置。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi