我想做个社交网络分析的小模型,需要采集社媒数据,用什么技术方法好?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
训练小模型,看你用的数据量大不大,主要是内部数据还是三方数据,如果全部依赖互联网数据,那工作量就会比较大,需要搭建稳定的爬虫系统。
我建议直接用scrapy去采集数据,因为scrapy是框架类爬虫,可以解析、提取、存储等,不需要再部署其它库。
如果不想花时间去开发和维护,则可以用亮数据的网页抓取api和mcp,通过api直接获取目标网页,速度快,而且能自动处理反爬检测,静态动态网页都能搞定。
另外brightdata mcp可以集成在ai智能体里,通过自然语言去调用数据采集功能,没有任何技术难度,适合大规模任务。
总的来说,构建小模型用到的数据量其实不小,看技术能力选择不同的方案。
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi