学生一枚,对编程一窍不通,想用spiderman学一下抓取数据,现在环境搭建好了,可是抓取步骤毫无头绪,所有在oschina上的和spiderman相关的帖子都看完了,终于从一窍不通成功到把各种相关软件和环境都搭建完了,可是。。。。还是不会配置抓取求助用过的广大群众帮帮忙。
下载了最新的spiderman2的代码,使用文件夹中的.bat文件成功运行可以抓取例子,可是用eclipse就一直报错说插件无法加载,明明我的spiderman-core和spiderman-plugin都已经成功install到maven本地仓库了,现在各种百度还是调不成功,求各位大神搭救~~~
我要抓取的是一个图书馆个人界面的个人信息和借阅历史,个人信息是纯文本内容,我已经依照“自由的风”曾经的帖子完成了对target的书写,但是针对下面的那个借阅历史需要进入链接再进行抓取我就不会了,不知道该怎么配置。
现在也不知道应该修改spiderman2下面的哪个文件才能抓取,虽然我成功安装了eweb4j,可是不知道该咋读写xml文件。连续10天对着它怎么也调不好,求搭救,有用过spiderman爬虫成功进行抓取的好汉请赐教,可以有偿请教,实在快被逼疯了
有偿请教!有偿请教!有偿请教!重要的事情说三遍,求搭救
@像风一样自由_wei@像风一样自由_wei@像风一样自由_wei哥哥,您就拨点时间救救我吧
--!抱歉,最近一周都在休假,加QQ讨论一下哈。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。