Scrapinghub试用报告

简介: 实验对象:scrapinghubs实验目的:通过体验爬虫工具,进一步加深对数据检索的认识目录scrapinghubs简介scrapy cloud试用报告在Scrapyinghub创建工程本地配置并连接到Scrapinghub使用scrapy cloud进行数据爬取portia试用报告新建portia工程选择爬取实体导入scrapy cloud总结1.Scrapinghub简介scrapinghub首页*简介scrapinghub 帮助人们将网站转化为数据。

实验对象:scrapinghubs
实验目的:通过体验爬虫工具,进一步加深对数据检索的认识

目录
  1. scrapinghubs简介
  2. scrapy cloud试用报告
  • 在Scrapyinghub创建工程
  • 本地配置并连接到Scrapinghub
  • 使用scrapy cloud进行数据爬取
  1. portia试用报告
  • 新建portia工程
  • 选择爬取实体
  • 导入scrapy cloud
  1. 总结

1.Scrapinghub简介

img_cef3cd23d3d1362e40cd86cc1f3bdbfb.png
scrapinghub首页

*简介

scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。

* 以规模爬取网站

Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台,可以方便人们轻松部署抓取工具并按需扩展,无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件,例如** protia **使用户无需编写代码,用点击的方式就可以扩展爬虫蜘蛛。其中,Crawlera可以帮助用户绕过反爬虫措施,从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中,并且可以使用api在应用程序中使用这些数据。

*数据即服务

scrapinghub还有许多网页爬取专家帮助用户爬取数据,用户可以即时访问所需的数据,解决复杂的爬网问题,并且节省时间和金钱。

scrapinghub的产品:
img_0e227b37e116dd1814e17da2f09d5cac.png
产品
竞争对手:
img_a69448162e80d3c2fe8d8395ea11cd3b.png
竞争者

2. scrapy cloud试用报告

2.1在Scrapinghub创建工程

登陆scrapinghub

scrapinghub支持google+账号登陆和Github账号登陆。


img_94f614ab774290b1f25f22cdd9743002.png
welcome
创建一个工程
img_f0f0f51fb994f2499272d0f3aa213293.png
create project

img_2a1984691408fd19e2542025cc573d03.png
create

记录Api Key 和 project ID

img_3610027aa0a602b4482455766e24f9e7.png

2.2 本地配置并连接到scrapinghub

安装shub

pip install shub
img_1767707b4ad35288e7e07cd9dbeeb3e8.png
shub install

shub是Scrapinghub命令行客户端。 它允许您部署项目或依赖关系,计划蜘蛛,并检索刮取的数据或日志,而不用离开命令行。

登陆shub

进入要上传到cloud 的工程目录后,登陆shub并输入api key

shub login
img_a71300aff2e48c9e78abd82d54341f7a.png
login

上传工程并输入project ID

shub deploy
img_8c6e892cbe19a7fd16963c1520120bb0.png

img_aeda36a50e6eb51fcd49e42125ab6429.png
shub deploy

2.3 使用scrapy cloud进行数据爬取

上传成功


img_78c604d7d69e81178b41c954f87aae7f.png

选取一个爬虫并执行


img_e36dbea2e67b6e307514654e2f6c9e40.png

img_b9b7d05d8ae840ff6294882db3c2a720.png
run

执行结果
img_7b249f191986d2389b1f419085332da9.png

点击items requests log等可以查看爬取详细信息


img_aac6fc7cb1205adc7e41ac38d94c39be.png
结果

设置爬取时间间隔
img_950a1c243a50633f701c5e928711fc72.png

存储到数据库


img_60393b338cdf6c93d8f60f2c70671cca.png

img_1ee09be7cf880f98d80e58c9b88cbf66.png
database

3.portia试用报告

  • 新建portia工程
    输入新建爬虫的名字


    img_eb657dd6d51c5660ef1b34076181a1eb.png

    输入爬取的网址并打开


    img_a828c95530a838fbb767a8d8e6460e58.png
  • 选择爬取实体
    通过点击按钮选取页面中需要爬取的实体


    img_18587fd572b1faa17a12c6877b36bdaa.png
  • 导入scrapy cloud
    可以选择导出代码或导入scrapy cloud


    img_1e2323c74ba99c4379a6b01dbf4d3737.png

4. 总结

在scrapinghub的试用过程中,我得出了以下感悟:

  • scrapy cloud是一款很方便易用的云端数据爬取工具,可以直观看出数据爬取的相关信息,并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔,以及配置文件等。
  • pordia 可以节省手写代码的时间,但是不适合复杂的数据采集
  • 高级功能还是需要付费才能使用的
目录
相关文章
|
弹性计算 双11 数据库
阿里云2023年618有活动吗?一般会有哪些优惠内容和政策?
2023阿里云618有活动吗?从目前的情况来看,阿里旗下的淘宝、天猫等平台都已经推出了618活动内容,但是作为阿里旗下的云计算平台,阿里云2023年的618是否有活动内容目前还没公布,根据往年情况来看,阿里云618是有活动的,一般情况下,每年2-3月份会有开年采购季活动,6月份会有618年,而11月份会有双11等活动,都是阿里云的大型的优惠活动。
阿里云2023年618有活动吗?一般会有哪些优惠内容和政策?
|
弹性计算 黑灰产治理
阿里云学生服务器免费用半年(申请全流程)
阿里云学生服务器免费用半年教程,2023阿里云学生服务器免费领取,先完成学生认证即可免费领取一台云服务器ECS,配置为2核2G、1M带宽、40G系统盘,在云服务器ECS实例过期之前,完成实验与认证任务,还可以免费续费6个月,阿里云百科来详细说下2023阿里云学生服务器活动、学生机配置、免费时长及学生服务器领取条件:
4456 0
阿里云学生服务器免费用半年(申请全流程)
|
弹性计算 编解码 负载均衡
阿里云安全管家安全风险评估服务降价20-30%
阿里云安全管家安全风险评估服务降价20-30%,阿里云产品大规模调价,核心云产品价格全线下调,技术红利释放核心产品最高降幅50%,以下产品的价格调整将于2023年5月7日生效,最终以产品详情页实际情况为准,阿里云百科分享阿里云官网发布的降价产品及降价幅度说明:
249 0
|
人工智能 数据可视化 定位技术
DataV体验升级,试用中心全新上线 9.9元即享专业版超长试用
惊喜从不迟到,最近收到了非常多大家最关心的问题:原来的7天试用时长太短不够用怎么办?如何深度体验专业版的进阶特性?
662 0
 DataV体验升级,试用中心全新上线  9.9元即享专业版超长试用
阿里云商标顾问注册申请流程、费用及常见问题解答FAQ
阿里云商标顾问注册申请价格680元/件,提供商标检索服务、商标注册成功率分析、商标注册方案制定、商标注册费用说明、商标使用建议、代提交商标注册申请(填写商标信息、创建商标申请人)、商标注册申请过程中官方文件处理等服务
437 0
阿里云商标顾问注册申请流程、费用及常见问题解答FAQ
|
Ubuntu 物联网 Linux
阿里云体验报告
我是一名在读的软件工程的学生,因为我暑期学习了一些物联网的内容,准备做一个项目自己来学习,然后是需要有部署一个mqtt服务,用自己电脑的话得一直开着就很不方便,同学就推荐我使用云服务器,说阿里云的就不错。主要也是听说了有“飞天加速计划·高校学生在家实践”活动,优惠力度这么大,自然是不能放过的
|
弹性计算 NoSQL 网络安全
阿里云免费试用之体检
1、登录阿里云,管理控制台> 云服务器ECS >实例 ,可以看到ECS 服务器。 2、ECS 服务器基本操作 “重启”,“重置密码”(这里是重置root 用户密码),在IP 地址列可以看到公网地址,通过该IP 能在本地连接服务器; 3、进入 “更多”> 密码 ,可以更改web 连接的密码;
|
弹性计算 物联网 应用服务中间件
试用报告
使我从小白到稍微熟悉所学项目,阿里云YYDS
211 2
|
NoSQL Redis 开发工具
|
云安全 存储 Cloud Native
阿里云活动大全详细版本
作为一位从事云计算多年的IT民工,下面就由我系统跟大家讲解一下阿里云的活动 新老用户活动,这个活动针对的产品分类比较多,大概覆盖了以下产品:云服务器,云安全,云数据库,云通信,网络,云存储,CDN&云视频,大数据,数据智能,云原生。
阿里云活动大全详细版本