前言
大家好,我又又来来来来了!在这里先祝大家身体健康,天天开心!
虽然放假,在家里小玮同学也没有休息,这一次给大家带来的是利用爬虫爬取地图软件的相关数据,并制作成图表进行分析。
为什么突然想做一期关于爬虫的内容呢?其实是因为前段时间收到老师的任务,研究一下现实中两点之间的旅行时间是否受出发时间的影响。
这个题目可把当时的小玮吓坏了--python我都还没有开始学习呢--咋就叫我做这么有难度的事情。
看了几天的python基础知识,了解了爬虫的相关知识,最终还是勉勉强强地完成了任务,现在把这段时间的体会写出来,让各位看客老爷们检查。
Python的基本语法内容呢,在这里就不多说了。
因为在本次爬取数据的过程中,我们用的和python相关的知识并不是很复杂,不需要给大家介绍别的东西,大家完全可以在具体的过程中就可以学会本次爬取需要的东西。
鉴于整个流程涉及到的知识很广我们分成三篇推文来讲解,本篇推文的内容是《数据爬取》
。
目录
- 问题的分析
- 简单的准备
- 寻找高校
- 获取相应地点的坐标
- 制作excel表格
- 相应时间的获取
- 开始我们的工作
- 进入目标网页
- 爬取目标内容
- 定时操作
- 小小的总结
问题的分析
Q:现实中两点的旅行时间是否受到出发时间的影响呢?这是什么意思呢,因为每个时间段的路况不同,比如早高峰晚高峰等等,两点之间的实际旅行时间就有可能受到出发时间的影响。
好了,现在问题清楚了。下面我们选取武汉的一些高校作为测试点,给大家演示如何提取相应的数据进行分析。(武汉快点好起来呀!小编好想去上学!)
首先我们需要关注的点有以下几个:
- 武汉著名的高校包括哪些大学
- 旅行的出发点和终点的坐标
- 旅行的出发时间,旅行所用时间
- 如何对所收集的数据进行可视化处理
- 如何对数据进行分析
简单的准备
寻找高校
寻找高校这个步骤很简单,在这里我是直接通过百度获取的。
获取相应地点的坐标
获取比如说通过某某路段的时间,某某点的坐标,我们通常是进入百度地图官网为开发者提供API服务。百度开发者平台的账号注册,创建应用等等操作在这里就不多说了。
在这里指出我们需要注意的一个地方,在请求验证方式这个地方,要记住使用IP白名单
,然后下面推荐填0.0.0.0/0
,具体的原因会在后面给出。
完成了这个步骤之后,我们就可以在开发文档里选择坐标选取器
。获取我们目标点的坐标。
进入之后搜索相应的地点就可以知道其坐标。这里将我找到我坐标放在下面。