听说你到现在还不会爬取携程评论?

简介: 这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

大家好,我是辰哥。

这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。

下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

涉及核心知识点:

Ajax异步请求分析

发送post请求

01

分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

页面下方则是评论数据

1.分析数据源

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包。

02

分析数据包

在network中找到下面这个数据包

查看Preview里面的内容(请求返回内容)

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

可以获取到请求链接和请求方式。

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

在程序中的构建如下:

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

最终结果如下:

该景点的评论就可以成功爬取下来了。

03

采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

04

小结

本文涉及核心知识点:

Ajax异步请求分析

发送post请求

最后说一声:原创不易,求给个赞、在看、评论

推荐阅读

实际上采集全网视频也没那么难

实战|惊呆了,Python竟然能剪辑视频!

实战|教你用Python玩转Redis

相关文章
|
数据采集 Java API
Crawler4j实例爬取爱奇艺热播剧案例 前言
Crawler4j实例爬取爱奇艺热播剧案例 前言
|
2月前
|
数据采集 存储 搜索推荐
爬取网易云音乐热歌榜:从入门到实战
本文介绍如何使用Python爬取网易云音乐热歌榜,包括环境准备、代码解析和实际操作步骤。通过定义榜单ID与名称映射、用户输入、文件夹创建、发起网络请求、正则表达式提取、音乐下载和文件保存等环节,手把手教你实现音乐下载功能。强调遵守网站协议,尊重版权和用户隐私,确保合法合规使用代码。
256 2
|
7月前
|
存储 缓存 监控
2024春招小红书前端面试题分享
2024春招小红书前端面试题分享
160 3
|
8月前
|
缓存 网络协议 NoSQL
腾讯春招后端一面(八股篇)
腾讯春招后端一面(八股篇)
139 0
|
8月前
|
缓存 NoSQL 中间件
太卷了!京东、微博最新「Redis缓存高手心法手册」竟被开源了
众所周知,分布式架构被广泛应用于企业级应用开发中,以满足高并发、高可用、高性能、高扩展性等要求。 像电商平台秒杀、平台抢票等高并发场景,数据访问量激增,容易造成服务器负载过重从而导致崩溃。因此,分布式缓存作为分布式架构的重要组件,当一个缓存服务节点挂掉,可以马上切换到另外的缓存服务节点,以保证系统能正常运行。 而在缓存中间件中,Redis以兼具缓存和数据库的优点,适用范围更广,很多人更愿意使用,memcache也只能望其项背。
125 1
|
缓存 Android开发
极简抖音中的优化点|青训营笔记(一)
下面我将罗列出几项我在项目中发现的可优化点,以及其优化方案。
极简抖音中的优化点|青训营笔记(一)
|
Android开发
极简抖音中的优化点|青训营笔记(二)
下面我将罗列出几项我在项目中发现的可优化点,以及其优化方案。
|
数据采集 Python
Python爬虫:scrapy爬取腾讯社招职位信息
Python爬虫:scrapy爬取腾讯社招职位信息
234 0
|
数据采集 Web App开发 数据挖掘
我爬取了人人都是产品经理6574篇文章,发现产品竟然在看这些
作为互联网界的两个对立的物种,产品汪与程序猿似乎就像一对天生的死对头;但是在产品开发链条上紧密合作的双方,只有通力合作,才能更好地推动项目发展。那么产品经理平日里面都在看那些文章呢?我们程序猿该如何投其所好呢?我爬取了人人都是产品经理(http://www.woshipm.com)产品经理栏目下的所有文章,看看产品经理都喜欢看什么。
1841 0
|
数据采集 Python
Python爬虫从入门到放弃(二十二)之 爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。
1967 1