Python爬虫:爬取手机App数据,记得安装配置Charles

简介: Python爬虫:爬取手机App数据,记得安装配置Charles

Python爬虫:爬取手机App数据,记得安装配置Charles

目录
Python爬虫
配置Charles
设置手机代理服务器
安装证书
安装PC证书
安装Android手机证书
Python爬虫
对于现在的爬虫程序来说,PC端网页数据往往并不理想。比如就拿CSDN来说,一篇帖子是否上热榜其根据的是App端数据,并不是PC端网页数据。

这也是时代的进步,从PC端到移动端,而且还有像小红书一样的App,其根本不提供PC端网页,只有App,要爬取这些数据,普通的Python爬虫肯定已经淘汰。

所以,我们需要借助Charles来抓取手机的HTTP与HTTPS数据包。尽然要通过Charles软件来抓取,我们首先要做的就是安装它。下载地址如下:

https://www.charlesproxy.com/latest-release/download.do
1
然后点击对应的操作系统进行下载即可。

配置Charles
安装完成之后,我们并不能直接获取App端的数据。因为你的手机交互并不会发送数据到Charles软件。所以,我们需要一系列的设置。

设置手机代理服务器
首先,我们运行Charles软件,选择Proxy-Proxy Settrings。在弹出的对话框之中设置如下信息:

接着,我们需要进入手机的WIFI中,设置连接的代理服务器。你需要查看的电脑安装Charles软件的局域网IP,同时设置成刚才的8888接口。

当这些步骤完成之后,你的手机打开任何一个进行网络交互的App都能捕获其网络请求,比如博主这里打开的微博,效果如下:

安装证书
不过,因为微博数据并不是HTTP请求,而是HTTPS请求,所有,我们需要安装证书后才能进行解析操作。具体的步骤如下:

安装PC证书
想通过Charles软件监听HTTPS数据,必须在PC端与手机端同时安装相应的证书。

在PC端安装的步骤:Charles软件-Help-SSL Proxying-Install Charles Root Certificate,效果图如下所示:

接着,点击安装证书,然后点击选择本地计算机,最后选择首信任的设备即可完成安装,具体步骤如下:

到这里,我们电脑端的证书就已经安装完成。

安装Android手机证书
接着,我们需要安装Android手机证书,具体步骤如下:

首先,在浏览器中输入http://chls.pro/ssl,或默认下载手机证书,你选择下载位置,然后导入到手机即可。

接着,我们在Android的设置中搜索证书,然后点击安装证书,在文件夹中找到对应的证书进行安装即可。

到这里,我们就可以获取到真实的信息了,再也不是unknown。但是,并不是到这里我们就可以获取真实的信息,因为现在显示的有可能是乱码。

我们需要前往Proxy – > SSL Proxying Aetting – > 在SSL Proxying 标签下勾选Enable SSL P roxying,然后Add 添加Location信息,如下所示:

添加完成之后,我们进入京东的秒杀页面,可以得到如下信息数据,这里都是中文,也是json数据格式,如下所示:

到这里,PC端与Android移动端的证书都安装成功了,现在可以分析具体的App请求数据,然后根据这些数据进行爬虫的开发与分析。

目录
相关文章
|
3月前
|
数据采集 API 数据处理
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
|
24天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
数据采集 安全 定位技术
使用代理IP爬虫时数据不完整的原因探讨
在信息化时代,互联网成为生活的重要部分。使用HTTP代理爬取数据时,可能会遇到失败情况,如代理IP失效、速度慢、目标网站策略、请求频率过高、地理位置不当、网络连接问题、代理配置错误和目标网站内容变化等。解决方法包括更换代理IP、调整请求频率、检查配置及目标网站变化。
62 11
|
2月前
|
数据采集 JSON JavaScript
如何通过PHP爬虫模拟表单提交,抓取隐藏数据
本文介绍了如何使用PHP模拟表单提交并结合代理IP技术抓取京东商品的实时名称和价格,特别是在电商大促期间的数据采集需求。通过cURL发送POST请求,设置User-Agent和Cookie,使用代理IP绕过限制,解析返回数据,展示了完整代码示例。
如何通过PHP爬虫模拟表单提交,抓取隐藏数据
|
2月前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
146 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
1月前
|
API Python
利用python淘宝/天猫获得淘宝app商品详情原数据 API
要使用Python获取淘宝/天猫商品详情原数据,需先注册开放平台账号并实名认证,创建应用获取API权限。随后,根据API文档构建请求URL和参数,使用requests库发送请求,处理返回的商品详情数据。注意遵守平台使用规则。
|
3月前
|
机器人 Shell Linux
【Azure Bot Service】部署Python ChatBot代码到App Service中
本文介绍了使用Python编写的ChatBot在部署到Azure App Service时遇到的问题及解决方案。主要问题是应用启动失败,错误信息为“Failed to find attribute 'app' in 'app'”。解决步骤包括:1) 修改`app.py`文件,添加`init_func`函数;2) 配置`config.py`,添加与Azure Bot Service认证相关的配置项;3) 设置App Service的启动命令为`python3 -m aiohttp.web -H 0.0.0.0 -P 8000 app:init_func`。
|
4月前
|
数据采集 存储 监控
网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据
本文探讨了如何利用 PHP 的 `set_time_limit()` 与爬虫工具的 `setTrafficLimit()` 方法,结合多线程和代理 IP 技术,高效稳定地抓取百度云盘的公开资源。通过设置脚本执行时间和流量限制,使用多线程提高抓取效率,并通过代理 IP 防止 IP 封禁,确保长时间稳定运行。文章还提供了示例代码,展示了如何具体实现这一过程,并加入了数据分类统计功能以监控抓取效果。
81 16
网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据
|
2月前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
116 0
|
3月前
|
小程序 JavaScript API
微信小程序开发之:保存图片到手机,使用uni-app 开发小程序;还有微信原生保存图片到手机
这篇文章介绍了如何在uni-app和微信小程序中实现将图片保存到用户手机相册的功能。
1528 0
微信小程序开发之:保存图片到手机,使用uni-app 开发小程序;还有微信原生保存图片到手机

热门文章

最新文章