网站与APP抓包分析3 通过Python实现APP内容爬虫

简介: Python,APP爬虫,题库,Fidder工具

1、APP数据交互分析

以某考试练习APP为例(只爬取题目,无答案)

1.1、环境准备

(1)PC(笔记本)上安装WIFI外放工具,例如360免费WIFI
(2)手机安装APP后,注册账号并登陆

1.2、请求分析

运行APP,并触发所需场景,定位请求记录
image.png
请求分析
image.png
image.png
通过以上过程可知,习题加载过程为:
HOST: 182.92.213.77:9011
请求类型:POST
URL: http://182.92.213.77:9011/safeEden/r/p/d/ugetquest.d
Cookie:Uid=155710&Slid=1
其中Uid=用户ID,Slid=习题归属分组,每组加载3道题。

2、Python脚本实现

构造习题加载URL,通过Python 构造HTTP POST清洗;
通过循环执行习题获取请求,遍历获取习题,并写入txt文档;
对文档进行去重,可得APP中大部分习题。

2.1、Python脚本

#!/usr/bin/env python
#-*-coding:gb2312-*-
from urllib.request import urlopen
def readquest(v):
    csvalue=v
    url = 'http://182.92.213.77:9011/safeEden/r/p/d/ugetquest.d' #构造URL
    data = bytes(csvalue,'utf8')
    r = urlopen(url,data=data) #发送URL,包括URL和Cookie
    response =str(r.read(),'utf8') #获得请求
    print (response)
    f=open('ItemBank.txt','a+')
    f.write(response) #将返回结果希尔TXT文档
def xunhuan():
    cs1='Uid=149778&Slid='
    i=1
    while i<=5: #循环次数
        cs2=i
        cs=cs1 + str(cs2)
        readquest(cs)
        i=i+1
xunhuan()

2.2、本地习题记录

本地习题记录
image.png

注:

此为对抓包工具与Python配合应用的示例,本文只以下载试题题目为例,如有侵权,请联系作者删除。

目录
相关文章
|
20天前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
WK
|
21天前
|
Python
如何在Python中导入包
在 Python 中,包是一种组织代码的方式,通过包含 `__init__.py` 文件(在 Python 3.3 及以上版本可选)的目录实现。包内可以包含多个模块(`.py` 文件)和其他子包。导入包有多种方式:整体导入包、导入特定模块、导入特定函数或类、导入子包等。推荐的做法是明确指定导入内容以提高代码的可读性和可维护性。此外,确保包目录结构正确,并将其添加到 Python 的搜索路径中。对于分发包,使用 setuptools 和 pip 等工具更为便捷。
WK
113 66
WK
|
21天前
|
Python
如何在Python中创建包
在Python中创建包十分简便,主要涉及目录结构的设置及`__init__.py`文件的配置。虽然Python 3.3后空`__init__.py`文件不再强制要求,但在特定场景下保留它有助于保持兼容性或执行包初始化代码。创建包的具体步骤包括:构建目录结构、编写模块代码、(可选)编写初始化代码等。例如,可以创建一个名为`mypackage`的目录,其中包含`__init__.py`及多个模块文件如
WK
108 62
|
2天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
15 3
|
2天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
13 1
|
11天前
|
数据采集 机器学习/深度学习 搜索推荐
Python爬虫技术基础与应用场景详解
本文介绍了爬虫技术的基本概念、原理及应用场景,包括数据收集、价格监测、竞品分析和搜索引擎优化等。通过一个实战案例展示了如何使用Python爬取电商网站的商品信息。强调了在使用爬虫技术时需遵守法律法规和道德规范,确保数据抓取的合法性和合规性。
|
17天前
|
安全
【Azure App Service】App service无法使用的情况分析
App Service集成子网后,如果子网网段中的剩余IP地址非常少的情况下,会在App Service实例升级时( 先加入新实例,然后在移除老实例 )。新加入的实例不能被分配到正确的内网IP地址,无法成功的访问内网资源。 解决方法就是为App Service增加子网地址, 最少需要/26 子网网段地址。
WK
|
22天前
|
开发者 Python
Python中的包是什么?
在Python中,包是一种组织模块的方式,用于实现代码重用和模块化。通过包含`__init__.py`文件的目录定义包,形成树状结构,便于管理大型项目。包提高了代码的可读性和可维护性,允许重用现有代码,并避免模块名冲突。使用点操作符导入包中的模块,`__init__.py`可在包导入时执行初始化代码。从Python 3.3起,还可使用命名空间包来组织模块。掌握包的使用对大型Python项目开发至关重要。
WK
17 5
WK
|
22天前
|
开发工具 git Python
如何在Python中创建包?
在Python中创建包十分简便,主要步骤包括:创建目录(如 `mypackage`),并根据需求添加空的或含初始化代码的 `__init__.py` 文件;接着在该目录下添加 `.py` 文件作为模块;如有需要,可以进一步创建子包以形成层次结构。创建完成后,即可在其他脚本中导入并使用这些包。为避免名称冲突,请选择独特的包名,并考虑使用版本控制系统(如Git)管理代码变更。对于需分发的包,还应准备 `setup.py` 文件以方便构建与发布。
WK
18 3