Python编程—Ajax数据爬取(二)

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: Python编程—Ajax数据爬取(二)

接上文 Python编程—Ajax数据爬取(一)https://developer.aliyun.com/article/1620694

4.爬取列表页
首先分析列表页的Ajax接口逻辑,打开浏览器开发者工具,切换到Network面板,勾选Preserve Log并切换到XHR选项卡,接着重新刷新页面,再单击第3页、第4页的按钮,开发者工具下方页也监听到了几个Ajax请求,如图所示:

image.png

每次翻页也出现了对应的Ajax请求,可以单击查看其请求详情,观察请求URL、参数和响应内容是怎么样的,如图所示:

image.png

点开最后一个结果,观察到Ajax接口的请求UR为https://spa1.scrape.center/api/movie/?limit=10&offset=30。

观察多个Ajax接口的参数,可以总结一个规律:limit一直为10,正好对应每页10条数据;offset在依次变大,页数每加1,offset就加10,因此其代表页面的数据偏移量。

接着观察一下响应内容,切换到Preview选项卡,如下图所示:

image.png

可以看到,结果就是一些JSON数据,其中有一个results字段,是一个列表,列表中每一个元素都是一个字典。观察一下字典的内容,正好是对应电影数据的字段,如name、alias、cover、categories。爬取详情页和爬取列表页的代码如下:

import logging

import requests

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s : %(message)s')

LIMIT = 10

# 定义一个通用爬取方法
def scrape_api(url):
    logging.info('scraping %s...', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.json()
        logging.error('get invalid status code %s while scraping %s', response.status_code, url)

    except requests.RequestException:
        logging.error('error occurred while scraping %s', url, exc_info=True)

# 爬取列表页的方法
def scrape_index(page):
    url = f'<https://spa1.scrape.center/api/movie/?limit={LIMIT}&offset={LIMIT*(page-1)}>'
    return scrape_api(url)

5.爬取详情页
单击任意一部电影,如《肖申克的救赎》,进入其详情页,可以发现此时的页面URL已经变成了https://spa1.scrape.center/detail/3,页面也成功展示了《肖申克的救赎》详情页的信息,如下图所示:
image.png

另外,我们也可以观察到开发者工具中又出现了一个Ajax请求,其URL为 https://spa1.scrape.center/api/movie/3,通过Preview选项卡也能看到Ajax请求对应的响应信息,如图所示:

image.png

进一步观察发现,列表页原本返回数据中就带有id这个字段,所以只要拿列表页结果中的id来构 造详情页的Ajax请求的URL就好了。定义一个详情页的爬取逻辑,代码如下:

# 详情页爬取方法
def scrape_detail(id):
    url = f'<https://spa1.scrape.center/api/movie/{id}>'
    return scrape_api(url)
最后,定义一个总调用方法,对以上方法串联调用,代码如下:
def main():
    for page in range(1, TOTAL_PAGE+1):
        index_data = scrape_index(page)
        for item in index_data.get('results'):
            id = item.get('id')
            detail_data = scrape_detail(id)
            logging.info('detail data %s', detail_data)

if __name__ == '__main__':
    main()
   运行结果如下(省略部分内容):

….

2024-03-23 13:28:19,493 - INFO : detail data {
   ‘id’: 21, ‘name’: ‘黄金三镖客’, ‘alias’: ‘Il buono, il brutto, il cattivo., ‘cover’: ‘https://p0.meituan.net/movie/cd18ed2c5cda9e71e17e5e6ef61ced172912303.jpg@464w_644h_1e_1c’, ‘categories’: [‘西部’, ‘冒险’], ‘regions’: [‘意大利’, ‘西班牙’, ‘西德’], ‘actors’: [{
   ‘name’: ‘克林特·伊斯特伍德’, ‘role’: ‘布兰迪 Blondie’, ‘image’: ‘https://p1.meituan.net/moviemachine/d1156c14dd899ada7c2b98bc373021c852875.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘李·范·克里夫’, ‘role’: ‘桑坦萨 Sentenza’, ‘image’: ‘https://p0.meituan.net/movie/665eab6fdb7755138e0c8092f35ba39327553.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘埃里·瓦拉赫’, ‘role’: ‘图科 Tuco’, ‘image’: ‘https://p1.meituan.net/movie/275042f2bbe012263b8deed1c96e611b42623.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘路易吉·皮斯蒂利’, ‘role’: ‘Father Pablo Ramirez’, ‘image’: ‘https://p1.meituan.net/movie/3c91cd5186e89e927056adbc8a722f5014760.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘Claudio Scarchilli’, ‘role’: ‘Bounty Hunter in Ghost Town’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘John Bartha’, ‘role’: ‘Sheriff (as John Bartho), ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘Livio Lorenzon’, ‘role’: ‘Baker’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘贝尼托·斯特凡内利’, ‘role’: “Member of Angel Eyes’ Gang”, ‘image’: ‘https://p0.meituan.net/movie/69698bc0960b07e3acddd412f3b88ee821953.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘Angelo Novi’, ‘role’: ‘Monk’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘安东尼奥·卡萨斯’, ‘role’: ‘Stevens’, ‘image’: 'https://p1.meituan

……

至此,所有电影详情数据,都爬取到了。

6.保存数据
请确保有一个可以正常连接和使用的MongoDB数据库,这里以本地localhost的MongoDB数据库为例来进行操作,其运行在27017端口上,无用户名和密码。

将数据导入MongodDB需要用到PyMongo这个库,配置如下:

import pymongo

# 定义常量
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'movies'
MONGO_COLLECTION_NAME = 'movies'

client = pymongo.MongoClient(MONGO_CONNECTION_STRING)
db = client['movies']
collection = db['movies']

定义一个将数据保存到MongoDB数据库的方法,代码如下:

# 定义保存数据到MongoDB的方法
def save_data(data):
    collection.update_one({
   
        'name':data.get('name')
    },{
   
        '$set':data
    }, upsert=True)

接下来改写一下main方法,如下所示:

def main():
    for page in range(1, TOTAL_PAGE + 1):
        index_data = scrape_index(page)
        for item in index_data.get('results'):
            id = item.get('id')
            detail_data = scrape_detail(id)
            logging.info('detail data %s', detail_data)
            save_data(detail_data)
            logging.info('data saved successfully')

其实就是增加了save_data方法调用,并添加一些日志信息。重新运行,看看输出结果:

image.png

可以看到,数据就是以JSON格式存储的,一条数据对应一部电影信息,各种嵌套关系也是一目了然。

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
2天前
|
Python
不容错过!Python中图的精妙表示与高效遍历策略,提升你的编程艺术感
本文介绍了Python中图的表示方法及遍历策略。图可通过邻接表或邻接矩阵表示,前者节省空间适合稀疏图,后者便于检查连接但占用更多空间。文章详细展示了邻接表和邻接矩阵的实现,并讲解了深度优先搜索(DFS)和广度优先搜索(BFS)的遍历方法,帮助读者掌握图的基本操作和应用技巧。
13 4
|
2天前
|
设计模式 程序员 数据处理
编程之旅:探索Python中的装饰器
【10月更文挑战第34天】在编程的海洋中,Python这艘航船以其简洁优雅著称。其中,装饰器作为一项高级特性,如同船上的风帆,让代码更加灵活和强大。本文将带你领略装饰器的奥秘,从基础概念到实际应用,一起感受编程之美。
|
2天前
|
机器学习/深度学习 JSON API
Python编程实战:构建一个简单的天气预报应用
Python编程实战:构建一个简单的天气预报应用
10 1
|
2天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
15 2
|
2天前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
10 1
|
3天前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
4天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
2天前
|
索引 Python
SciPy 空间数据1
SciPy 通过 `scipy.spatial` 模块处理空间数据,如判断点是否在边界内、计算最近点等。三角测量是通过测量角度来确定目标距离的方法。多边形的三角测量可将其分解为多个三角形,用于计算面积。Delaunay 三角剖分是一种常用方法,可以对一系列点进行三角剖分。示例代码展示了如何使用 `Delaunay()` 函数创建三角形并绘制。
9 0
|
3天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
3天前
|
机器学习/深度学习 人工智能 数据可视化
探索Python编程:从基础到高级
【10月更文挑战第33天】本文是一篇深入浅出的Python编程入门教程,适合初学者阅读。文章首先介绍了Python的基本概念和语法,然后通过实例讲解了如何使用Python进行数据处理和分析,最后介绍了一些高级特性和库,帮助读者更好地掌握Python编程。无论你是编程新手还是有一定经验的开发者,这篇文章都能给你带来新的启示和收获。
下一篇
无影云桌面