Python编程—Ajax数据爬取（二）-阿里云开发者社区

Python编程—Ajax数据爬取（二）

2024-10-11 144

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 MongoDB，独享型 2核8GB

简介： Python编程—Ajax数据爬取（二）

接上文 Python编程—Ajax数据爬取（一）https://developer.aliyun.com/article/1620694

4.爬取列表页
首先分析列表页的Ajax接口逻辑，打开浏览器开发者工具，切换到Network面板，勾选Preserve Log并切换到XHR选项卡，接着重新刷新页面，再单击第3页、第4页的按钮，开发者工具下方页也监听到了几个Ajax请求，如图所示：

每次翻页也出现了对应的Ajax请求，可以单击查看其请求详情，观察请求URL、参数和响应内容是怎么样的，如图所示：

点开最后一个结果，观察到Ajax接口的请求UR为https://spa1.scrape.center/api/movie/?limit=10&offset=30。

观察多个Ajax接口的参数，可以总结一个规律：limit一直为10，正好对应每页10条数据；offset在依次变大，页数每加1，offset就加10，因此其代表页面的数据偏移量。

接着观察一下响应内容，切换到Preview选项卡，如下图所示：

可以看到，结果就是一些JSON数据，其中有一个results字段，是一个列表，列表中每一个元素都是一个字典。观察一下字典的内容，正好是对应电影数据的字段，如name、alias、cover、categories。爬取详情页和爬取列表页的代码如下：

import logging

import requests

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s : %(message)s')

LIMIT = 10

# 定义一个通用爬取方法
def scrape_api(url):
    logging.info('scraping %s...', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.json()
        logging.error('get invalid status code %s while scraping %s', response.status_code, url)

    except requests.RequestException:
        logging.error('error occurred while scraping %s', url, exc_info=True)

# 爬取列表页的方法
def scrape_index(page):
    url = f'<https://spa1.scrape.center/api/movie/?limit={LIMIT}&offset={LIMIT*(page-1)}>'
    return scrape_api(url)

5.爬取详情页
单击任意一部电影，如《肖申克的救赎》，进入其详情页，可以发现此时的页面URL已经变成了https://spa1.scrape.center/detail/3，页面也成功展示了《肖申克的救赎》详情页的信息，如下图所示：

另外，我们也可以观察到开发者工具中又出现了一个Ajax请求，其URL为 https://spa1.scrape.center/api/movie/3，通过Preview选项卡也能看到Ajax请求对应的响应信息，如图所示：

进一步观察发现，列表页原本返回数据中就带有id这个字段，所以只要拿列表页结果中的id来构造详情页的Ajax请求的URL就好了。定义一个详情页的爬取逻辑，代码如下：

# 详情页爬取方法
def scrape_detail(id):
    url = f'<https://spa1.scrape.center/api/movie/{id}>'
    return scrape_api(url)
最后，定义一个总调用方法，对以上方法串联调用，代码如下：
def main():
    for page in range(1, TOTAL_PAGE+1):
        index_data = scrape_index(page)
        for item in index_data.get('results'):
            id = item.get('id')
            detail_data = scrape_detail(id)
            logging.info('detail data %s', detail_data)

if __name__ == '__main__':
    main()
   运行结果如下（省略部分内容）：

….

2024-03-23 13:28:19,493 - INFO : detail data {
   ‘id’: 21, ‘name’: ‘黄金三镖客’, ‘alias’: ‘Il buono, il brutto, il cattivo.’, ‘cover’: ‘https://p0.meituan.net/movie/cd18ed2c5cda9e71e17e5e6ef61ced172912303.jpg@464w_644h_1e_1c’, ‘categories’: [‘西部’, ‘冒险’], ‘regions’: [‘意大利’, ‘西班牙’, ‘西德’], ‘actors’: [{
   ‘name’: ‘克林特·伊斯特伍德’, ‘role’: ‘布兰迪 Blondie’, ‘image’: ‘https://p1.meituan.net/moviemachine/d1156c14dd899ada7c2b98bc373021c852875.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘李·范·克里夫’, ‘role’: ‘桑坦萨 Sentenza’, ‘image’: ‘https://p0.meituan.net/movie/665eab6fdb7755138e0c8092f35ba39327553.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘埃里·瓦拉赫’, ‘role’: ‘图科 Tuco’, ‘image’: ‘https://p1.meituan.net/movie/275042f2bbe012263b8deed1c96e611b42623.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘路易吉·皮斯蒂利’, ‘role’: ‘Father Pablo Ramirez’, ‘image’: ‘https://p1.meituan.net/movie/3c91cd5186e89e927056adbc8a722f5014760.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘Claudio Scarchilli’, ‘role’: ‘Bounty Hunter in Ghost Town’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘John Bartha’, ‘role’: ‘Sheriff (as John Bartho)’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘Livio Lorenzon’, ‘role’: ‘Baker’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘贝尼托·斯特凡内利’, ‘role’: “Member of Angel Eyes’ Gang”, ‘image’: ‘https://p0.meituan.net/movie/69698bc0960b07e3acddd412f3b88ee821953.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘Angelo Novi’, ‘role’: ‘Monk’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘安东尼奥·卡萨斯’, ‘role’: ‘Stevens’, ‘image’: 'https://p1.meituan

……

至此，所有电影详情数据，都爬取到了。

6.保存数据
请确保有一个可以正常连接和使用的MongoDB数据库，这里以本地localhost的MongoDB数据库为例来进行操作，其运行在27017端口上，无用户名和密码。

将数据导入MongodDB需要用到PyMongo这个库，配置如下：

import pymongo

# 定义常量
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'movies'
MONGO_COLLECTION_NAME = 'movies'

client = pymongo.MongoClient(MONGO_CONNECTION_STRING)
db = client['movies']
collection = db['movies']

定义一个将数据保存到MongoDB数据库的方法，代码如下：

# 定义保存数据到MongoDB的方法
def save_data(data):
    collection.update_one({
   
        'name':data.get('name')
    },{
   
        '$set':data
    }, upsert=True)

接下来改写一下main方法，如下所示：

def main():
    for page in range(1, TOTAL_PAGE + 1):
        index_data = scrape_index(page)
        for item in index_data.get('results'):
            id = item.get('id')
            detail_data = scrape_detail(id)
            logging.info('detail data %s', detail_data)
            save_data(detail_data)
            logging.info('data saved successfully')

其实就是增加了save_data方法调用，并添加一些日志信息。重新运行，看看输出结果：

可以看到，数据就是以JSON格式存储的，一条数据对应一部电影信息，各种嵌套关系也是一目了然。

Python编程—Ajax数据爬取（二）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

Python编程—Ajax数据爬取（二）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像