接上文 Python编程—Ajax数据爬取(一)https://developer.aliyun.com/article/1620694
4.爬取列表页
首先分析列表页的Ajax接口逻辑,打开浏览器开发者工具,切换到Network面板,勾选Preserve Log并切换到XHR选项卡,接着重新刷新页面,再单击第3页、第4页的按钮,开发者工具下方页也监听到了几个Ajax请求,如图所示:
每次翻页也出现了对应的Ajax请求,可以单击查看其请求详情,观察请求URL、参数和响应内容是怎么样的,如图所示:
点开最后一个结果,观察到Ajax接口的请求UR为https://spa1.scrape.center/api/movie/?limit=10&offset=30。
观察多个Ajax接口的参数,可以总结一个规律:limit一直为10,正好对应每页10条数据;offset在依次变大,页数每加1,offset就加10,因此其代表页面的数据偏移量。
接着观察一下响应内容,切换到Preview选项卡,如下图所示:
可以看到,结果就是一些JSON数据,其中有一个results字段,是一个列表,列表中每一个元素都是一个字典。观察一下字典的内容,正好是对应电影数据的字段,如name、alias、cover、categories。爬取详情页和爬取列表页的代码如下:
import logging
import requests
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s : %(message)s')
LIMIT = 10
# 定义一个通用爬取方法
def scrape_api(url):
logging.info('scraping %s...', url)
try:
response = requests.get(url)
if response.status_code == 200:
return response.json()
logging.error('get invalid status code %s while scraping %s', response.status_code, url)
except requests.RequestException:
logging.error('error occurred while scraping %s', url, exc_info=True)
# 爬取列表页的方法
def scrape_index(page):
url = f'<https://spa1.scrape.center/api/movie/?limit={LIMIT}&offset={LIMIT*(page-1)}>'
return scrape_api(url)
5.爬取详情页
单击任意一部电影,如《肖申克的救赎》,进入其详情页,可以发现此时的页面URL已经变成了https://spa1.scrape.center/detail/3,页面也成功展示了《肖申克的救赎》详情页的信息,如下图所示:
另外,我们也可以观察到开发者工具中又出现了一个Ajax请求,其URL为 https://spa1.scrape.center/api/movie/3,通过Preview选项卡也能看到Ajax请求对应的响应信息,如图所示:
进一步观察发现,列表页原本返回数据中就带有id这个字段,所以只要拿列表页结果中的id来构 造详情页的Ajax请求的URL就好了。定义一个详情页的爬取逻辑,代码如下:
# 详情页爬取方法
def scrape_detail(id):
url = f'<https://spa1.scrape.center/api/movie/{id}>'
return scrape_api(url)
最后,定义一个总调用方法,对以上方法串联调用,代码如下:
def main():
for page in range(1, TOTAL_PAGE+1):
index_data = scrape_index(page)
for item in index_data.get('results'):
id = item.get('id')
detail_data = scrape_detail(id)
logging.info('detail data %s', detail_data)
if __name__ == '__main__':
main()
运行结果如下(省略部分内容):
….
2024-03-23 13:28:19,493 - INFO : detail data {
‘id’: 21, ‘name’: ‘黄金三镖客’, ‘alias’: ‘Il buono, il brutto, il cattivo.’, ‘cover’: ‘https://p0.meituan.net/movie/cd18ed2c5cda9e71e17e5e6ef61ced172912303.jpg@464w_644h_1e_1c’, ‘categories’: [‘西部’, ‘冒险’], ‘regions’: [‘意大利’, ‘西班牙’, ‘西德’], ‘actors’: [{
‘name’: ‘克林特·伊斯特伍德’, ‘role’: ‘布兰迪 Blondie’, ‘image’: ‘https://p1.meituan.net/moviemachine/d1156c14dd899ada7c2b98bc373021c852875.jpg@128w_170h_1e_1c’}, {
‘name’: ‘李·范·克里夫’, ‘role’: ‘桑坦萨 Sentenza’, ‘image’: ‘https://p0.meituan.net/movie/665eab6fdb7755138e0c8092f35ba39327553.jpg@128w_170h_1e_1c’}, {
‘name’: ‘埃里·瓦拉赫’, ‘role’: ‘图科 Tuco’, ‘image’: ‘https://p1.meituan.net/movie/275042f2bbe012263b8deed1c96e611b42623.jpg@128w_170h_1e_1c’}, {
‘name’: ‘路易吉·皮斯蒂利’, ‘role’: ‘Father Pablo Ramirez’, ‘image’: ‘https://p1.meituan.net/movie/3c91cd5186e89e927056adbc8a722f5014760.jpg@128w_170h_1e_1c’}, {
‘name’: ‘Claudio Scarchilli’, ‘role’: ‘Bounty Hunter in Ghost Town’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
‘name’: ‘John Bartha’, ‘role’: ‘Sheriff (as John Bartho)’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
‘name’: ‘Livio Lorenzon’, ‘role’: ‘Baker’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
‘name’: ‘贝尼托·斯特凡内利’, ‘role’: “Member of Angel Eyes’ Gang”, ‘image’: ‘https://p0.meituan.net/movie/69698bc0960b07e3acddd412f3b88ee821953.jpg@128w_170h_1e_1c’}, {
‘name’: ‘Angelo Novi’, ‘role’: ‘Monk’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
‘name’: ‘安东尼奥·卡萨斯’, ‘role’: ‘Stevens’, ‘image’: 'https://p1.meituan
……
至此,所有电影详情数据,都爬取到了。
6.保存数据
请确保有一个可以正常连接和使用的MongoDB数据库,这里以本地localhost的MongoDB数据库为例来进行操作,其运行在27017端口上,无用户名和密码。
将数据导入MongodDB需要用到PyMongo这个库,配置如下:
import pymongo
# 定义常量
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'movies'
MONGO_COLLECTION_NAME = 'movies'
client = pymongo.MongoClient(MONGO_CONNECTION_STRING)
db = client['movies']
collection = db['movies']
定义一个将数据保存到MongoDB数据库的方法,代码如下:
# 定义保存数据到MongoDB的方法
def save_data(data):
collection.update_one({
'name':data.get('name')
},{
'$set':data
}, upsert=True)
接下来改写一下main方法,如下所示:
def main():
for page in range(1, TOTAL_PAGE + 1):
index_data = scrape_index(page)
for item in index_data.get('results'):
id = item.get('id')
detail_data = scrape_detail(id)
logging.info('detail data %s', detail_data)
save_data(detail_data)
logging.info('data saved successfully')
其实就是增加了save_data方法调用,并添加一些日志信息。重新运行,看看输出结果:
可以看到,数据就是以JSON格式存储的,一条数据对应一部电影信息,各种嵌套关系也是一目了然。