第103篇Python：Python爬虫系列之书籍爬取，细节拉满

2022-08-08 361

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 第103篇Python：Python爬虫系列之书籍爬取，细节拉满

前言
大家好，我是辣条。

不知不觉写了有103篇博文了，辣条以后尽量给大家带上编号，这样方便大家后续查阅，毕竟很多人都是放在收藏里起灰，方便你们后续查找的话你们直接看编号就简单多了。这样你们也可以放心收藏起来了

今天给大家继续爬虫系列，切记不能沉迷，另外也不要轻易模仿。可以收藏研究一下技术点学长还是特别支持的

目录
前言
一，开发环境
二，程序分析&代码实现
三，项目总结
一，开发环境
python3.7

pycharm

二，程序分析&代码实现

首先获取它的页面资源:

import requests
from lxml import etree

资源地址

url = ' 地址'

请求头

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36'

}

页面响应

response = requests.get(url=url,headers=headers)

数据转换

data = etree.HTML(response.text)
1
2
3
4
5
6
7
8
9
10
11
12
接下来通过页面解析拿到所有的书：

获取到排行榜所有书

book_info_list = data.xpath('//div[@class="item"]')
1
2
进入模块可以发现所有书的详情页面都是放在该路径下:

那么我们可以筛选，拿到path进行拼接:

for book_info in book_info_list:

#拿到path
page_id = book_info.xpath('div[@class="image"]/a/@href')[0]
#拼接到主域名下
url = url[0:19] + page_id

1
2
3
4
5
在详情页面看到有个下载链接，这样可以省了很大的功夫，通过页面来分析:

可以看到它的下载url，是传了参数跟书名过去的，那么可以获取到该链接并且拼接这样就拿到了下载链接，同时拿到书的名字作为下载备用:

for book_info in book_info_list:

#拿到path
page_id = book_info.xpath('div[@class="image"]/a/@href')[0]
#拼接到主域名下
url = url[0:19] + page_id

#获取详情页面
response = requests.get(url=url,headers=headers)
info_page = etree.HTML(response.text)
#拿到下载path
download_url = info_page.xpath('//div[@class="readbtn"]/a/@href')[2]
#拼接url
download_url = url[0:19] + download_url
#拿到书名字
book_name = download_url.split('=')[2]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
接下来对下载链接发起请求，通过文件I/O写入本地:

boo_txt = requests.get(url=download_url,headers=headers)
with open('book/%s.txt'%book_name,'w',encoding='utf-8') as f:
    f.write(boo_txt.text)

1
2
3
让我们来看看结果:

这样就拿到了排行榜的所有书了，非常的方便快捷。

三，项目总结
首先要去手动分析下载的路径步骤，然后将这些步骤用代码一一实现就好啦。轻轻松松又简简单单

这样就拿到了排行榜的所有小说了，非常的方便快捷。另外还有之前的一些源码啥的都可以在底下的小卡片找我拿，还有一些我之前用的书，脑图路线，视频啥的，都快放不下了~

—

第103篇Python：Python爬虫系列之书籍爬取，细节拉满

资源地址

请求头

页面响应

数据转换

获取到排行榜所有书

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

第103篇Python：Python爬虫系列之书籍爬取，细节拉满

资源地址

请求头

页面响应

数据转换

获取到排行榜所有书

热门文章

最新文章

相关课程

相关电子书

推荐镜像