开发者社区开发与运维文章正文

Python：使用readability-lxml 提取网页标题和主体内容

2023-02-17 194

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python：使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-

from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后，发现部分网页可以正常提取主体内容，有些网站提取不正确

            </div>

文章标签：

Python

关键词：

Python网页

Python标题

Python网页标题

Python主体

auqbllxiu

小白学大数据

7月前

Web App开发数据采集 JavaScript

动态网页爬取：Python如何获取JS加载的数据？

小白学大数据

1221 58 58

小白学大数据

5月前

数据采集存储 NoSQL

Python爬虫案例：Scrapy+XPath解析当当网网页结构

小白学大数据

267 0 0

winx_19970108018

7月前

供应链 API 开发者

1688 商品数据接口终极指南：Python 开发者如何高效获取标题 / 价格 / 销量数据（附调试工具推荐）

1688商品列表API是阿里巴巴开放平台提供的服务，允许开发者通过API获取1688平台的商品信息（标题、价格、销量等）。适用于电商选品、比价工具、供应链管理等场景。使用时需构造请求URL，携带参数（如q、start_price、end_price等），发送HTTP请求并解析返回的JSON/XML数据。示例代码展示了如何用Python调用该API获取商品列表。

winx_19970108018

414 18 19

小白学大数据

6月前

数据采集 Web App开发 JavaScript

Python爬虫解析动态网页：从渲染到数据提取

小白学大数据

445 0 1

小白学大数据

7月前

数据采集存储前端开发

Python爬虫自动化：批量抓取网页中的A链接

小白学大数据

330 4 5

小白学大数据

7月前

数据采集 Web App开发 JavaScript

Python爬虫如何获取JavaScript动态渲染后的网页内容？

小白学大数据

766 6 8

LucianaiB

JavaScript 前端开发开发者

探索 DrissionPage: 强大的Python网页自动化工具

DrissionPage 是一个基于 Python 的网页自动化工具，结合了浏览器自动化的便利性和 requests 库的高效率。它提供三种页面对象：ChromiumPage、WebPage 和 SessionPage，分别适用于不同的使用场景，帮助开发者高效完成网页自动化任务。

LucianaiB

1139 4 4

爱专研的技术土狗

数据采集 Web App开发 iOS开发

如何使用 Python 语言的正则表达式进行网页数据的爬取？

使用 Python 进行网页数据爬取的步骤包括：1. 安装必要库（requests、re、bs4）；2. 发送 HTTP 请求获取网页内容；3. 使用正则表达式提取数据；4. 数据清洗和处理；5. 循环遍历多个页面。通过这些步骤，可以高效地从网页中提取所需信息。

爱专研的技术土狗

500 1 1

五岳之巅

Python Windows

Python 3 抓取网页资源的 N 种方法

1、最简单 import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = response.

五岳之巅

838 0 0

zhexuan

Python Windows

python3 抓取网页资源的 N 种方法

1、最简单 import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = response.

zhexuan

1214 0 0

Python：使用readability-lxml 提取网页标题和主体内容

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python：使用readability-lxml 提取网页标题和主体内容

热门文章

最新文章

相关课程

相关电子书

推荐镜像