Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
4月前
|
Ubuntu Linux 图形学
Ubuntu 25.04:全新升级与未来展望
此外,Ubuntu 25.04还同步发布了众多官方衍生版本和支持周期,如Kubuntu、Xubuntu、Ubuntu MATE、Budgie、Unity、Studio、Cinnamon和Kylin等。用户可以从Ubuntu官网轻松下载这些版本。值得注意的是,作为一个非LTS版本,支持周期为9个月,预计将于2026年1月结束。因此,对于那些需要稳定性和长期支持的用户来说,Ubuntu 24.04 LTS仍然是一个推荐的选择。
|
人工智能 IDE 程序员
Qoder用户上手指南:安装、登录、快捷键、功能亮点(新用户免费领300credits,首购2美元/月)
这个容易让程序员上瘾的 Agentic Coding 平台有哪些上头的功能?对于小白开发者和资深开发者如何用好Qoder呢?
8100 6
Qoder用户上手指南:安装、登录、快捷键、功能亮点(新用户免费领300credits,首购2美元/月)
|
知识图谱 开发者 运维
独家下载!《Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)》
本书从介绍Elasticsearch、全观测技术原理、行业应用到技术实践,全面系统地解读在大数据背景下,运维人员、开发人员等应用全观测技术的价值和实践上手指南。还有借助阿里云环境进行的 ES 实战演练,详细的图文说明,手把手引导大家系统地使用 ES。
83081 0
独家下载!《Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)》
|
Ubuntu TensorFlow 算法框架/工具
TensorFlow(2):给TensorFlow Image 打补丁增加 TuShare 支持
1,关于TuShare TuShare 是一个python的lib 库非常好用。 并且是适合国内的股票市场的,可以直接下载国内的股票数据。 非常的方便。 同事 TensorFlow 已经支持了 Numpy。直接在这个上面增加TuShare类库就好了。 而且docker 的有点就出来了。一层一层的叠加了。 2,增加镜像 和上次一样重新增加一个启动脚本: htt
1781 0
|
10天前
|
数据采集 人工智能 安全

热门文章

最新文章