Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
2月前
|
数据采集 人工智能 自然语言处理
Playwright MCP 浏览器自动化框架全面解析
Playwright MCP是微软推出的开源项目,结合Playwright与MCP协议,让AI通过结构化数据直接操作浏览器。告别传统视觉识别,实现高效、精准的网页自动化,广泛应用于测试、爬虫、办公自动化等场景,大幅提升效率与可靠性。
|
人工智能 自然语言处理 算法
开箱即用的个人主页页面开发实战—基于HarmonyOS 5.0 (Next)和ArkTS的实现【HarmonyOS 5.0(Next)】
本文介绍了基于HarmonyOS 5.0(Next)和ArkTS开发的开箱即用个人主页页面。HarmonyOS 5.0(Next)采用全新“和谐美学”设计理念,通过光元素模拟、多设备无缝流转及小艺助手升级,提升用户体验。文章详细解析了使用ArkTS构建个人主页页面的代码,展示了清晰的布局层次、简洁的事件处理、状态管理和组件化开发等最佳实践。这段代码不仅实现了美观的界面设计,还提供了高效的应用导航和数据传递功能,体现了对用户体验的高度关注。
764 12
开箱即用的个人主页页面开发实战—基于HarmonyOS 5.0 (Next)和ArkTS的实现【HarmonyOS 5.0(Next)】
|
消息中间件 存储 监控
|
JSON 文字识别 算法
使用InternVL、LMDeploy和GTE搭建多模态RAG系统
如何将视觉大模型(VLM)与 多模态RAG 结合起来,创建服装搜索和搭配推荐!本文展示了InternVL模型在分析服装图像和提取颜色、款式和类型等关键特征方面的强大功能。
|
10月前
|
并行计算 PyTorch Shell
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
954 11
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
elasticsearch 怎么删除过期的数据
使用elasticsearch收集日志进行处理,时间久了,很老的数据就没用了或者用途不是很大,这个时候就要对过期数据进行清理.但是es5.0之后就不支持ttl,那怎么办呢? 1,请使用官方的工具elasticsearch-curator 2,使用delete-by-query方法删除特定时间范围的数据 第一种这里不再介绍了,直接看官网吧,主要说下第二种
|
SQL 数据管理 数据库
【安装指南】从零开始:SQL Server 2019与SSMS完美安装攻略!
【安装指南】从零开始:SQL Server 2019与SSMS完美安装攻略!
689 0
|
网络协议 数据安全/隐私保护 iOS开发
使用mac自带VNC公网远程控制macOS
macOS系统自带有VNC远程桌面,我们可以在控制端上安装配置VNC客户端,以此来实现远程控制macOS。但通常需要在不同网络下进行远程控制,为此,我们可以在macOS被控端上使用cpolar做内网穿透,映射VNC默认端口5900,通过所生成的公网地址,来实现在公网环境下远程控制VNC。
|
存储 算法 数据可视化
Qt与Excel:从底层原理到上层应用的全面探索
Qt与Excel:从底层原理到上层应用的全面探索
935 0
|
机器学习/深度学习 数据采集 人工智能
从零开始构建自己的AI:一个初学者的机器学习教程
通过这个简单的机器学习教程,我们初步了解了从数据收集、选择模型到训练和预测的基本流程。机器学习是一个广阔的领域,有很多知识和技能需要深入学习。希望本教程能为初学者提供一个入门的指引,引导大家探索更多有关机器学习的知识。感谢您阅读本文,如果您有任何问题或想法,请在评论区与我分享!让我们一起踏上机器学习的旅程,构建属于自己的AI。
4296 1
从零开始构建自己的AI:一个初学者的机器学习教程