Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
数据可视化
mac环境下graphviz安装及使用
mac环境下graphviz安装及使用
4129 0
mac环境下graphviz安装及使用
|
6月前
|
Web App开发 编解码 移动开发
零基础音视频入门:你所不知道的Web前端音视频知识
本文回顾了Web端音视频的发展历程,同时还介绍了视频的编码、帧率、比特率等概念,提到了Canvas作为视频播放的替代方案,以及FFmpeg在音视频处理中的重要作用等知识。
207 1
|
并行计算 PyTorch 算法框架/工具
NumPy 高级教程——GPU 加速
NumPy 高级教程——GPU 加速【1月更文挑战第4篇】
1364 1
|
JavaScript 前端开发
JavaScript 获取整个网页的完整内容,包括 html 标签。
JavaScript 获取整个网页的完整内容,包括 html 标签。
1977 0
JavaScript 获取整个网页的完整内容,包括 html 标签。
|
弹性计算 Linux 数据中心
阿里云香港服务器30M大带宽24元1个月,288元一年
阿里云香港服务器30M大带宽24元1个月,288元一年,阿里云香港服务器2核1G、30M带宽、40GB ESSD系统盘优惠价格24元/月,288元一年,每月流量1024GB,多配置可选,阿里云百科整理分享阿里云香港服务器优惠活动、详细配置价格表和购买条件
|
算法 搜索推荐
信息流短视频时长多目标优化
背景       信息流短视频排序目前使用的是基于CTR预估Wide&Deep排序模型。在此基础上继续一系列优化,通过引入相关性信号、体感信号、多场景的样本融合、高层排序模型取得了不错收益。       信息流短视频模型优化可分为两部分优化: 感知相关性优化——点击模型以优化(CTR/CLICK为
8366 0
|
SQL 缓存 安全
Java中银行转账的一些问题
Java中银行转账的一些问题
|
机器学习/深度学习 存储 分布式计算
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
1097 0
|
JavaScript Linux 程序员
Typora收费了, 还有哪些好用的markdown工具
Typora收费了, 还有哪些好用的markdown工具
Typora收费了, 还有哪些好用的markdown工具