Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
11月前
|
人工智能 自动驾驶 数据安全/隐私保护
《人工智能新质生产力:GDP增长的未来引擎,究竟能贡献多少?》
在科技飞速发展的时代,人工智能作为新质生产力的代表,正以前所未有的态势推动全球经济格局变革。据普华永道预测,到2030年AI将带动全球GDP增长14%,相当于15.7万亿美元。在中国,过去三年AI核心产业增速显著,2023年规模达5784亿元,预计2030年超过1万亿元,带动相关产业超10万亿元。AI通过产业升级、消费升级、投资和出口等方面大幅提升生产效率,创造新的经济增长点,尽管存在技术和社会政策的不确定性,但其对GDP的贡献率有望持续提升,为全球经济带来新机遇。
870 5
《人工智能新质生产力:GDP增长的未来引擎,究竟能贡献多少?》
|
9月前
|
数据安全/隐私保护
基于MATLAB的PEF湍流风场生成器模拟与仿真
本课题基于MATLAB 2022a开发PEF(Primitive Equations Formulation)湍流风场生成器,模拟大气流动和气象现象。PEF模型考虑地球旋转效应、层结稳定性及湍流混合等复杂物理过程,适用于大尺度天气系统研究。核心程序采用高斯分布尾流模型,计算尾流中心到转子中心的距离,并绘制风速分布图。仿真结果展示了不同条件下的风场特征,无水印输出。该模型在天气预报和气候研究中具有重要应用价值。
|
存储 供应链 前端开发
宜搭平台搭建应用的最佳实践(二)| 学习笔记
快速学习宜搭平台搭建应用的最佳实践。
宜搭平台搭建应用的最佳实践(二)| 学习笔记
|
传感器 数据采集 算法
LabVIEW中进行步进电机的位置控制
LabVIEW中进行步进电机的位置控制
297 20
|
机器学习/深度学习 人工智能 搜索推荐
构建基于AI的个性化新闻推荐系统:技术探索与实践
【6月更文挑战第5天】构建基于AI的个性化新闻推荐系统,通过数据预处理、用户画像构建、特征提取、推荐算法设计及结果评估优化,解决信息爆炸时代用户筛选新闻的难题。系统关键点包括:数据清洗、用户兴趣分析、表示学习、内容及协同过滤推荐。实践案例证明,结合深度学习的推荐系统能提升用户体验,未来系统将更智能、个性化。
|
机器学习/深度学习 编解码 自然语言处理
用语言直接检索百万视频,这是阿里TRECVID 视频检索冠军算法
利用自然语言检索百万视频,人物、场景、事件都不能放过,这就是既困难又吸引了众多研究者的视频检索任务。
1597 0
用语言直接检索百万视频,这是阿里TRECVID 视频检索冠军算法
|
存储 运维 安全
跨境电商如何通过打好数据底座,实现低成本稳步增长
跨境电商如何通过打好数据底座,实现低成本稳步增长
492 0
跨境电商如何通过打好数据底座,实现低成本稳步增长
|
Shell 网络安全 Apache
ansible playbook剧本编写以及综合案例详解(十二)
ansible playbook剧本 1.Ad-Hoc简介 Ad-Hoc其实是一个概念性的名字,是相对于写ansible playbook来说的,类似于命令行敲入shell命令和写shell脚本两者之间的关系。 如果我们敲入一些目录去比较快的完成一些事情,而不需要将这些命令保存下来,这样的命令叫做ad-hoc命令,说白了就是ansible的模块。
1033 0
ansible playbook剧本编写以及综合案例详解(十二)