数据清洗：利用lxml移除html中的元素-阿里云开发者社区

数据清洗：利用lxml移除html中的元素

2021-11-25 246

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据清洗：利用lxml移除html中的元素

有一段html文本

<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        <div>要移除的内容</div>
    </body>
</html>

我希望把 <div>要移除的内容</div> 移除

安装lxml

pip install lxml

代码实例

# -*- coding: utf-8 -*-
from lxml import etree
text = """
<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        <div>要移除的内容</div>
    </body>
</html>"""
tree = etree.fromstring(text)
# 返回一个列表
remove_tags = tree.xpath('//div[last()]')
if remove_tags:
    remove_tag = remove_tags[0]
    remove_tag.getparent().remove(remove_tag)
print(etree.tounicode(tree))
"""
<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        </body>
</html>
"""

最后也实现了我的要求，可以封装为单独的函数，以便调用

from lxml import html, etree
def remove_elements(html, xpath):
    """
    移除html 文本中的元素
    :param html: str
    :param xpath: str
    :return: str
    """
    # tree = etree.fromstring(html)
  tree = html.fragment_fromstring(f'<div>{text}</div>')
    # 返回一个列表
    remove_tags = tree.xpath(xpath)
    for remove_tag in remove_tags:
        remove_tag.getparent().remove(remove_tag)
    return etree.tounicode(tree)
if __name__ == '__main__':
    text = """
    <html>
        <head>
            <title>这是标题</title>
        </head>
        <body>
            <div>这是内容</div>
            <div>要移除的内容</div>
        </body>
    </html>"""
    print(remove_elements(text, '//div[last()]'))

参考

https://lxml.de/tutorial.html

数据清洗：利用lxml移除html中的元素

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据清洗：利用lxml移除html中的元素

热门文章

最新文章

相关课程

相关电子书