資料清洗：利用lxml移除html中的元素

2021-11-24 23:50:00

有一段html文本

<html>
    <head>
        <title>這是标題</title>
    </head>
    <body>
        <div>這是内容</div>
        <div>要移除的内容</div>
    </body>
</html>

我希望把

<div>要移除的内容</div>

移除

安裝lxml

pip install lxml

代碼執行個體

# -*- coding: utf-8 -*-

from lxml import etree

text = """
<html>
    <head>
        <title>這是标題</title>
    </head>
    <body>
        <div>這是内容</div>
        <div>要移除的内容</div>
    </body>
</html>"""

tree = etree.fromstring(text)

# 傳回一個清單
remove_tags = tree.xpath('//div[last()]')

if remove_tags:
    remove_tag = remove_tags[0]
    remove_tag.getparent().remove(remove_tag)

print(etree.tounicode(tree))
"""
<html>
    <head>
        <title>這是标題</title>
    </head>
    <body>
        <div>這是内容</div>
        </body>
</html>
"""

最後也實作了我的要求，可以封裝為單獨的函數，以便調用

from lxml import html, etree


def remove_elements(html, xpath):
    """
    移除html 文本中的元素
    :param html: str
    :param xpath: str
    :return: str
    """
    # tree = etree.fromstring(html)
    tree = html.fragment_fromstring(f'<div>{text}</div>')
    
    # 傳回一個清單
    remove_tags = tree.xpath(xpath)

    for remove_tag in remove_tags:
        remove_tag.getparent().remove(remove_tag)

    return etree.tounicode(tree)


if __name__ == '__main__':
    text = """
    <html>
        <head>
            <title>這是标題</title>
        </head>
        <body>
            <div>這是内容</div>
            <div>要移除的内容</div>
        </body>
    </html>"""

    print(remove_elements(text, '//div[last()]'))

參考

https://lxml.de/tutorial.html

資料清洗：利用lxml移除html中的元素

繼續閱讀

Kafka：Topic概念與API介紹

5G小型蜂應用指南

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧