使用lxml.html.clean.Cleaner清洗html

2021-11-24 23:50:00

文檔: https://lxml.de/lxmlhtml.html#cleaning-up-html 代碼示例

# -*- coding: utf-8 -*-

from lxml.html.clean import Cleaner

html = """
<p cms-style="font-L">　　
    <strong>鐵打的騰訊</strong>
    <a href="//n.sinaimg.cn/tech/crawl/115/w550h365/20200326/963a-irkazzv3237667.jpg" class="keyword f_st" target="_blank">
        <img src="//n.sinaimg.cn/tech/crawl/115/w550h365/20200326/963a-irkazzv3237667.jpg" alt="">
    </a>
</p>
"""

# 儲存新聞的時候，很多屬性不需要儲存，不然會占用硬碟資源，是以隻保留圖檔标簽的src屬性就行
safe_attrs = frozenset(['src'])

# a标簽也不要，隻保留裡邊的内容
remove_tags = frozenset([
    'a'
])

cleaner = Cleaner(safe_attrs=safe_attrs, remove_tags=remove_tags)
cleaned_html = cleaner.clean_html(html)
print(cleaned_html)

'''
<p>　　
    <strong>鐵打的騰訊</strong>
    
        <img src="//n.sinaimg.cn/tech/crawl/115/w550h365/20200326/963a-irkazzv3237667.jpg">
    
</p>
'''

清洗之後内容簡潔多了

html uri使用 html css不同加載 html多媒體視訊html 使用html url

上一篇: 工作流控制台Activiti Explorer使用指南！使用Activiti Explorer定義部署執行工作流Activiti Explorer簡介流程圖TasksProcessesManageReports修改資料庫

下一篇: C4C和CRM裡擷取目前登入使用者配置設定的Organization Unit資訊

使用lxml.html.clean.Cleaner清洗html

繼續閱讀

HTML内嵌多媒體

支援在iPad中播放的HTML5視訊網站推薦

騰訊視訊生成的Html代碼

html5插入視訊

URI URL 的使用場合URL

第181天：HTML5——視訊、音頻

CSS導圓角，不過這個代碼沒有怎麼看懂，與一般的HTML是不同

06HTML基礎--多媒體标簽

01.HTML5(視訊)

03.HTML5（音頻）

C#中使用正規表達式來過濾html字元

HTML_多媒體

一篇文章教會你使用html+css3制作GIF圖

HTML中使用base标簽設定URL通路基準

使用url參數在C4C的html5 UI和Fiori UI之間做切換

使用url參數在C4C的html5 UI和Fiori UI之間做切換