C#比對HTML中的圖檔位址

2021-11-06 09:22:31

一般來說一個 html 文檔有很多标簽，比如“<html>”、“<body>”、“<table>”等，想把文檔中的 img 标簽提取出來并不是一件容易的事。由于 img 标簽樣式變化多端，使提取的時候用程式尋找并不容易。于是想要尋找它們就必須寫一個非常健全的正規表達式，不然有可能會找得不全，或者找出來的不是正确的 img 标簽。

我們可以從 html 标簽的格式去想應該怎麼建這個正規表達式。首先要想一下 img 标簽有幾種寫法，忽略大小寫不看的話，下面列出 img 标簽可能出現的幾種情況。

這一些标簽不用考慮，因為沒有圖檔資源位址。

這一些标簽都有圖檔資源位址，另外還有一個特點就是有引号對，可能為單引号，也可能為雙引号。因為不需要同時比對引号對，是以正規表達式可以這麼寫：@"<img\s*src\s*=\s*[""']?\s*(?[^\s""'<>]*)\s*/?\s*>"

因為 img 和 src 之間可能會有其他的參數，是以“<img”要有個單詞結束，比如說不能是“<imgabc”，同樣 src 前面也是一樣，使用單詞結束符“\b”有一個好處就是省去了表示空格的“\s*”。另外由于 img 标簽中不可以出現“<”、“>”這樣的符号，是以要改寫前面的正規表達式：@"<img\b[^<>]*?\bsrc\s*=\s*[""']?\s*(?<imgurl>[^\s""'<>]*)[^<>]*?/?\s*>"

<img width="320" height="240" src = "

/images/pic.jpg" />

像這種可能會用回車符折行的問題有時候會出現，是以在有空格分開的地方要包含回車換行和 tab 字元，另外在圖檔位址中不能出現空格、tab、回車和換行字元。是以上面的正規表達式可以改成：@"<img\b[^<>]*? \bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgurl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"

下面寫出取得html中所有圖檔位址的靜态方法。

C#比對HTML中的圖檔位址

繼續閱讀

Android 車載之車載投屏~

C# 位元組數組 byte[] 快速比較算法

C# 位元組數組、字元串轉化位元組數組轉字元串字元串轉位元組數組位元組數組轉整數整數轉位元組數組字元串轉位元組字元串轉數值數值轉字元串

C#用Zlib壓縮或解壓縮位元組數組

C# 比較兩個位元組數組是否相等

對于VS中scanf報錯永久解決，建立源檔案自動添加#define _CRT_SECURE_NO_WARNINGS 1

《C#進階程式設計》讀書筆記 -索引

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

C#多線程——前台線程和背景線程

C#+ArcEngine代碼檢測ArcEngine Runtime是否安裝以及是否授權

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

HBuilder開發App Step1——環境搭建，HelloMUI 以及真機調試

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

七牛雲-C#SDK-上傳-前期準備

[轉]iOS微信小視訊優化心得

android 主線程的相關問題