天天看點

C#對HTML文檔的解析

相信很多人都有過HTML文檔解析的需求。比如我們抓取了某1個網站的頁面資料,格式就是HTML的格式。以前我們都是通過正規表達式來進行解析,但是發現有一些問題。解析HTML文檔時并不容易,如果文檔的格式稍有變化很可能就不能正确的比對。是以我們需要專門的工具來幫助我們輕松的解析HTML文檔。

其實已經有一個非常不錯的工具提供了。比如HtmlAgilityPack。它可以幫助我們解析HTML文檔就像用XmlDocument類來解析XML一樣輕松、友善。

Framework的版本的dll。

好了,下面提供一個足夠Simple的例子給大家。大家可以在此基礎之上,舉一反三。

比如要解析下面的HTML。

以控制台項目為例,首先要引用HtmlAgilityPack.dll檔案,這樣才能使用dll裡面的類和方法。

上面就是完整的代碼,注釋也很清楚。

最後看一下解析的結果:

C#對HTML文檔的解析