相信很多人都有過HTML文檔解析的需求。比如我們抓取了某1個網站的頁面資料,格式就是HTML的格式。以前我們都是通過正規表達式來進行解析,但是發現有一些問題。解析HTML文檔時并不容易,如果文檔的格式稍有變化很可能就不能正确的比對。是以我們需要專門的工具來幫助我們輕松的解析HTML文檔。
其實已經有一個非常不錯的工具提供了。比如HtmlAgilityPack。它可以幫助我們解析HTML文檔就像用XmlDocument類來解析XML一樣輕松、友善。
Framework的版本的dll。
好了,下面提供一個足夠Simple的例子給大家。大家可以在此基礎之上,舉一反三。
比如要解析下面的HTML。
以控制台項目為例,首先要引用HtmlAgilityPack.dll檔案,這樣才能使用dll裡面的類和方法。
上面就是完整的代碼,注釋也很清楚。
最後看一下解析的結果:
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiIXZ05WZD9CX5RXa2Fmcn9CXwczLcVmds92czlGZvwVP9EUTDZ0aRJkSwk0LcxGbpZ2LcBDM08CXlpXazRnbvZ2LcRlMMVDT2EWNvwFdu9mZvwVP9c2YsJkbjhGayMmaG1mYwhmMZZXUYpVd1kmYr50MZV3YyI2cKJDT29GRjBjUIF2LcRHelR3LcJzLctmch1mclRXY39DM1cTNykjMxITOyITMzEDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)