天天看點

HTML解析HtmlAgilityPack

//解析頁面源代碼

           Uri surl = new Uri(url);

           Uri uriCategory = null;

           HttpWebRequest requst = (HttpWebRequest)WebRequest.Create(url);

           WebResponse response = requst.GetResponse();

           Stream stream = response.GetResponseStream();

           StreamReader read = new StreamReader(stream, Encoding.GetEncoding("gb2312"));

           return read.ReadToEnd();

//定位到需要截取的部分

HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();

            html.LoadHtml(str);

            HtmlNode rootNode = html.DocumentNode;

            HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("//html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li");

            HtmlNode temp = null;

            List<Category> list = new List<Category>();

//截取部分循環

foreach (HtmlNode categoryNode in categoryNodeList)

            {

                temp = HtmlNode.CreateNode(categoryNode.OuterHtml);

                HtmlNode singleNode = temp.SelectSingleNode(“//li/a[1]”);

Category category = new Category();

                    category.IndexUrl = singleNode.Attributes["href"].Value.ToString();

                    category.Subject = singleNode.Attributes["title"].Value.ToString();

list.Add(category);

}

public class Category

{

public string Subject { get; set; }

public string IndexUrl { get; set; }

////html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li  截取規則

Articles/Article[1]:選取屬于Articles子元素的第一個Article元素。 

/Articles/Article[last()]:選取屬于Articles子元素的最後一個Article元素。 

/Articles/Article[last()-1]:選取屬于Articles子元素的倒數第二個Article元素。 

/Articles/Article[position()<3]:選取最前面的兩個屬于 bookstore 元素的子元素的Article元素。 

//title[@lang]:選取所有擁有名為lang的屬性的title元素。 

//CreateAt[@type='zh-cn']:選取所有CreateAt元素,且這些元素擁有值為zh-cn的type屬性。 

/Articles/Article[Order>2]:選取Articles元素的所有Article元素,且其中的Order元素的值須大于2。 

/Articles/Article[Order<3]/Title:選取Articles元素中的Article元素的所有Title元素,且其中的Order元素的值須小于3。