//解析頁面源代碼
Uri surl = new Uri(url);
Uri uriCategory = null;
HttpWebRequest requst = (HttpWebRequest)WebRequest.Create(url);
WebResponse response = requst.GetResponse();
Stream stream = response.GetResponseStream();
StreamReader read = new StreamReader(stream, Encoding.GetEncoding("gb2312"));
return read.ReadToEnd();
//定位到需要截取的部分
HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();
html.LoadHtml(str);
HtmlNode rootNode = html.DocumentNode;
HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("//html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li");
HtmlNode temp = null;
List<Category> list = new List<Category>();
//截取部分循環
foreach (HtmlNode categoryNode in categoryNodeList)
{
temp = HtmlNode.CreateNode(categoryNode.OuterHtml);
HtmlNode singleNode = temp.SelectSingleNode(“//li/a[1]”);
Category category = new Category();
category.IndexUrl = singleNode.Attributes["href"].Value.ToString();
category.Subject = singleNode.Attributes["title"].Value.ToString();
list.Add(category);
}
public class Category
{
public string Subject { get; set; }
public string IndexUrl { get; set; }
////html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li 截取規則
Articles/Article[1]:選取屬于Articles子元素的第一個Article元素。
/Articles/Article[last()]:選取屬于Articles子元素的最後一個Article元素。
/Articles/Article[last()-1]:選取屬于Articles子元素的倒數第二個Article元素。
/Articles/Article[position()<3]:選取最前面的兩個屬于 bookstore 元素的子元素的Article元素。
//title[@lang]:選取所有擁有名為lang的屬性的title元素。
//CreateAt[@type='zh-cn']:選取所有CreateAt元素,且這些元素擁有值為zh-cn的type屬性。
/Articles/Article[Order>2]:選取Articles元素的所有Article元素,且其中的Order元素的值須大于2。
/Articles/Article[Order<3]/Title:選取Articles元素中的Article元素的所有Title元素,且其中的Order元素的值須小于3。