天天看點

.net使用webBrowser爬取頁面标簽内容,簡單爬蟲的幾個關鍵方法

在.net中 可能會碰到需要使用webBrowser進行網頁标簽的操作的情況,下面介紹幾個常用方法,僅供參考

特别說明wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)需要給webBrowser控件添加該事件的監聽,用來監聽浏覽器加載完畢後需要進行的操作

//擷取頁面所有的div元素

HtmlElementCollection hc = this.wb.Document.GetElementsByTagName("div");

//周遊所有的集合内元素

foreach (HtmlElement el in hc){}

//通過元素屬性進行元素判斷

String cla = el.GetAttribute("className");

 if (cla == "item"){}

//擷取a标簽的href屬性

el1.GetAttribute("href");

//擷取img标簽的src屬性

el1.GetAttribute("src");

//擷取标簽内文本

sub_el2.InnerText;

//擷取标簽内html内容

sub_el3.InnerHtml

以上為項目中常用的一些基本方法,如果需要進一步探讨,可加我個人微信

.net使用webBrowser爬取頁面标簽内容,簡單爬蟲的幾個關鍵方法