.net使用webBrowser爬取頁面标簽内容，簡單爬蟲的幾個關鍵方法

2023-03-09 14:35:41

在.net中可能會碰到需要使用webBrowser進行網頁标簽的操作的情況，下面介紹幾個常用方法，僅供參考

特别說明wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)需要給webBrowser控件添加該事件的監聽，用來監聽浏覽器加載完畢後需要進行的操作

//擷取頁面所有的div元素

HtmlElementCollection hc = this.wb.Document.GetElementsByTagName("div");

//周遊所有的集合内元素

foreach (HtmlElement el in hc){}

//通過元素屬性進行元素判斷

String cla = el.GetAttribute("className");

if (cla == "item"){}

//擷取a标簽的href屬性

el1.GetAttribute("href");

//擷取img标簽的src屬性

el1.GetAttribute("src");

//擷取标簽内文本

sub_el2.InnerText;

//擷取标簽内html内容

sub_el3.InnerHtml

以上為項目中常用的一些基本方法，如果需要進一步探讨，可加我個人微信

.net使用webBrowser爬取頁面标簽内容，簡單爬蟲的幾個關鍵方法

繼續閱讀