之前做聊天室時,由于在聊天室中提供了新聞閱讀的功能,寫了一個從網頁中抓取資訊(如最新的頭條新聞,新聞的來源,标題,内容等)的類,本文将介紹如何使用這個類來抓取網頁中需要的資訊。本文将以抓取部落格園首頁的部落格标題和連結為例:

上圖顯示的是部落格園首頁的DOM樹,顯然隻需提取出class為post_item的div,再重中提取出class為titlelnk的a标志即可。這樣的功能可以通過以下函數來實作:
有了以上函數,就可以提取需要的HTML标志了,要實作抓取,還需要一個下載下傳網頁的函數:
以下以抓取部落格園首頁的文章标題和連結為例,介紹如何使用HtmlTag類來抓取網頁資訊:
運作結果如下:
<a href="http://files.cnblogs.com/lucc/Grad.zip">源代碼下載下傳</a>
來源:http://www.cnblogs.com/lucc/archive/2010/05/18/1738718.html
本文轉自夏雪冬日部落格園部落格,原文連結:http://www.cnblogs.com/heyonggang/archive/2013/03/04/2943365.html,如需轉載請自行聯系原作者