網頁抓取 #javascript #抓取網頁網頁 #抓取網頁問題 #抓取網頁亂碼 #抓取網頁使用 #抓取網頁本地

網頁抓取

2017-09-04 23:50:00

之前做聊天室時，由于在聊天室中提供了新聞閱讀的功能，寫了一個從網頁中抓取資訊（如最新的頭條新聞，新聞的來源，标題，内容等）的類，本文将介紹如何使用這個類來抓取網頁中需要的資訊。本文将以抓取部落格園首頁的部落格标題和連結為例：

上圖顯示的是部落格園首頁的DOM樹，顯然隻需提取出class為post_item的div，再重中提取出class為titlelnk的a标志即可。這樣的功能可以通過以下函數來實作：

有了以上函數，就可以提取需要的HTML标志了，要實作抓取，還需要一個下載下傳網頁的函數：

以下以抓取部落格園首頁的文章标題和連結為例，介紹如何使用HtmlTag類來抓取網頁資訊：

運作結果如下：

<a href="http://files.cnblogs.com/lucc/Grad.zip">源代碼下載下傳</a>

來源：http://www.cnblogs.com/lucc/archive/2010/05/18/1738718.html

本文轉自夏雪冬日部落格園部落格，原文連結：http://www.cnblogs.com/heyonggang/archive/2013/03/04/2943365.html，如需轉載請自行聯系原作者

網頁抓取