天天看點

C# 多線程網絡爬蟲

上次做了一個幫公司妹子做了爬蟲,不是很精緻,這次公司項目裡要用到,于是有做了一番修改,功能添加了網址圖檔采集,下載下傳,線程處理界面網址圖檔下載下傳等。

說說思路:首相擷取初始網址的所有内容 在初始網址采集圖檔 去初始網址采集連結 把采集到的連結放入隊列 繼續采集圖檔,然後繼續采集連結,無限循環

還是上圖檔大家看一下:

<a href="http://files.jb51.net/file_images/article/201609/2016911113453838.png?2016811113932" target="_blank"></a>

處理網頁内容抓取跟網頁網址爬取都做了改進,下面還是大家來看看代碼,有不足之處,還請之處!

網頁内容抓取HtmlCodeRequest,

網頁網址爬取GetHttpLinks,用正則去篩選html中的Links

圖檔抓取GetHtmlImageUrlList,用正則去篩選html中的Img

都寫進了一個封裝類裡面 HttpHelper

<a></a>

這邊下載下傳圖檔有個任務條數限制,限制是200條。如果超過的話線程等待5秒,這裡下載下傳圖檔是異步調用的委托

話不多說,更多的需要大家自己去改進咯!

沒有整理與歸納的知識,一文不值!高度概括與梳理的知識,才是自己真正的知識與技能。 永遠不要讓自己的自由、好奇、充滿創造力的想法被現實的架構所束縛,讓創造力自由成長吧! 多花時間,關心他(她)人,正如别人所關心你的。理想的騰飛與實作,沒有别人的支援與幫助,是萬萬不能的。

    本文轉自wenglabs部落格園部落格,原文連結:http://www.cnblogs.com/arxive/p/5885082.html,如需轉載請自行聯系原作者

繼續閱讀