網絡爬蟲(1)

2017-11-14 23:50:00

算法分析

我們現在從需求中提取關鍵詞來逐漸分析問題。

首先是“種子節點”。它就是一個或多個在爬蟲程式運作前手動給出的URL（網址），爬蟲正是下載下傳并解析這些種子URL指向的頁面，從中提取出新的URL，然後重複以上的工作，直到達到設定的條件才停止。

最後是“設定的條件”，爬蟲程式終止的條件可以根據實際情況靈活設定，比如設定爬取時間，爬取數量，爬行深度等。

到此，我們分析完了爬蟲如何開始，怎麼運作，如何結束（當然，要實作一個強大，完備的爬蟲要考慮的遠比這些複雜，這裡隻是入門分析），下面給出整個運作的流程圖：

資料結構分析

根據以上的分析，我們需要用一種資料結構來儲存初始的種子URL和解析下載下傳的頁面得到的URL，并且我們希望先解析出的URL先執行請求，是以我們用隊列來儲存URL。因為我們要頻繁的添加，取出URL，是以我們采用鍊式存儲。下載下傳的頁面解析後直接原封不動的儲存到磁盤。

技術分析

所謂網絡爬蟲，我們當然要通路網絡，我們這裡使用jsoup，它對http請求和html解析都做了良好的封裝，使用起來十分友善。根據資料結構分析，我們用LinkedList實作隊列，用來儲存未通路的URL，用HashSet來儲存通路過的URL（因為我們要大量的判斷該URL是否在該集合内，而HashSet用元素的Hash值作為“索引”，查找速度很快）。

代碼

以上分析，我們一共要實作2個類：

① JsoupDownloader，該類是對Jsoup做一個簡單的封裝，友善調用。暴露出以下幾個方法：

—public Document downloadPage(String url)；根據url下載下傳頁面 —public Set<String> parsePage(Document doc, String regex)；從Document中解析出比對regex的url。 —public void savePage(Document doc, String saveDir, String saveName, String regex)；儲存比對regex的url對應的Document到指定路徑。

② UrlQueue，該類用來儲存和擷取URL。暴露出以下幾個方法：

—public void enQueue(String url)；添加url。 —public String deQueue()；取出url。 —public int getVisitedCount()；擷取通路過的url的數量；

<a></a>

注：userRequest\\?userRequest=showNoParticipateTask&taskid=\\d{1,2} 是本地的網站中網頁裡的位址，當然種子位址也是本地網站！

在請求這個位址後會産生位址重定向，到部落格園位址http://www.cnblogs.com/hujunzheng/，并完成相應的下載下傳！

1.這是請求逾時的情況

2.正常通路或者重定向通路

本文轉自小眼兒部落格園部落格，原文連結：http://www.cnblogs.com/hujunzheng/p/4852948.html，如需轉載請自行聯系原作者

網絡爬蟲(1)

繼續閱讀

nginx location中斜線的位置的重要性

XX系統實施過程問題總結

nginx 安裝錯誤資訊解決

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method