什麼是爬蟲

2022-04-18 20:43:46

網絡爬蟲（web crawler）也叫網頁蜘蛛，網絡機器人，是一種用來自動浏覽網際網路的程式或者腳本。爬蟲可以驗證超連結和HTML代碼，用于網絡抓取（Web scraping）。網絡搜尋引擎等站點通過爬蟲軟體更新自身的網站内容（Web content）或其對其他網站的索引。爬蟲通路網站的過程會消耗目标系統資源，是以在通路大量頁面時，爬蟲需要考慮到規劃、負載等問題。

網絡爬蟲是一個自動提取網頁的程式，它為搜尋引擎從網際網路上下載下傳網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若幹初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從目前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜，需要根據一定的網頁分析算法過濾與主題無關的連結，保留有用的連結并将其放入等待抓取的URL隊列。然後，它将根據一定的搜尋政策從隊列中選擇下一步要抓取的網頁URL，并重複上述過程，直到達到系統的某一條件時停止。另外，所有被爬蟲抓取的網頁将會被系統存貯，進行一定的分析、過濾，并建立索引，以便之後的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結果還可能對以後的抓取過程給出回報和指導。

相對于通用網絡爬蟲，聚焦爬蟲還需要解決三個主要問題：

(1) 對抓取目标的描述或定義；

(2) 對網頁或資料的分析與過濾；

(3) 對URL的搜尋政策。

面臨的問題

什麼是爬蟲

繼續閱讀

一個視訊教你做谷歌seo。今天要分享的是谷歌seo優化的技巧。是否有遇到過這樣的情況：網站排名一直上不去，甚至找不到？别

網際網路商規-part2

ElasticSearch：部署ElasticSearch & Kibana

TF-IDF超級算法概述

關鍵詞權重的量化方法TF/IDF

seo技巧篇

最新資料：微信及WeChat月活12.5億多，2021年第二季遊戲收入430億元

ubuntu設定全攻略

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

正确了解和判斷PR劫持的方法（站長必看）

傳說中比google和百度牛的十佳搜尋類網站

百度、新浪、Mixi、Apache社群贊助的開源key-value分布式存儲系統[轉載]

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch