天天看點

采集資料用雲伺服器與公司網站,網絡爬蟲軟體,企業版,大企業,采集内網資料,私有雲部署-集搜客GooSeeker...

爬蟲路線規劃能力

集搜客GooSeeker網絡爬蟲沿着線索擴充爬行範圍,而且不限廣度和深度。免費線上版使用者在MS謀數台的爬蟲路線工作台上規劃爬蟲路線,主要能力就是:從抓取到的網址上建立下一級線索,這是深度方向,同時抓取到的下級線索不隻一個,那麼就是在廣度方向進行擴充。

總之,網絡爬蟲抓取網頁資料的時候,把一些網址作為廣度或者深度方向擴充的線索。免費線上版隻能在定義抓取規則的時候規劃爬蟲路線;而企業版可以有更多規劃爬蟲路線的選擇。

在抓取結果清洗和入庫的時候在深度和廣度方向生成線索,這是企業版常用的方式,此時,企業版GooSeeker具有最大的靈活性和控制力,比如,可以用入庫腳本程式任意控制爬蟲路線的生成,可以替換URL中的參數,可以根據URL位址規律批量生成網址,可以在一批網址中根據一定規則進行篩選等等。

采集資料用雲伺服器與公司網站,網絡爬蟲軟體,企業版,大企業,采集内網資料,私有雲部署-集搜客GooSeeker...

最大的靈活性在于爬蟲路線的生成時間。當網頁抓取用于探索性研究的時候,可以根據需要随時延伸爬蟲深度和廣度範圍,不必在第一次資料清洗過程就把所有線索都生成好了,其實那時可能還不知道是否有必要做爬行範圍延展。而且也容易實作同一個網址用于多個抓取主題,分别為不同的研究目的服務。

典型案例

某品牌手機消費者洞察系統中,除了正常的網頁抓取和資料挖掘以外,還需要一些事件驅動的抓取,比如某款手機的釋出會效果分析,也需要一些深度資料挖掘,比如消費者群體差異研究。為了配合這些分析研究,往往需要靈活的網絡爬蟲路線規劃,在探索研究過程中,不斷添加新的資料源,要求網絡爬蟲向深度和廣度進行延展的時候具有足夠的靈活性。隻有企業版GooSeeker網絡爬蟲才有這個能力。