天天看點

java自動生成任務号_SpiderV: java編寫的帶有web管理背景的抓取程式,自動生成搜尋URL,簡單實作資料抽取即可,支援多機,任務定時自動運作等功能,提供各種擴充點,适應各種情況...

#SpiderV

簡介:

應用用來抓取垂直網站資料,系統經過簡單配置即可完成典型的“條件選擇”--》“搜尋”--》“清單資料”這總結構的資料抓取,抽取部分通過JSOUP自己寫一個實作即可。實作類要求放到(com/yzq/os/spider/v/service/spider/impl)

系統支援叢集模式,所有伺服器代碼統一,可自動化同步管理,通過資料庫中的配置辨別唯一主機,主機負責一些日常初始化及清理動作。每台伺服器可以分别設定自動抓取任務。

系統根據搜尋參數配置自動生成搜尋URL組合,并可以通過一次運作後,将有結果資料的搜尋URL備份,下次從備份URL中取出運作,減少不必要的搜尋條件送出;

手動運作一次如果正常後可以設定定時任務,每天定時運作;

系統采用maven管理,應用采用UTF-8編碼。

軟體要求:

linux jdk 1.6 tomcat6+ mysql 5.5+ (InnoDB引擎,資料庫編碼UTF-8)

安裝部署及運作:

1、首先下載下傳項目源代碼;

2、根據自己情況修改properties檔案;

3、運作maven打包war;

4、部署到tomcat webapps目錄下

5、建立mysql賬号,并執行/scripts/create_database.sql 和/scripts/init.sql(需要根據自身情況修改)

6、分析要抓取的網站。可以通過WebSiteCrawlTest類來進行(收集配置資料)

7、配置搜尋引擎、搜尋引擎參數、清單頁面配置

8、可選擇實作資料抽取類,參考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask

9、初始化搜尋URL參數http://localhost:8080/SpiderVertical/admin/createurl/form

10、執行抓取http://localhost:8080/SpiderVertical/admin/spider/form

11、檢視運作進度http://localhost:8080/SpiderVertical/admin/statis

12、運作完檢視資料結果http://localhost:8080/SpiderVertical/admin/spider/view_tables

注意:使用系統請遵守Robots協定

有問題請發送mail到:[email protected]