#SpiderV
簡介:
應用用來抓取垂直網站資料,系統經過簡單配置即可完成典型的“條件選擇”--》“搜尋”--》“清單資料”這總結構的資料抓取,抽取部分通過JSOUP自己寫一個實作即可。實作類要求放到(com/yzq/os/spider/v/service/spider/impl)
系統支援叢集模式,所有伺服器代碼統一,可自動化同步管理,通過資料庫中的配置辨別唯一主機,主機負責一些日常初始化及清理動作。每台伺服器可以分别設定自動抓取任務。
系統根據搜尋參數配置自動生成搜尋URL組合,并可以通過一次運作後,将有結果資料的搜尋URL備份,下次從備份URL中取出運作,減少不必要的搜尋條件送出;
手動運作一次如果正常後可以設定定時任務,每天定時運作;
系統采用maven管理,應用采用UTF-8編碼。
軟體要求:
linux jdk 1.6 tomcat6+ mysql 5.5+ (InnoDB引擎,資料庫編碼UTF-8)
安裝部署及運作:
1、首先下載下傳項目源代碼;
2、根據自己情況修改properties檔案;
3、運作maven打包war;
4、部署到tomcat webapps目錄下
5、建立mysql賬号,并執行/scripts/create_database.sql 和/scripts/init.sql(需要根據自身情況修改)
6、分析要抓取的網站。可以通過WebSiteCrawlTest類來進行(收集配置資料)
7、配置搜尋引擎、搜尋引擎參數、清單頁面配置
8、可選擇實作資料抽取類,參考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask
9、初始化搜尋URL參數http://localhost:8080/SpiderVertical/admin/createurl/form
10、執行抓取http://localhost:8080/SpiderVertical/admin/spider/form
11、檢視運作進度http://localhost:8080/SpiderVertical/admin/statis
12、運作完檢視資料結果http://localhost:8080/SpiderVertical/admin/spider/view_tables
注意:使用系統請遵守Robots協定
有問題請發送mail到:[email protected]