天天看點

Heritrix 1.14.3 運作環境配置

heritrix好像已經有3.0的版本了,但是sourceforge上還是給1.14.3的下載下傳連結,3.0版本的弄不出來,目錄結構改動太大了,連heritrix.properties都找不到了,還是用1.14.3來做爬蟲吧。

1、下載下傳heritrix-1.14.3-src.zip和heritrix-1.14.3.zip兩個壓縮包

2、在Eclipse下建立Java項目,取名Heritrix-1.14.3

3、複制heritrix-1.14.3-src包下面src/java檔案夾下org、com、st三個檔案夾到項目根目錄

4、複制heritrix-1.14.3-src包下src下resources檔案夾到項目根目錄

5、複制heritrix-1.14.3-src包下conf到項目根目錄

6、複制heritrix-1.14.3-src包下lib檔案夾到項目根目錄

7、複制heritrix-1.14.3包下webapps檔案夾到項目根目錄

8、修改項目conf下heritrix.properties檔案

       @[email protected] 改為 1.14.3

      heritrix.cmdline.admin = 改為 heritrix.cmdline.admin = username:password(使用者名:密碼)

      heritrix.cmdline.port = 改為 heritrix.cmdline.port = 8080

9、将lib目錄下的所有.jar檔案添加到classpath

10、/src/org.archive.crawler包下Heritrix.java會報錯,原因是引用了sun.net.www.protocol.file.FileURLConnection這個受保護包下的類,設定eclipse對引用限制包隻警告。

在preference->java->complier->errors/warning->deprecated and restricted API

把 Forbidden reference 的Error改成warning

11、在項目/src/org.archive.crawler包下Heritrix.java上點選右鍵選運作方式->運作配置->classpath->點選右邊的ADVANCED->ADD FOLDER->選擇根目錄下的conf->RUN

控制台出現一下資訊說明已成功.

12:18:12.703 EVENT Starting Jetty/4.2.23

12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]

12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090

12:18:13.062 EVENT Started [email protected]

Heritrix version: 1.14.3

這時你可以打開浏覽器,輸入http://localhost:8090或http://localhost:8080

輸入剛才設的使用者名和密碼就可以登入Heritrix