天天看點

Eclipse中配置使用Heritrix-1.14.4

Eclipse中配置使用Heritrix-1.14.4

1. 下載下傳并解壓heritrix-1.14.4-src.zip和heritrix-1.14.4.zip

2. 在Eclipse中建立java project,項目名定為heritrix_getstart

3. 将解壓後的heritrix-1.14.4-src.zip中src/java/下的com,org,st檔案夾複制到工程的src目錄下

4. 将src/conf下的modules,profiles,selftest檔案夾和heritrix.propertries,jndi.properities檔案複制到工程的src目錄下

5. 解壓heritrix-1.14.4-zip将webapps檔案夾複制到工程根目錄下

6. 如圖:

Eclipse中配置使用Heritrix-1.14.4

7. 打開工程中的heritrix.propertries檔案修改以下配置項

a) heritrix.version = 1.14.4,配置heritrix版本号

b) heritrix.jobsdir = jobs,配置爬取的内容的放置檔案夾

c) heritrix.cmdline.admin = username:password,配置webUI登入的使用者名和密碼

d) heritrix.cmdline.port = 8888,配置webUI的登入端口

8. 将lib檔案夾下的後有jar包加入到工程的classpath中

9. 在工程中找到org.archive.crawler下的Heritrix.java運作

10.

Eclipse中配置使用Heritrix-1.14.4

11.打開浏覽器,輸入位址:http://localhost:8888輸入使用者名和密碼就可以登入到背景

Eclipse中配置使用Heritrix-1.14.4

可能遇到的問題

thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable

解決方法:到heritrix.1.14.4.jar包中将檔案org/archive/util/tlds-alpha-by-domain.txt複制到工程中的org/archive/util目錄下即可

Eclipse中導入Heritrix,報錯找不到類 sun.net.www.protocol.file.FileURLConnection

第一次用Heritrix,按照網上看到的用法導入Heritrix到Eclipse 。結果在org.archive.crawler.Heritrix 中報了這個錯誤。結果我在JDK自帶的jar又可以找到這個類。

後來發現,原來這個sun包是受保護的包,預設隻有sun公司的軟體才能使用。Eclipse會報錯,然後把對保護使用waring就可以了。

具體做法:

Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning