console: heritrix的控制台,會顯示heritrix的抓取任務和配置設定給heritrix的heap使用情況
jobs:heritrix的抓取任務界面,比如建立抓取任務,已挂起的任務,已完成的任務統計
profiles:heritrix抓取任務相關的配置
logs:heritrix的運作日志
reports:heritrix的統計報表
setup:heritrix執行個體管理界面以及heritrix背景登入帳号密碼修改
help:heritrix的使用幫助文檔
首先我們需要切到jobs界面,建立一個job,如圖:
根據一個已經存在的job建立抓取任務
2. 根據一個抓取任務備份來建立抓取任務
3. 根據配置建立抓取任務
4. 按照預設方式建立抓取任務
asd
一般我們選擇第3種建立方式:
關于settings裡相關配置項的含義解釋說明請看下面這張圖:
修改好後送出建立job,然後就能切到console界面點選start來啟動抓取任務進行頁面抓取
抓取到的網頁預設儲存在heritrix_hone\jobs目錄下,我們建立的每個job都會在jobs目錄下生成一個檔案夾,命名方式為job名稱+目前時間戳的方式,如圖:
雖然heritrix的web背景是全英文的,但我覺得沒什麼使用難度,你們多點點它的功能,從宏觀上多感受下heritrix的強大之處。最後是多閱讀下help界面裡列出的一些幫助文檔,這是你學習heritrix最寶貴的資料:
益達q-q: 7-3-6-0-3-1-3-0-5
益達的q-q群: 1-0-5-0-9-8-8-0-6
轉載:http://iamyida.iteye.com/blog/2236804