天天看點

招聘資訊抓取系統E3Labor V1.0.2

上招聘網執行查找公司招聘資訊,以1分鐘翻動一頁的速度緊盯螢幕,翻看200頁内容,需要多長時間?3小時!現在可以說NO了!

本抓取系統可以抓取國内各大招聘網站的最新招聘資訊,進行詳盡的分類識别,将之儲存在本地硬碟中。根據網站的響應快慢,平均抓取速度為15分鐘4000條以上的招聘資訊的資料,同時包含公司介紹和職位介紹。

您現在隻需要花費15分鐘時間,就可以喝着咖啡,離線浏覽本軟體為您擷取的最新招聘資訊了。

軟體名稱:E3Labor(Employment/Electronic/Especial Labor)

版本:1.0.2

作者:千山獨行

簡介:本軟體使用純Java語言開發。首先使用目前先進的web2.0平台新特性及正規表達式比對方式,根據配置檔案中指出的網址對各大網站的實時資料進行抓取;然後進行詳盡的分析并儲存,是一個Spider爬蟲程式,同時提供了内容管理系統(CMS)的相關功能。

目前提供的功能:

1.配置簡便,隻需要兩個配置檔案即可;可對配置檔案中指出的網站進行全面的深度抓取和分析;

2.配置工作完成後,可開啟是否定時功能,定時對網站的内容進行抓取;

3.實時動态抓取各大招聘網站的招聘職位的詳細資訊并進行全面細緻的分類,但是并不隻限于抓取此類型網站;

4.對抓取到的中繼資料進行詳盡的分析,可選擇存儲至資料庫,本地硬碟或者網絡硬碟等方式;

5.可對抓取的内容/網頁進行七大類型的分類識别并儲存(儲存主要針對本地硬碟和網絡硬碟),例如根據公司性質,公司規模,工作地點等進行分類;

6.對于儲存至硬碟的存儲方式,分類後的内容,最多可嵌套構成3級目錄,儲存至使用者指定檔案夾下;

7.使用資料字典方式對抓取的内容進行分類識别及過濾,可通過實時修改資料字典實作不同分類過濾等功能,是以可輕松應對網站改版後的實時抓取工作;

8.使用資料字典識别黑名單公司及需要重點關注的招聘機關等功能;

9.使用單線程抓取方式,對微機性能幾乎沒有特殊要求;初步測試在CPU為賽揚2G,記憶體512MB的桌上型電腦上,20分鐘即可抓取,分析并分類儲存6000條以上資料(此資料和網站響應速度有關);程式運作時記憶體耗費始終保持在40MB左右;

10.全面使用嗅探器方式定制抓取模式,可使用嗅探器根據自身喜好抓取需要的網頁。例如抓取截止日期為某年某月某日之後的網頁等;

11.全程使用嗅探器進行跟蹤評估,當發現抓取到的網頁不符合要求時,程式會安全退出;

12.運作時異常抛出機制完備,當某條資料抓取分析錯誤時,并不影響整個抓取工作的進行;

13.提供可擴充接口,使用者可根據實際需要,自行開發新的抓取模式并編碼實作自己的網站抓取程式,以适應千變萬化的網際網路站;

注:此試用版僅抓取某個國内知名招聘網站的800條銷售類最新招聘資料,然後分類儲存到本地硬碟名為E3LaborCareerInfo的根目錄下。

實作技術:java

運作檔案:E3Labor-1.0.2-eval.exe

運作平台:windows 2k,windows xp等win作業系統,需要jre1.5及後續版本的java運作環境,linux及unix系統下未進行測試