1.nutch
位址:apache/nutch · GitHub
apache下的開源爬蟲程式,功能豐富,文檔完整。有資料抓取解析以及存儲的子產品。
2.Heritrix
位址:internetarchive/heritrix3 · GitHub
很早就有了,經曆過很多次更新,使用的人比較多,功能齊全,文檔完整,網上的資料也多。有自己的web管理控制台,包含了一個HTTP 伺服器。操作者可以通過選擇Crawler指令來操作控制台。
3.crawler4j
位址:yasserg/crawler4j · GitHub
因為隻擁有爬蟲的核心功能,是以上手極為簡單,幾分鐘就可以寫一個多線程爬蟲程式。
當然,上面說的nutch有的功能比如資料存儲不代表Heritrix沒有,反之亦然。具體使用哪個合适還需要仔細閱讀文檔并配合實驗才能下結論啊~
還有比如JSpider,WebEater,Java Web Crawler,WebLech,Ex-Crawler,JoBo等等