天天看點

推薦幾個github上優秀的java爬蟲項目

1.nutch 

位址:apache/nutch · GitHub 

apache下的開源爬蟲程式,功能豐富,文檔完整。有資料抓取解析以及存儲的子產品。 

2.Heritrix 

位址:internetarchive/heritrix3 · GitHub 

很早就有了,經曆過很多次更新,使用的人比較多,功能齊全,文檔完整,網上的資料也多。有自己的web管理控制台,包含了一個HTTP 伺服器。操作者可以通過選擇Crawler指令來操作控制台。 

3.crawler4j 

位址:yasserg/crawler4j · GitHub 

因為隻擁有爬蟲的核心功能,是以上手極為簡單,幾分鐘就可以寫一個多線程爬蟲程式。 

當然,上面說的nutch有的功能比如資料存儲不代表Heritrix沒有,反之亦然。具體使用哪個合适還需要仔細閱讀文檔并配合實驗才能下結論啊~ 

還有比如JSpider,WebEater,Java Web Crawler,WebLech,Ex-Crawler,JoBo等等