推薦幾個github上優秀的java爬蟲項目

2023-05-08 11:14:36

1.nutch

位址：apache/nutch · GitHub

apache下的開源爬蟲程式，功能豐富，文檔完整。有資料抓取解析以及存儲的子產品。

2.Heritrix

位址：internetarchive/heritrix3 · GitHub

很早就有了，經曆過很多次更新，使用的人比較多，功能齊全，文檔完整，網上的資料也多。有自己的web管理控制台，包含了一個HTTP 伺服器。操作者可以通過選擇Crawler指令來操作控制台。

3.crawler4j

位址：yasserg/crawler4j · GitHub

因為隻擁有爬蟲的核心功能，是以上手極為簡單，幾分鐘就可以寫一個多線程爬蟲程式。

當然，上面說的nutch有的功能比如資料存儲不代表Heritrix沒有，反之亦然。具體使用哪個合适還需要仔細閱讀文檔并配合實驗才能下結論啊~

還有比如JSpider，WebEater，Java Web Crawler，WebLech，Ex-Crawler，JoBo等等