天天看點

Java 爬蟲工具/開源API對比

注:基于網上收集到的資訊,未經代碼試驗過。

名稱 分類 優點 缺點 Git 評價
Apache Nutch 搜尋引擎 分布式(依賴hadoop),為搜尋引擎設計 重量級,用于精抽取會低效,Nutch插件調試困難 老大級
Spiderman 爬蟲 微核心+插件式架構,重配置(無需寫代碼),多線程 使用者太少 star 525 | fork 326
webmagic 爬蟲 使用了HttpClient,支援多線程抓取,分布式抓取 JS動态加載要使用如PhantomJS、Selenium,使用者太少 薦,star 406 | fork 225
WebCollector 2 爬蟲 可用于分頁及AJAX的周遊政策,內建selenium進而支援JS,支援多代理随機切換 使用者太少 薦,star 29 | fork 32
Crawljax 爬蟲 支援Ajax 樹回溯性能問題 star 222 | fork 123
OWASP AJAX Crawling Tool 爬蟲 支援Ajax(用到Selenium) ? -
jsoup HTML解析器 HTML解析器 - 老大級
HttpComponents(即原HttpClient) 網絡工具包 實作了所有 HTTP 的方法(GET,POST,PUT,HEAD 等),支援代理 - 老大級
Htmlunit 網絡工具包 支援JS,JUnit 的擴充測試架構,将傳回文檔模拟成 HTML - 老大級
selenium2(WebClient) 網絡工具包 輔助動态爬蟲(內建Htmlunit、phantomjs) - -
phantomjs 伺服器端JS 輔助動态爬蟲,JS WebKit,無需浏覽器Web測試,頁面通路自動化 - star 14210 | fork 2695