注:基于網上收集到的資訊,未經代碼試驗過。
名稱 | 分類 | 優點 | 缺點 | Git 評價 |
Apache Nutch | 搜尋引擎 | 分布式(依賴hadoop),為搜尋引擎設計 | 重量級,用于精抽取會低效,Nutch插件調試困難 | 老大級 |
Spiderman | 爬蟲 | 微核心+插件式架構,重配置(無需寫代碼),多線程 | 使用者太少 | star 525 | fork 326 |
webmagic | 爬蟲 | 使用了HttpClient,支援多線程抓取,分布式抓取 | JS動态加載要使用如PhantomJS、Selenium,使用者太少 | 薦,star 406 | fork 225 |
WebCollector 2 | 爬蟲 | 可用于分頁及AJAX的周遊政策,內建selenium進而支援JS,支援多代理随機切換 | 使用者太少 | 薦,star 29 | fork 32 |
Crawljax | 爬蟲 | 支援Ajax | 樹回溯性能問題 | star 222 | fork 123 |
OWASP AJAX Crawling Tool | 爬蟲 | 支援Ajax(用到Selenium) | ? | - |
jsoup | HTML解析器 | HTML解析器 | - | 老大級 |
HttpComponents(即原HttpClient) | 網絡工具包 | 實作了所有 HTTP 的方法(GET,POST,PUT,HEAD 等),支援代理 | - | 老大級 |
Htmlunit | 網絡工具包 | 支援JS,JUnit 的擴充測試架構,将傳回文檔模拟成 HTML | - | 老大級 |
selenium2(WebClient) | 網絡工具包 | 輔助動态爬蟲(內建Htmlunit、phantomjs) | - | - |
phantomjs | 伺服器端JS | 輔助動态爬蟲,JS WebKit,無需浏覽器Web測試,頁面通路自動化 | - | star 14210 | fork 2695 |