1.簡介
WebMagic是一個非常優秀的Java開源爬蟲架構,其功能覆寫了網絡爬蟲的整個生命周期,包括URL提取、網頁内容下載下傳、網頁内容解析和資料存儲。WebMagic項目的源碼可以在github上進行下載下傳。
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>