最近在學習爬蟲技術,以此來記錄一下
我使用的是Jsoup方式來爬取,爬取的是一個小說網站
導入jsoup包:
下載下傳位址:https://jsoup.org/download
代碼如下:
public static void test() throws Exception{
String url = "https://www.x23us.com/html/74/74795/";
Document document = Jsoup.connect(url)
.timeout(6000)//延時時間設定為6s
.get();//請求url的方式
//若HTML文檔包含相對URLs路徑,需要将這些相對路徑轉換成絕對路徑的URLs
document.setBaseUri(url);//指定base URI
//通過Document的select方法擷取屬性結點集合
Elements elements = document.select("#at .L a");
//System.out.println(elements);
for(Element element:elements){
// element.absUrl("href") 擷取每個href的絕對路徑
System.out.println(element.text() + "--" + element.absUrl("href"));
}
}
public static void main(String[] args) throws Exception {
test();
}
部分爬取結果:

後期會繼續更新。。。