天天看點

一個簡單的java爬蟲例子

最近在學習爬蟲技術,以此來記錄一下

我使用的是Jsoup方式來爬取,爬取的是一個小說網站

導入jsoup包:

下載下傳位址:https://jsoup.org/download

代碼如下:

public static void test() throws Exception{
		String url = "https://www.x23us.com/html/74/74795/";
		Document document = Jsoup.connect(url)
				.timeout(6000)//延時時間設定為6s
				.get();//請求url的方式
		//若HTML文檔包含相對URLs路徑,需要将這些相對路徑轉換成絕對路徑的URLs
		document.setBaseUri(url);//指定base URI
		//通過Document的select方法擷取屬性結點集合
		Elements elements = document.select("#at .L a");
		//System.out.println(elements);
		for(Element element:elements){
			// element.absUrl("href") 擷取每個href的絕對路徑
			System.out.println(element.text() + "--" + element.absUrl("href"));
		}
	}
	public static void main(String[] args) throws Exception {
		test();
	}
           

部分爬取結果:

一個簡單的java爬蟲例子

後期會繼續更新。。。