天天看點

java讀取網頁中的内容_【Java】讀取網頁中的内容

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.*;

public class loadurl {

public static void main(String args[]) {

String a = null;

try {

String url = "(這裡替換成任意網頁的網址)";

BufferedReader in = new BufferedReader(new InputStreamReader(

new URL(url).openConnection().getInputStream(), "GB2312"));//GB2312可以根據需要替換成要讀取網頁的編碼

while ((a = in.readLine()) != null) {

System.out.println(a);

}

} catch (MalformedURLException e) {

} catch (IOException e) {

}

}

}

以上的代碼程式是把一個網頁的源代碼,包括HTML與XML讀取到JAVA的一個字元串String a中。

Java中字元串String類型的空間很大,基本能夠容納一個網頁源代碼的内容。

從網頁讀取内容同樣是對于輸入流的操作。

不同于标準的輸入源,在:BufferedReader in = new BufferedReader(new InputStreamReader(...))

InputStreamReader中輸入System.in就可以。此處的輸入源應該為:

(new URL(url).openConnection().getInputStream(), "GB2312")

之後的操作與處理與載入标準輸入源完全相同。

BufferedReader在JAVA中要求必須捕獲IOException異常,而使用URL源除了必須引入java.net.*包之外,還必須捕獲MalformedURLException異常。