使用jsoup寫網絡爬蟲時,通過Jsoup.connect(url).get()擷取html頁面,在解析的過程中經常出現 空格亂碼問題,其他中文字元能夠正常輸出
下面代碼給出了一個例子,解決空格亂碼問題
public void parseUrl(String url) {
try {
Document doc = Jsoup.connect(url).get();
// String text = doc.select("div.txt_p").text(); 沒有處理 空格之前
String text = doc.select("div.txt_p").text().replace(Jsoup.parse(" ").text(), " ");
//使用replace(Jsoup.parse(" ").text(), " "); 将 替換為普通的空格
//div.txt_p為選擇解析html頁面的一個屬性
System.out.println(text );
} catch (IOException e) {
e.printStackTrace();
}
}