Jsoup.connect(url).get()解析html頁面空格&bsp亂碼問題

2023-07-18 02:40:37

使用jsoup寫網絡爬蟲時，通過Jsoup.connect(url).get()擷取html頁面，在解析的過程中經常出現&nbsp空格亂碼問題，其他中文字元能夠正常輸出

下面代碼給出了一個例子，解決空格亂碼問題

public void parseUrl(String url) {

try {

Document doc = Jsoup.connect(url).get();

// String text = doc.select("div.txt_p").text(); 沒有處理&nbsp空格之前

String text = doc.select("div.txt_p").text().replace(Jsoup.parse(" ").text(), " ");

//使用replace(Jsoup.parse(" ").text(), " "); 将&nbsp替換為普通的空格

//div.txt_p為選擇解析html頁面的一個屬性

System.out.println(text );

} catch (IOException e) {

e.printStackTrace();

}

繼續閱讀