天天看點

Jsoup.connect(url).get()解析html頁面空格&bsp亂碼問題

使用jsoup寫網絡爬蟲時,通過Jsoup.connect(url).get()擷取html頁面,在解析的過程中經常出現&nbsp空格亂碼問題,其他中文字元能夠正常輸出

下面代碼給出了一個例子,解決空格亂碼問題

public void parseUrl(String url) {  

       try {  

           Document doc = Jsoup.connect(url).get(); 

                    // String text = doc.select("div.txt_p").text();  沒有處理&nbsp空格之前

           String text = doc.select("div.txt_p").text().replace(Jsoup.parse(" ").text(), " "); 

                   //使用replace(Jsoup.parse(" ").text(), " "); 将&nbsp替換為普通的空格

                   //div.txt_p為選擇解析html頁面的一個屬性

                   System.out.println(text );

       } catch (IOException e) {  

           e.printStackTrace();  

       }  

   }