天天看點

jsoup過濾特殊字元

最近我在做一個項目時,要展示一個網站摘要,但是出現了一些亂七八糟的代碼,經過考究原來是特殊字元未進行過濾所導緻的

後來我想到用jsoup來過濾,需要導入的jar包是jsoup-1.7.2.jar

該代碼如下:

@Override

public String filterContent(final String content) {

final String text=content;

Document doc=Jsoup.parse(text.replaceAll("\"", ""));

return Jsoup.parse(doc.text()).text();

}

jsoup的介紹如下:

它可以解析和周遊一個html文檔

如何解析一個HTML文檔:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
           

其解析器能夠盡最大可能從你提供的HTML文檔來創見一個幹淨的解析結果,無論HTML的格式是否完整。比如它可以處理:

1---沒有關閉的标簽 (比如:

<p>Lorem <p>Ipsum

parses to

<p>Lorem</p> <p>Ipsum</p>

)

2---隐式标簽 (比如. 它可以自動将

<td>Table data</td>

包裝成

<table><tr><td>?

)

3---建立可靠的文檔結構(html标簽包含head 和 body,在head隻出現恰當的元素)