最近我在做一個項目時,要展示一個網站摘要,但是出現了一些亂七八糟的代碼,經過考究原來是特殊字元未進行過濾所導緻的
後來我想到用jsoup來過濾,需要導入的jar包是jsoup-1.7.2.jar
該代碼如下:
@Override
public String filterContent(final String content) {
final String text=content;
Document doc=Jsoup.parse(text.replaceAll("\"", ""));
return Jsoup.parse(doc.text()).text();
}
jsoup的介紹如下:
它可以解析和周遊一個html文檔
如何解析一個HTML文檔:
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
其解析器能夠盡最大可能從你提供的HTML文檔來創見一個幹淨的解析結果,無論HTML的格式是否完整。比如它可以處理:
1---沒有關閉的标簽 (比如:
<p>Lorem <p>Ipsum
parses to
<p>Lorem</p> <p>Ipsum</p>
)
2---隐式标簽 (比如. 它可以自動将
<td>Table data</td>
包裝成
<table><tr><td>?
)
3---建立可靠的文檔結構(html标簽包含head 和 body,在head隻出現恰當的元素)