jsoup過濾特殊字元

2023-04-25 09:39:13

最近我在做一個項目時，要展示一個網站摘要，但是出現了一些亂七八糟的代碼，經過考究原來是特殊字元未進行過濾所導緻的

後來我想到用jsoup來過濾，需要導入的jar包是jsoup-1.7.2.jar

該代碼如下：

@Override

public String filterContent(final String content) {

final String text=content;

Document doc=Jsoup.parse(text.replaceAll("\"", ""));

return Jsoup.parse(doc.text()).text();

}

jsoup的介紹如下：

它可以解析和周遊一個html文檔

如何解析一個HTML文檔：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

其解析器能夠盡最大可能從你提供的HTML文檔來創見一個幹淨的解析結果，無論HTML的格式是否完整。比如它可以處理：

1---沒有關閉的标簽 (比如：

<p>Lorem <p>Ipsum

parses to

<p>Lorem</p> <p>Ipsum</p>

)

2---隐式标簽 (比如. 它可以自動将

<td>Table data</td>

包裝成

<table><tr><td>?

)

3---建立可靠的文檔結構（html标簽包含head 和 body，在head隻出現恰當的元素）

jsoup過濾特殊字元

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method