天天看點

jsoup:一款使用 Java 語言開發的 HTML 解析器

jsoup 是一個用于處理真實世界的HTML的Java庫。

它提供了一個非常友善的API來提取和操作資料,使用最好的DOM,CSS和類似jquery的方法。jsoup 實作了 WHATWG HTML5 規範,并将 HTML 解析為與現代浏覽器相同的 DOM。

從URL,檔案或字元串中刮取和解析HTML

使用DOM周遊或CSS選擇器查找和提取資料

操縱HTML元素,屬性和文本

清除使用者送出的内容與安全的白名單,以防止XSS攻擊

輸出整齊的HTML

jsoup被設計用來處理在站外發現的各種HTML;從原始和驗證,到無效标簽湯;jsoup将建立一個合理的解析樹。

jsoup 有一個不足之處就是不支援JS。