jsoup 是一個用于處理真實世界的HTML的Java庫。
它提供了一個非常友善的API來提取和操作資料,使用最好的DOM,CSS和類似jquery的方法。jsoup 實作了 WHATWG HTML5 規範,并将 HTML 解析為與現代浏覽器相同的 DOM。
從URL,檔案或字元串中刮取和解析HTML
使用DOM周遊或CSS選擇器查找和提取資料
操縱HTML元素,屬性和文本
清除使用者送出的内容與安全的白名單,以防止XSS攻擊
輸出整齊的HTML
jsoup被設計用來處理在站外發現的各種HTML;從原始和驗證,到無效标簽湯;jsoup将建立一個合理的解析樹。
jsoup 有一個不足之處就是不支援JS。