Java上的jQuery？解析HTML利器—Jsoup

　　也許大家有過在java運作平台上解析html的經曆，通常的方式是将HTML以XML的形式進行結點解析，調用java本身的xml解析類庫。這樣的方式很容易了解并且很友善，但習慣用jQuery的各位是否在感歎能否在java中像jQuery一樣擷取标簽内容，實作DOM操作呢？終于，發現了一個html解析利器，jsoup！

　　初次用jsoup的時候是在業餘時間做一款漫畫下載下傳器的時候發現的，做漫畫下載下傳器時，因無法得到網站的API接口，是以隻能通過解析HTML的方式獲得網頁内容與圖檔，在網絡上找到jsoup以後發現習慣于jquery方式程式設計的我很快就可以适應jsoup的選擇器，得到内容的方式也很容易，下面我們就開始學習神奇的jsoup。

1.下載下傳jsoup

大家可以去jsoup的官網下載下傳jsoup，或者點選jsoup-1.7.3.jar(官方下載下傳位址)

2.jsoup初體驗

　　第一步擷取html文檔對象。

　　Document對象:用于接收html的文檔内容

　　Jsoup.connect(String url).get():用于指定網址，傳回值為Document對象

　　ps:如果需要解析通路較慢的網站的話需要加上timeout方法，以放抛出RuntimeException異常。

1  //文檔對象，用來接收html頁面
2  Document document = null;
3  try {
4      //擷取指定網址的頁面内容
5      document = Jsoup.connect("http://www.baidu.com/").timeout(50000).get();
6  } catch (IOException e) {
7      e.printStackTrace();
8  }

　　另外我們除了通過網址的到HTML文檔對象外還可以通過讀取HTML檔案來擷取HTML文檔，方法如下:

//獲得檔案對象
File input = new File("/tmp/input.html");
//獲得文檔對象
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

　上面這段代碼很好了解,parse是Jsoup類的靜态方法，用于加載和解析HTML文檔，其中的三個參數分别為:

　　參數1:要擷取的檔案對象

　　參數2:HTML文檔的文字編碼例如UTF-8，ISO 8859-1，GBK等等

　　參數3:用于相對路徑的字首

　　第二步通過選擇器得到想要的Dom結點

　　jsoup提供了豐富的選擇器，選擇器的友善程度媲美jQuery，其中的篩選選擇器，父選擇器等更是jQuery上本身就擁有的，具體該怎麼用這個選擇器呢？相信習慣jQuery的童鞋很快就會适應jsoup選擇器的。

　　首先我們需要認識一下Elements對象，Elements類實作了java.lang.List接口，主要用于儲存選擇器選擇到的結點。

　　接下來我們來看一下Document對象擷取結點的步驟:

1 //通過Document的select方法擷取class為abc的Elements結點集合
2 Elements elements = document.select(".abc");
3 //得到結點的第一個對象
4 Element element = elements.get(0);
5 //擷取想要的屬性值
6 String href = element.attr("href");

　　共三步，就可以得到想要的結果了，是不是很友善呢？

　　并且第二個步驟是可以省略的，下面讓我們來看一下Elements的attr()方法的源碼

/**
     Get an attribute value from the first matched element that has the attribute.
     @param attributeKey The attribute key.
     @return The attribute value from the first matched element that has the attribute.. If no elements were matched (isEmpty() ==      true),
     or if the no elements have the attribute, returns empty string.
     @see #hasAttr(String)
     */
    public String attr(String attributeKey) {
        for (Element element : contents) {
            if (element.hasAttr(attributeKey))
                return element.attr(attributeKey);
        }
        return "";
    }

上邊兩個方法可以清除的看到當我們輸入結點名稱時，他會自動周遊所有集合内所有結點是否擁有此屬性，如果擁有此屬性即跳出傳回結果，如無法找到含有此屬性的結點則傳回 Empty。

　　jsoup的選擇器除了上面的例子裡的類選擇器還有下面的豐富選擇器，大家可根據需要來選擇使用。

Selector選擇器

tagname : 通過标簽查找元素，比如： a
ns|tag : 通過标簽在命名空間查找元素，比如：可以用 fb|name 文法來查找 <fb:name> 元素
#id : 通過ID查找元素，比如： #logo
.class : 通過class名稱查找元素，比如： .masthead
[attribute] : 利用屬性查找元素，比如： [href]
[^attr] : 利用屬性名字首來查找元素，比如：可以用 [^data-] 來查找帶有HTML5 Dataset屬性的元素
[attr=value] : 利用屬性值來查找元素，比如： [width=500]
[attr^=value] , [attr$=value] [attr*=value] : 利用比對屬性值開頭、結尾或包含屬性值來查找元素，比如： [href*=/path/]
[attr~=regex] : 利用屬性值比對正規表達式來查找元素，比如： img[src~=(?i)\.(png|jpe?g)]
* : 這個符号将比對所有元素

Selector選擇器組合使用

el#id : 元素+ID，比如： div#logo
el.class : 元素+class，比如： div.masthead
el[attr] a[href]
任意組合，比如： a[href].highlight
ancestor child : 查找某個元素下子元素，比如：可以用 .body p 查找在"body"元素下的所有 p 元素
parent > child : 查找某個父元素下的直接子元素，比如：可以用 div.content > p 查找 p 元素，也可以用 body > * 查找body标簽下所有直接子元素
siblingA + siblingB : 查找在A元素之前第一個同級元素B，比如： div.head + div
siblingA ~ siblingX : 查找A元素之前的同級X元素，比如： h1 ~ p
el, el, el :多個選擇器組合，查找比對任一選擇器的唯一進制素，例如： div.masthead, div.logo

僞選擇器selectors

:lt(n) : 查找哪些元素的同級索引值（它的位置在DOM樹中是相對于它的父節點）小于n，比如： td:lt(3) 表示小于三列的元素
:gt(n) :查找哪些元素的同級索引值大于 n ，比如 ： div p:gt(2) 表示哪些div中有包含2個以上的p元素
:eq(n) : 查找哪些元素的同級索引值與 n 相等，比如： form input:eq(1) 表示包含一個input标簽的Form元素
:has(seletor) : 查找比對選擇器包含元素的元素，比如： div:has(p) 表示哪些div包含了p元素
:not(selector) : 查找與選擇器不比對的元素，比如： div:not(.logo) 表示不包含 class="logo" 元素的所有 div 清單
:contains(text) : 查找包含給定文本的元素，搜尋不區分大不寫，比如： p:contains(jsoup)
:containsOwn(text) : 查找直接包含給定文本的元素
:matches(regex) : 查找哪些元素的文本比對指定的正規表達式，比如： div:matches((?i)login)
:matchesOwn(regex) : 查找自身包含文本比對指定正規表達式的元素
注意：上述僞選擇器索引是從0開始的，也就是說第一個元素索引值為0，第二個元素index為1等

為了照顧習慣js原生獲得結點方式的朋友們，jsoup還加入了許多原生方法名，例如:

1 //通過ID獲得結點，傳回值為Element而不是Elements
2 getElementById(String id)
3 //通過結點名傳回節點集
4 getElementsByTag(String tag)
5 //通過類傳回結點集
6 getElementsByClass(String className)

　　第三步修改結點屬性

　　對于僅僅要讀取資料的朋友們來說上面兩步已經足以完成需求，而對于有修改文檔内容需求的來說Jsoup同樣提供了強大的屬性指派，例如:

//為結點添加内容
element.html(内容);
//添加屬性
element.attr(屬性名,屬性值)
//添加類
element.addClass(類名)

　　修改結點屬性的方式也與jQuery類似，也很容易了解。

如果大家已經了解了jsoup的基礎操作的話，可以自己動手試試解析一個HTML文檔，如果有問題歡迎跟帖，另外附上兩個jsoup教程的網址:

jsoup英文版api: http://jsoup.org/apidocs/

英文好的同學可以去瞧瞧，jsoup實用的方法還有很多的哦！

jsoup中文版教程:http://www.open-open.com/jsoup/parsing-a-document.htm

^_^

Java上的jQuery？解析HTML利器—Jsoup

Selector選擇器

Selector選擇器組合使用

僞選擇器selectors

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method