天天看點

10分鐘掌握XML、JSON及其解析(上) 引言 一、XML 引言 一、XML

來源: Long Luo 的部落格

連結:http://longluo.github.io/blog/20141031/master-XML-JSON-and-how-to-aprse-them-in-10-minutes/

引言

NOKIA 有句著名的廣告語:“科技以人為本”。任何技術都是為了滿足人的生産生活需要而産生的。具體到小小的一個手機,裡面蘊含的技術也是浩如煙海,是幾千年來人類科技的結晶,單個人窮其一生也未必能掌握其一角。不過個人一直認為基本的技術和思想是放之四海而皆準的,許多技術未必需要我們從頭到尾再研究一遍,我們要做的就是站在巨人的肩膀上,利用其成果來為人們的需求服務。

随着移動網際網路時代的大潮,越來越多的App不光是需要和網絡伺服器進行資料傳輸和互動,也需要和其他 App 進行資料傳遞。承擔App與網絡來進行傳輸和存儲資料的一般是XML或者JSON。在移動網際網路時代,XML和JSON很重要。

最近一段時間,個人綜合了之前對XML、JSON的一些了解,參考了相關資料,再結合視訊的代碼,把自己的一些思考融入了這篇總結文檔中,同時嘗試用通俗诙諧的語言風格來闡述,期望能給感興趣的讀者帶來幫助。

為了不和時代落伍,我們必須要學習 XML 和 JSON,但同時它們也很容易學習,Let’s start

一、XML

XML即可擴充标記語言(eXtensible Markup Language)。标記是指計算機所能了解的資訊符号,通過此種标記,計算機之間可以處理包含各種資訊的文章等。如何定義這些标記,既可以選擇國際通用的标記語言,比如HTML,也可以使用象XML這樣由相關人士自由決定的标記語言,這就是語言的可擴充性。XML是從SGML中簡化修改出來的。它主要用到的有XML、XSL和XPath等。

上面這段是對XML的一個基本定義,一個被廣泛接受的說明。簡單說,XML就是一種資料的描述語言,雖然它是語言,但是通常情況下,它并不具備常見語言的基本功能——被計算機識别并運作。隻有依靠另一種語言,來解釋它,使它達到你想要的效果或被計算機所接受。

記住以下幾點就行了:

  • XML是一種标記語言,很類似HTML
  • XML的設計宗旨是傳輸資料,而非顯示資料
  • XML标簽沒有被預定義。您需要自行定義标簽。
  • XML被設計為具有自我描述性。
  • XML是W3C的推薦标準

總結:

XML是獨立于軟體和硬體的資訊傳輸工具。 目前,XML在Web中起到的作用不會亞于一直作為 Web 基石的 HTML。 XML無所不在。XML是各種應用程式之間進行資料傳輸的最常用的工具,并且在資訊存儲和描述領域變得越來越流行。

1.1 XML屬性

1.1.1 XML與HTML的主要差異

  • XML不是HTML的替代。
  • XML和HTML為不同的目的而設計。
  • XML被設計為傳輸和存儲資料,其焦點是資料的内容。
  • HTML被設計用來顯示資料,其焦點是資料的外觀。
  • HTML旨在顯示資訊,而 XML 旨在傳輸資訊

1.1.2 XML是不作為的。

也許這有點難以了解,但是XML不會做任何事情。XML被設計用來結構化、存儲以及傳輸資訊。

下面是John寫給George的便簽,存儲為XML:

<note>

<to>George</to>

<from>John</from>

<heading>Reminder</heading>

<body>Don't forget the meeting!</body>

</note>

上面的這條便簽具有自我描述性。它擁有标題以及留言,同時包含了發送者和接受者的資訊。但是,這個 XML 文檔仍然沒有做任何事情。它僅僅是包裝在XML标簽中的純粹的資訊。我們需要編寫軟體或者程式,才能傳送、接收和顯示出這個文檔。

1.1.3 XML僅僅是純文字

XML沒什麼特别的。它僅僅是純文字而已。有能力處理純文字的軟體都可以處理XML。 不過,能夠讀懂 XML 的應用程式可以有針對性地處理 XML 的标簽。标簽的功能性意義依賴于應用程式的特性。

1.1.4 XML允許自定義标簽

上例中的标簽沒有在任何XML标準中定義過(比如和)。這些标簽是由文檔的創作者發明的。這是因為XML沒有預定義的标簽。

在HTML中使用的标簽(以及HTML的結構)是預定義的。HTML文檔隻使用在HTML标準中定義過的标簽(比如<p>,<h1> 等等)。

XML允許創作者定義自己的标簽和自己的文檔結構。

1.1.5 XML不是對HTML的替代

XML是對HTML的補充。

XML不會替代HTML,了解這一點很重要。在大多數 web 應用程式中,XML用于傳輸資料,而HTML用于格式化并顯示資料。

1.2 XML的文法

XML的文法規則很簡單,且很有邏輯。這些規則很容易學習,也很容易使用。

1.2.1 所有元素都必須有關閉标簽

在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽。 在HTML,經常會看到沒有關閉标簽的元素:

<p>This is a paragraph

<p>This is another paragraph

在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽:

<p>This is a paragraph</p>

<p>This is another paragraph</p>

注釋:您也許已經注意到XML聲明沒有關閉标簽。這不是錯誤。聲明不屬于XML本身的組成部分。它不是XML元素,也不需要關閉标簽。

1.2.2 XML标簽對大小寫敏感

XML元素使用XML标簽進行定義。

XML标簽對大小寫敏感。在XML中,标簽與标簽是不同的。

必須使用相同的大小寫來編寫打開标簽和關閉标簽:

<Message>這是錯誤的。</message>

<message>這是正确的。</message>

1.2.3 XML标簽對大小寫敏感

在 HTML 中,常會看到沒有正确嵌套的元素:

<b><i>This text is bold and italic</b></i>

在 XML中,所有元素都必須彼此正确地嵌套:

<b><i>This text is bold and italic</i></b>

在上例中,正确嵌套的意思是:由于<i>元素是在<b>元素内打開的,那麼它必須在<b>元素内關閉。

1.2.4 XML文檔必須有根元素

XML文檔必須有一個元素是所有其他元素的父元素。該元素稱為根元素。

<root>

  <child>

    <subchild>.....</subchild>

  </child>

</root>

1.2.5 XML的屬性值須加引号

與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。 在 XML 中,XML 的屬性值須加引号。請研究下面的兩個 XML 文檔。第一個是錯誤的,第二個是正确的:

<note date=08/08/2008>

<to>George</to>

<from>John</from>

</note>

<note date="08/08/2008">

<to>George</to>

<from>John</from>

</note>

1.2.6 實體引用

在 XML 中,一些字元擁有特殊的意義。 如果你把字元 “<” 放在 XML 元素中,會發生錯誤,這是因為解析器會把它當作新元素的開始。 這樣會産生 XML 錯誤:

<message>if salary < 1000 then</message>

為了避免這個錯誤,請用實體引用來代替 “<” 字元:

<message>if salary &lt; 1000 then</message>

在 XML 中,有 5 個預定義的實體引用:

&lt;    <   小于

&gt;    >   大于

&amp;   &   和号

'  '   單引号

&quot;  "   引号

注釋:在 XML 中,隻有字元 “<” 和 “&” 确實是非法的。大于号是合法的,但是用實體引用來代替它是一個好習慣。

1.2.7 XML中的注釋

在 XML 中編寫注釋的文法與 HTML 的文法很相似:

<!-- This is a comment -->

在 XML 中,空格會被保留 HTML 會把多個連續的空格字元裁減(合并)為一個:

HTML:   Hello           my name is David.

輸出: Hello my name is David. 在 XML 中,文檔中的空格不會被删節。

1.2.8 以 LF 存儲換行

在 Windows 應用程式中,換行通常以一對字元來存儲:回車符 (CR) 和換行符 (LF)。這對字元與打字機設定新行的動作有相似之處。在 Unix 應用程式中,新行以 LF 字元存儲。而 Macintosh 應用程式使用CR來存儲新行。

1.3 XML CDATA

所有XML文檔中的文本均會被解析器解析。

隻有CDATA區段(CDATA section)中的文本會被解析器忽略。

1.3.1 PCDATA

PCDATA指的是被解析的字元資料(Parsed Character Data)。

XML解析器通常會解析XML文檔中所有的文本。 當某個XML元素被解析時,其标簽之間的文本也會被解析:

<message>此文本也會被解析</message>

解析器之是以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的元素包含着另外的兩個元素(first和last):

<name><first>Bill</first><last>Gates</last></name>

而解析器會把它分解為像這樣的子元素:

<name>

   <first>Bill</first>

   <last>Gates</last>

</name>

1.3.2 轉義字元

非法的XML字元必須被替換為實體引用(entity reference)。

假如您在XML文檔中放置了一個類似 “<” 字元,那麼這個文檔會産生一個錯誤,這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫:

<message>if salary < 1000 then</message>

為了避免此類錯誤,需要把字元 “<” 替換為實體引用,就像這樣:

<message>if salary &lt; 1000 then</message>

在 XML 中有 5 個預定義的實體引用:

&lt;    <   小于

&gt;    >   大于

&amp;   &   和号

'  '   省略号

&quot;  "   引号

注釋:嚴格地講,在XML中僅有字元”<“和”&“是非法的。省略号、引号和大于号是合法的,但是把它們替換為實體引用是個好的習慣。

1.3.3 CDATA

術語CDATA指的是不應由XML解析器進行解析的文本資料(Unparsed Character Data)。

在 XML 元素中,”<“ 和 ”&“ 是非法的。

“<” 會産生錯誤,因為解析器會把該字元解釋為新元素的開始。 “&” 也會産生錯誤,因為解析器會把該字元解釋為字元實體的開始。

某些文本,比如 JavaScript 代碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以将腳本代碼定義為 CDATA。 CDATA 部分中的所有内容都會被解析器忽略。

CDATA 部分由 “<![CDATA[” 開始,由 “]]>” 結束:

<?xml version="1.0" encoding="utf-8"?>

<response>

  <header>

    <respcode>0</respcode> 

    <total>1736</total>

  </header> 

  <result>

    <album>

      <album_id>320305900</album_id> 

      <title> <![CDATA[ 電影侃侃之初戀永不早 ]]> </title> 

      <tag> <![CDATA[ 18歲以上 當代 暧昧 華語 ]]> </tag> 

      <img>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_120_160.jpg</img> 

      <img180236>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_180_236.jpg</img180236> 

      <img11577>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_115_77.jpg</img11577> 

      <img220124>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_284_160.jpg</img220124> 

      <category_id>1</category_id> 

      <score>0.0</score> 

      <voters>0</voters> 

      <tv_sets>0</tv_sets> 

      <duration>00:38:57</duration> 

      <year> <![CDATA[ 2014 ]]> </year> 

      <tv_focus>跟愛情片學把妹心經</tv_focus> 

      <episode_count>1</episode_count> 

      <directors> <![CDATA[ 關雅荻 ]]> </directors> 

      <mainactors> <![CDATA[ 關雅荻 ]]> </mainactors> 

      <actors> <![CDATA[ ]]> </actors> 

      <vv2> <![CDATA[ 15 ]]> </vv2> 

      <timeText> <![CDATA[ 今天 ]]> </timeText> 

      <first_issue_time> <![CDATA[ 2014-10-16 ]]> </first_issue_time> 

      <up>0</up> 

      <down>0</down> 

      <download>1</download> 

      <purchase_type>0</purchase_type> 

      <hot_or_new>0</hot_or_new> 

      <createtime>2014-10-16 12:25:08</createtime> 

      <purchase>0</purchase> 

      <desc> <![CDATA[

本期節目主持人介紹新近上映的口碑愛情片,。主持人輕松幽默的羅列出胡鳄魚導演拍攝的愛情片越來越接地氣,博得觀衆的認同和追捧,更提出“初戀永遠不嫌早”的口号。觀衆可以跟着愛情片學習把妹心經。

]]> </desc> 

      <ip_limit>1</ip_limit> 

      <episodes/>

    </album>

  </result>

</response>

這是展示一部電影的具體資料,包括标題、介紹、内容、導演、演員、時長、上映年份等很多内容。

1.5 XML樹結構

XML文檔形成了一種樹結構,它從“根部”開始,然後擴充到“枝葉”。

1.5.1 一個XML文檔執行個體

XML使用簡單的具有自我描述性的文法:

<?xml version="1.0" encoding="ISO-8859-1"?>

<note>

<to>George</to>

<from>John</from>

<heading>Reminder</heading>

<body>Don't forget the meeting!</body>

</note>

第一行是XML聲明。它定義XML的版本(1.0)和所使用的編碼(ISO-8859-1=Latin-1/西歐字元集)。

下一行描述文檔的根元素(像在說:“本文檔是一個便簽”):

<note>

接下來 4 行描述根的 4 個子元素(to, from, heading 以及 body):

1

2

3

4

<to>George</to>

<from>John</from>

<heading>Reminder</heading>

<body>Don't forget the meeting!</body>

最後一行定義根元素的結尾:

</note>

從本例可以設想,該XML文檔包含了John給George的一張便簽。

  • XML具有出色的自我描述性,你同意嗎?
  • XML文檔形成一種樹結構
  • XML文檔必須包含根元素。該元素是所有其他元素的父元素。
  • XML文檔中的元素形成了一棵文檔樹。這棵樹從根部開始,并擴充到樹的最底端。

所有元素均可擁有子元素:

<root>

  <child>

    <subchild>.....</subchild>

  </child>

</root>

父、子以及同胞等術語用于描述元素之間的關系。父元素擁有子元素。相同層級上的子元素成為同胞(兄弟或姐妹)。

所有元素均可擁有文本内容和屬性(類似HTML中)。

1.6 XML DOM

想到這裡,大家都有點迫不及待了,XML 檔案到底如何解析呢?

但是,别急,讓子彈先飛會兒

在XML解析之前,我們必須系統性的學習一下 XML DOM 知識:

1.6.1 定義

XML DOM(XML Document Object Model) 定義了通路和操作XML文檔的标準方法。

DOM把XML文檔作為樹結構來檢視。能夠通過DOM樹來通路所有元素。可以修改或删除它們的内容,并建立新的元素。元素,它們的文本,以及它們的屬性,都被認為是節點。

XML DOM是:

  • 用于XML的标準對象模型
  • 用于XML的标準程式設計接口
  • 中立于平台和語言
  • W3C的标準

XML DOM定義了所有XML元素的對象和屬性,以及通路它們的方法(接口)。

換句話說:

XML DOM是用于擷取、更改、添加或删除XML元素的标準
DOM将XML文檔作為一個樹形結構,而樹葉被定義為節點。

1.6.2 總結

XML DOM其實比較複雜,在這麼短的篇幅裡也無法一一進行講解。想詳細了解XML DOM可以好好去學習下

1.7 XML如何解析?

上面講了這麼多關于XML的東西,那麼XML檔案應該如何解析呢?

終于到了我們的重頭戲了

下面以視訊項目為例,展示如何解析XML檔案:

1.7.1 Step 1

XML檔案是一棵樹,首先需要找到對應的節點,然後從節點開始解析,比如搜尋找到的就是result/weights/weight 和result/weights/weight 2個節點,分别從這個開始解析:

public ResultInfo onParser(Element rootElement) {

    int resp = -1;

    try {

        String elName = "header/respcode";

        resp = Integer.parseInt(selectNodeString(rootElement, elName));

    } catch (NumberFormatException e) {

        e.printStackTrace();

    }

    Log.d(TAG, "resp= " + resp);

    if (resp != 0) {

        return null;

    }

    ResultInfo searchResultInfo = new ResultInfo();

    // Parse Search Weight

    @SuppressWarnings("rawtypes")

    final List weights = rootElement.selectNodes(rootElement.getPath() + "/"

            + "result/weights/weight");

    ResultInfo[] resultFilterInfos = parseVideos(weights);

    if (resultFilterInfos != null) {

        ResultInfo weight = new ResultInfo();

        weight.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultFilterInfos);

        searchResultInfo.putResultInfo(ResultInfo.KEY_WEIGHT, weight);

    }

    // Parse Albums

    @SuppressWarnings("rawtypes")

    final List albums = rootElement.selectNodes(rootElement.getPath() + "/"

            + "result/albums/album");

    ResultInfo[] resultInfos = parseVideos(albums);

    if (resultInfos != null) {

        ResultInfo album = new ResultInfo();

        album.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultInfos);

        searchResultInfo.putResultInfo(ResultInfo.KEY_SEARCH, album);

    }

    return searchResultInfo;

}

1.7.2 Step 2

 找到了對應的Node,即從對應的Node開始遞歸的查找,直到找到最小的節點,也就是最基本的單元Element。再對每一個Element進行解析:

private ResultInfo[] parseVideos(final List nodes) {

    if (nodes != null && nodes.size() > 0) {

        final int size = nodes.size();

        final ResultInfo[] vis = new ResultInfo[size];

        int i = 0;

        for (Object o : nodes) {

            if (o instanceof Element) {

                final Element videoElement = (Element) o;

                ResultInfo vi = parseVideo(videoElement);

                vis[i] = vi;

            }

            i++;

        }

        return vis;

    }

    return null;

}

1.7.3 Step 3

 針對擷取到的Element,解析出對應的String将資料傳遞給VideoInfo這個類:

private ResultInfo parseVideo(final Element videoElement) {

    final String id = videoElement.elementText("album_id");

    final String title = videoElement.elementText("title");

    final String categoryId = videoElement.elementText("category_id");

    final String categoryName = videoElement.elementText("category_name");

    final String count = videoElement.elementText("count");

    final String imgUrl = videoElement.elementText("img180236");

    final String duration = videoElement.elementText("duration");

    final String mainactors = videoElement.elementText("mainactors");

    final String sitename = videoElement.elementText("site_name");

    final String videourl = videoElement.elementText("vedio_url");

    final String sort = videoElement.elementText("sort");

    final String tv_id = videoElement.elementText("tv_id");

    ResultInfo vi = new ResultInfo();

    vi.putString(VideoInfo.ID, id);

    vi.putString(VideoInfo.TITLE, title);

    vi.putString(VideoInfo.CATEGORY_ID, categoryId);

    vi.putString(VideoInfo.CATEGORY_NAME, categoryName);

    vi.putString(VideoInfo.COUNT, count);

    vi.putString(VideoInfo.IMG_URL, imgUrl);

    vi.putString(VideoInfo.DURATION, duration);

    vi.putString(VideoInfo.MAINACTORS, mainactors);

    vi.putString(VideoInfo.SITENAME, sitename);

    vi.putString(VideoInfo.VIDEOURL, videourl);

    vi.putString(VideoInfo.SORT, sort);

    vi.putString(VideoInfo.TV_ID, tv_id);

    return vi;

}

1.7.4 Step 4

 當使用XML解析器将XML資料解析出來之後。需要将這些資料提取出來,也是通過連續2層提取,将資料定位到每個video, 将每個video裡的資料傳遞給SearchVideoInfo這個ArrayList,然後将ArrayList中的資料和對應的Adapter資料關聯起來:

public static ArrayList<SearchVideoInfo> getSearchVideoInfo(ResultInfo searchResultInfo) {

    ResultInfo resultInfo = null;

    ResultInfo[] videos = null;

    ArrayList<SearchVideoInfo> searchVideoInfos = null;

    if (searchResultInfo != null) {

        resultInfo = searchResultInfo.getResultInfo(ResultInfo.KEY_SEARCH);

    }

    if (resultInfo != null) {

        videos = resultInfo.getResultInfoArray(ResultInfo.KEY_VIDEOS);

    }

    if (videos != null && videos.length > 0) {

        searchVideoInfos = new ArrayList<SearchVideoInfo>(videos.length);

        for (ResultInfo video : videos) {

            SearchVideoInfo searchInfo = new SearchVideoInfo();

            searchInfo.setAlbum_id(video.getString(VideoInfo.ID));

            searchInfo.setTitle(video.getString(VideoInfo.TITLE));

            searchInfo.setChannel_id(video.getString(VideoInfo.CATEGORY_ID));

            searchInfo.setImgUrl(video.getString(VideoInfo.IMG_URL));

            searchInfo.setDuration(video.getString(VideoInfo.DURATION));

            searchInfo.setMainActors(video.getString(VideoInfo.MAINACTORS));

            searchInfo.setSiteName(video.getString(VideoInfo.SITENAME));

            searchInfo.setVideo_url(video.getString(VideoInfo.VIDEOURL));

            searchInfo.setOrder(video.getString(VideoInfo.SORT));

            searchInfo.setTv_id(video.getString(VideoInfo.TV_ID));

            // searchInfo.setContinueType(video.getString(VideoInfo.CONTINUETYPE));

            searchVideoInfos.add(searchInfo);

        }

    }

    if (searchVideoInfos == null) {

        MyLog.e(TAG, "error, getSearchVideoInfo, can not get info");

    }

    return searchVideoInfos;

}

以上就是搜尋資料的XML的解析和資料展示過程。

接下文

來源: Long Luo 的部落格

連結:http://longluo.github.io/blog/20141031/master-XML-JSON-and-how-to-aprse-them-in-10-minutes/

引言

NOKIA 有句著名的廣告語:“科技以人為本”。任何技術都是為了滿足人的生産生活需要而産生的。具體到小小的一個手機,裡面蘊含的技術也是浩如煙海,是幾千年來人類科技的結晶,單個人窮其一生也未必能掌握其一角。不過個人一直認為基本的技術和思想是放之四海而皆準的,許多技術未必需要我們從頭到尾再研究一遍,我們要做的就是站在巨人的肩膀上,利用其成果來為人們的需求服務。

随着移動網際網路時代的大潮,越來越多的App不光是需要和網絡伺服器進行資料傳輸和互動,也需要和其他 App 進行資料傳遞。承擔App與網絡來進行傳輸和存儲資料的一般是XML或者JSON。在移動網際網路時代,XML和JSON很重要。

最近一段時間,個人綜合了之前對XML、JSON的一些了解,參考了相關資料,再結合視訊的代碼,把自己的一些思考融入了這篇總結文檔中,同時嘗試用通俗诙諧的語言風格來闡述,期望能給感興趣的讀者帶來幫助。

為了不和時代落伍,我們必須要學習 XML 和 JSON,但同時它們也很容易學習,Let’s start

一、XML

XML即可擴充标記語言(eXtensible Markup Language)。标記是指計算機所能了解的資訊符号,通過此種标記,計算機之間可以處理包含各種資訊的文章等。如何定義這些标記,既可以選擇國際通用的标記語言,比如HTML,也可以使用象XML這樣由相關人士自由決定的标記語言,這就是語言的可擴充性。XML是從SGML中簡化修改出來的。它主要用到的有XML、XSL和XPath等。

上面這段是對XML的一個基本定義,一個被廣泛接受的說明。簡單說,XML就是一種資料的描述語言,雖然它是語言,但是通常情況下,它并不具備常見語言的基本功能——被計算機識别并運作。隻有依靠另一種語言,來解釋它,使它達到你想要的效果或被計算機所接受。

記住以下幾點就行了:

  • XML是一種标記語言,很類似HTML
  • XML的設計宗旨是傳輸資料,而非顯示資料
  • XML标簽沒有被預定義。您需要自行定義标簽。
  • XML被設計為具有自我描述性。
  • XML是W3C的推薦标準

總結:

XML是獨立于軟體和硬體的資訊傳輸工具。 目前,XML在Web中起到的作用不會亞于一直作為 Web 基石的 HTML。 XML無所不在。XML是各種應用程式之間進行資料傳輸的最常用的工具,并且在資訊存儲和描述領域變得越來越流行。

1.1 XML屬性

1.1.1 XML與HTML的主要差異

  • XML不是HTML的替代。
  • XML和HTML為不同的目的而設計。
  • XML被設計為傳輸和存儲資料,其焦點是資料的内容。
  • HTML被設計用來顯示資料,其焦點是資料的外觀。
  • HTML旨在顯示資訊,而 XML 旨在傳輸資訊

1.1.2 XML是不作為的。

也許這有點難以了解,但是XML不會做任何事情。XML被設計用來結構化、存儲以及傳輸資訊。

下面是John寫給George的便簽,存儲為XML:

<note>

<to>George</to>

<from>John</from>

<heading>Reminder</heading>

<body>Don't forget the meeting!</body>

</note>

上面的這條便簽具有自我描述性。它擁有标題以及留言,同時包含了發送者和接受者的資訊。但是,這個 XML 文檔仍然沒有做任何事情。它僅僅是包裝在XML标簽中的純粹的資訊。我們需要編寫軟體或者程式,才能傳送、接收和顯示出這個文檔。

1.1.3 XML僅僅是純文字

XML沒什麼特别的。它僅僅是純文字而已。有能力處理純文字的軟體都可以處理XML。 不過,能夠讀懂 XML 的應用程式可以有針對性地處理 XML 的标簽。标簽的功能性意義依賴于應用程式的特性。

1.1.4 XML允許自定義标簽

上例中的标簽沒有在任何XML标準中定義過(比如和)。這些标簽是由文檔的創作者發明的。這是因為XML沒有預定義的标簽。

在HTML中使用的标簽(以及HTML的結構)是預定義的。HTML文檔隻使用在HTML标準中定義過的标簽(比如<p>,<h1> 等等)。

XML允許創作者定義自己的标簽和自己的文檔結構。

1.1.5 XML不是對HTML的替代

XML是對HTML的補充。

XML不會替代HTML,了解這一點很重要。在大多數 web 應用程式中,XML用于傳輸資料,而HTML用于格式化并顯示資料。

1.2 XML的文法

XML的文法規則很簡單,且很有邏輯。這些規則很容易學習,也很容易使用。

1.2.1 所有元素都必須有關閉标簽

在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽。 在HTML,經常會看到沒有關閉标簽的元素:

<p>This is a paragraph

<p>This is another paragraph

在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽:

<p>This is a paragraph</p>

<p>This is another paragraph</p>

注釋:您也許已經注意到XML聲明沒有關閉标簽。這不是錯誤。聲明不屬于XML本身的組成部分。它不是XML元素,也不需要關閉标簽。

1.2.2 XML标簽對大小寫敏感

XML元素使用XML标簽進行定義。

XML标簽對大小寫敏感。在XML中,标簽與标簽是不同的。

必須使用相同的大小寫來編寫打開标簽和關閉标簽:

<Message>這是錯誤的。</message>

<message>這是正确的。</message>

1.2.3 XML标簽對大小寫敏感

在 HTML 中,常會看到沒有正确嵌套的元素:

<b><i>This text is bold and italic</b></i>

在 XML中,所有元素都必須彼此正确地嵌套:

<b><i>This text is bold and italic</i></b>

在上例中,正确嵌套的意思是:由于<i>元素是在<b>元素内打開的,那麼它必須在<b>元素内關閉。

1.2.4 XML文檔必須有根元素

XML文檔必須有一個元素是所有其他元素的父元素。該元素稱為根元素。

<root>

  <child>

    <subchild>.....</subchild>

  </child>

</root>

1.2.5 XML的屬性值須加引号

與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。 在 XML 中,XML 的屬性值須加引号。請研究下面的兩個 XML 文檔。第一個是錯誤的,第二個是正确的:

<note date=08/08/2008>

<to>George</to>

<from>John</from>

</note>

<note date="08/08/2008">

<to>George</to>

<from>John</from>

</note>

1.2.6 實體引用

在 XML 中,一些字元擁有特殊的意義。 如果你把字元 “<” 放在 XML 元素中,會發生錯誤,這是因為解析器會把它當作新元素的開始。 這樣會産生 XML 錯誤:

<message>if salary < 1000 then</message>

為了避免這個錯誤,請用實體引用來代替 “<” 字元:

<message>if salary &lt; 1000 then</message>

在 XML 中,有 5 個預定義的實體引用:

&lt;    <   小于

&gt;    >   大于

&amp;   &   和号

'  '   單引号

&quot;  "   引号

注釋:在 XML 中,隻有字元 “<” 和 “&” 确實是非法的。大于号是合法的,但是用實體引用來代替它是一個好習慣。

1.2.7 XML中的注釋

在 XML 中編寫注釋的文法與 HTML 的文法很相似:

<!-- This is a comment -->

在 XML 中,空格會被保留 HTML 會把多個連續的空格字元裁減(合并)為一個:

HTML:   Hello           my name is David.

輸出: Hello my name is David. 在 XML 中,文檔中的空格不會被删節。

1.2.8 以 LF 存儲換行

在 Windows 應用程式中,換行通常以一對字元來存儲:回車符 (CR) 和換行符 (LF)。這對字元與打字機設定新行的動作有相似之處。在 Unix 應用程式中,新行以 LF 字元存儲。而 Macintosh 應用程式使用CR來存儲新行。

1.3 XML CDATA

所有XML文檔中的文本均會被解析器解析。

隻有CDATA區段(CDATA section)中的文本會被解析器忽略。

1.3.1 PCDATA

PCDATA指的是被解析的字元資料(Parsed Character Data)。

XML解析器通常會解析XML文檔中所有的文本。 當某個XML元素被解析時,其标簽之間的文本也會被解析:

<message>此文本也會被解析</message>

解析器之是以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的元素包含着另外的兩個元素(first和last):

<name><first>Bill</first><last>Gates</last></name>

而解析器會把它分解為像這樣的子元素:

<name>

   <first>Bill</first>

   <last>Gates</last>

</name>

1.3.2 轉義字元

非法的XML字元必須被替換為實體引用(entity reference)。

假如您在XML文檔中放置了一個類似 “<” 字元,那麼這個文檔會産生一個錯誤,這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫:

<message>if salary < 1000 then</message>

為了避免此類錯誤,需要把字元 “<” 替換為實體引用,就像這樣:

<message>if salary &lt; 1000 then</message>

在 XML 中有 5 個預定義的實體引用:

&lt;    <   小于

&gt;    >   大于

&amp;   &   和号

'  '   省略号

&quot;  "   引号

注釋:嚴格地講,在XML中僅有字元”<“和”&“是非法的。省略号、引号和大于号是合法的,但是把它們替換為實體引用是個好的習慣。

1.3.3 CDATA

術語CDATA指的是不應由XML解析器進行解析的文本資料(Unparsed Character Data)。

在 XML 元素中,”<“ 和 ”&“ 是非法的。

“<” 會産生錯誤,因為解析器會把該字元解釋為新元素的開始。 “&” 也會産生錯誤,因為解析器會把該字元解釋為字元實體的開始。

某些文本,比如 JavaScript 代碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以将腳本代碼定義為 CDATA。 CDATA 部分中的所有内容都會被解析器忽略。

CDATA 部分由 “<![CDATA[” 開始,由 “]]>” 結束:

<?xml version="1.0" encoding="utf-8"?>

<response>

  <header>

    <respcode>0</respcode> 

    <total>1736</total>

  </header> 

  <result>

    <album>

      <album_id>320305900</album_id> 

      <title> <![CDATA[ 電影侃侃之初戀永不早 ]]> </title> 

      <tag> <![CDATA[ 18歲以上 當代 暧昧 華語 ]]> </tag> 

      <img>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_120_160.jpg</img> 

      <img180236>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_180_236.jpg</img180236> 

      <img11577>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_115_77.jpg</img11577> 

      <img220124>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_284_160.jpg</img220124> 

      <category_id>1</category_id> 

      <score>0.0</score> 

      <voters>0</voters> 

      <tv_sets>0</tv_sets> 

      <duration>00:38:57</duration> 

      <year> <![CDATA[ 2014 ]]> </year> 

      <tv_focus>跟愛情片學把妹心經</tv_focus> 

      <episode_count>1</episode_count> 

      <directors> <![CDATA[ 關雅荻 ]]> </directors> 

      <mainactors> <![CDATA[ 關雅荻 ]]> </mainactors> 

      <actors> <![CDATA[ ]]> </actors> 

      <vv2> <![CDATA[ 15 ]]> </vv2> 

      <timeText> <![CDATA[ 今天 ]]> </timeText> 

      <first_issue_time> <![CDATA[ 2014-10-16 ]]> </first_issue_time> 

      <up>0</up> 

      <down>0</down> 

      <download>1</download> 

      <purchase_type>0</purchase_type> 

      <hot_or_new>0</hot_or_new> 

      <createtime>2014-10-16 12:25:08</createtime> 

      <purchase>0</purchase> 

      <desc> <![CDATA[

本期節目主持人介紹新近上映的口碑愛情片,。主持人輕松幽默的羅列出胡鳄魚導演拍攝的愛情片越來越接地氣,博得觀衆的認同和追捧,更提出“初戀永遠不嫌早”的口号。觀衆可以跟着愛情片學習把妹心經。

]]> </desc> 

      <ip_limit>1</ip_limit> 

      <episodes/>

    </album>

  </result>

</response>

這是展示一部電影的具體資料,包括标題、介紹、内容、導演、演員、時長、上映年份等很多内容。

1.5 XML樹結構

XML文檔形成了一種樹結構,它從“根部”開始,然後擴充到“枝葉”。

1.5.1 一個XML文檔執行個體

XML使用簡單的具有自我描述性的文法:

<?xml version="1.0" encoding="ISO-8859-1"?>

<note>

<to>George</to>

<from>John</from>

<heading>Reminder</heading>

<body>Don't forget the meeting!</body>

</note>

第一行是XML聲明。它定義XML的版本(1.0)和所使用的編碼(ISO-8859-1=Latin-1/西歐字元集)。

下一行描述文檔的根元素(像在說:“本文檔是一個便簽”):

<note>

接下來 4 行描述根的 4 個子元素(to, from, heading 以及 body):

1

2

3

4

<to>George</to>

<from>John</from>

<heading>Reminder</heading>

<body>Don't forget the meeting!</body>

最後一行定義根元素的結尾:

</note>

從本例可以設想,該XML文檔包含了John給George的一張便簽。

  • XML具有出色的自我描述性,你同意嗎?
  • XML文檔形成一種樹結構
  • XML文檔必須包含根元素。該元素是所有其他元素的父元素。
  • XML文檔中的元素形成了一棵文檔樹。這棵樹從根部開始,并擴充到樹的最底端。

所有元素均可擁有子元素:

<root>

  <child>

    <subchild>.....</subchild>

  </child>

</root>

父、子以及同胞等術語用于描述元素之間的關系。父元素擁有子元素。相同層級上的子元素成為同胞(兄弟或姐妹)。

所有元素均可擁有文本内容和屬性(類似HTML中)。

1.6 XML DOM

想到這裡,大家都有點迫不及待了,XML 檔案到底如何解析呢?

但是,别急,讓子彈先飛會兒

在XML解析之前,我們必須系統性的學習一下 XML DOM 知識:

1.6.1 定義

XML DOM(XML Document Object Model) 定義了通路和操作XML文檔的标準方法。

DOM把XML文檔作為樹結構來檢視。能夠通過DOM樹來通路所有元素。可以修改或删除它們的内容,并建立新的元素。元素,它們的文本,以及它們的屬性,都被認為是節點。

XML DOM是:

  • 用于XML的标準對象模型
  • 用于XML的标準程式設計接口
  • 中立于平台和語言
  • W3C的标準

XML DOM定義了所有XML元素的對象和屬性,以及通路它們的方法(接口)。

換句話說:

XML DOM是用于擷取、更改、添加或删除XML元素的标準
DOM将XML文檔作為一個樹形結構,而樹葉被定義為節點。

1.6.2 總結

XML DOM其實比較複雜,在這麼短的篇幅裡也無法一一進行講解。想詳細了解XML DOM可以好好去學習下

1.7 XML如何解析?

上面講了這麼多關于XML的東西,那麼XML檔案應該如何解析呢?

終于到了我們的重頭戲了

下面以視訊項目為例,展示如何解析XML檔案:

1.7.1 Step 1

XML檔案是一棵樹,首先需要找到對應的節點,然後從節點開始解析,比如搜尋找到的就是result/weights/weight 和result/weights/weight 2個節點,分别從這個開始解析:

public ResultInfo onParser(Element rootElement) {

    int resp = -1;

    try {

        String elName = "header/respcode";

        resp = Integer.parseInt(selectNodeString(rootElement, elName));

    } catch (NumberFormatException e) {

        e.printStackTrace();

    }

    Log.d(TAG, "resp= " + resp);

    if (resp != 0) {

        return null;

    }

    ResultInfo searchResultInfo = new ResultInfo();

    // Parse Search Weight

    @SuppressWarnings("rawtypes")

    final List weights = rootElement.selectNodes(rootElement.getPath() + "/"

            + "result/weights/weight");

    ResultInfo[] resultFilterInfos = parseVideos(weights);

    if (resultFilterInfos != null) {

        ResultInfo weight = new ResultInfo();

        weight.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultFilterInfos);

        searchResultInfo.putResultInfo(ResultInfo.KEY_WEIGHT, weight);

    }

    // Parse Albums

    @SuppressWarnings("rawtypes")

    final List albums = rootElement.selectNodes(rootElement.getPath() + "/"

            + "result/albums/album");

    ResultInfo[] resultInfos = parseVideos(albums);

    if (resultInfos != null) {

        ResultInfo album = new ResultInfo();

        album.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultInfos);

        searchResultInfo.putResultInfo(ResultInfo.KEY_SEARCH, album);

    }

    return searchResultInfo;

}

1.7.2 Step 2

 找到了對應的Node,即從對應的Node開始遞歸的查找,直到找到最小的節點,也就是最基本的單元Element。再對每一個Element進行解析:

private ResultInfo[] parseVideos(final List nodes) {

    if (nodes != null && nodes.size() > 0) {

        final int size = nodes.size();

        final ResultInfo[] vis = new ResultInfo[size];

        int i = 0;

        for (Object o : nodes) {

            if (o instanceof Element) {

                final Element videoElement = (Element) o;

                ResultInfo vi = parseVideo(videoElement);

                vis[i] = vi;

            }

            i++;

        }

        return vis;

    }

    return null;

}

1.7.3 Step 3

 針對擷取到的Element,解析出對應的String将資料傳遞給VideoInfo這個類:

private ResultInfo parseVideo(final Element videoElement) {

    final String id = videoElement.elementText("album_id");

    final String title = videoElement.elementText("title");

    final String categoryId = videoElement.elementText("category_id");

    final String categoryName = videoElement.elementText("category_name");

    final String count = videoElement.elementText("count");

    final String imgUrl = videoElement.elementText("img180236");

    final String duration = videoElement.elementText("duration");

    final String mainactors = videoElement.elementText("mainactors");

    final String sitename = videoElement.elementText("site_name");

    final String videourl = videoElement.elementText("vedio_url");

    final String sort = videoElement.elementText("sort");

    final String tv_id = videoElement.elementText("tv_id");

    ResultInfo vi = new ResultInfo();

    vi.putString(VideoInfo.ID, id);

    vi.putString(VideoInfo.TITLE, title);

    vi.putString(VideoInfo.CATEGORY_ID, categoryId);

    vi.putString(VideoInfo.CATEGORY_NAME, categoryName);

    vi.putString(VideoInfo.COUNT, count);

    vi.putString(VideoInfo.IMG_URL, imgUrl);

    vi.putString(VideoInfo.DURATION, duration);

    vi.putString(VideoInfo.MAINACTORS, mainactors);

    vi.putString(VideoInfo.SITENAME, sitename);

    vi.putString(VideoInfo.VIDEOURL, videourl);

    vi.putString(VideoInfo.SORT, sort);

    vi.putString(VideoInfo.TV_ID, tv_id);

    return vi;

}

1.7.4 Step 4

 當使用XML解析器将XML資料解析出來之後。需要将這些資料提取出來,也是通過連續2層提取,将資料定位到每個video, 将每個video裡的資料傳遞給SearchVideoInfo這個ArrayList,然後将ArrayList中的資料和對應的Adapter資料關聯起來:

public static ArrayList<SearchVideoInfo> getSearchVideoInfo(ResultInfo searchResultInfo) {

    ResultInfo resultInfo = null;

    ResultInfo[] videos = null;

    ArrayList<SearchVideoInfo> searchVideoInfos = null;

    if (searchResultInfo != null) {

        resultInfo = searchResultInfo.getResultInfo(ResultInfo.KEY_SEARCH);

    }

    if (resultInfo != null) {

        videos = resultInfo.getResultInfoArray(ResultInfo.KEY_VIDEOS);

    }

    if (videos != null && videos.length > 0) {

        searchVideoInfos = new ArrayList<SearchVideoInfo>(videos.length);

        for (ResultInfo video : videos) {

            SearchVideoInfo searchInfo = new SearchVideoInfo();

            searchInfo.setAlbum_id(video.getString(VideoInfo.ID));

            searchInfo.setTitle(video.getString(VideoInfo.TITLE));

            searchInfo.setChannel_id(video.getString(VideoInfo.CATEGORY_ID));

            searchInfo.setImgUrl(video.getString(VideoInfo.IMG_URL));

            searchInfo.setDuration(video.getString(VideoInfo.DURATION));

            searchInfo.setMainActors(video.getString(VideoInfo.MAINACTORS));

            searchInfo.setSiteName(video.getString(VideoInfo.SITENAME));

            searchInfo.setVideo_url(video.getString(VideoInfo.VIDEOURL));

            searchInfo.setOrder(video.getString(VideoInfo.SORT));

            searchInfo.setTv_id(video.getString(VideoInfo.TV_ID));

            // searchInfo.setContinueType(video.getString(VideoInfo.CONTINUETYPE));

            searchVideoInfos.add(searchInfo);

        }

    }

    if (searchVideoInfos == null) {

        MyLog.e(TAG, "error, getSearchVideoInfo, can not get info");

    }

    return searchVideoInfos;

}

以上就是搜尋資料的XML的解析和資料展示過程。

接下文