NOKIA 有句著名的廣告語:“科技以人為本”。任何技術都是為了滿足人的生産生活需要而産生的。具體到小小的一個手機,裡面蘊含的技術也是浩如煙海,是幾千年來人類科技的結晶,單個人窮其一生也未必能掌握其一角。不過個人一直認為基本的技術和思想是放之四海而皆準的,許多技術未必需要我們從頭到尾再研究一遍,我們要做的就是站在巨人的肩膀上,利用其成果來為人們的需求服務。
随着移動網際網路時代的大潮,越來越多的App不光是需要和網絡伺服器進行資料傳輸和互動,也需要和其他 App 進行資料傳遞。承擔App與網絡來進行傳輸和存儲資料的一般是XML或者JSON。在移動網際網路時代,XML和JSON很重要。
最近一段時間,個人綜合了之前對XML、JSON的一些了解,參考了相關資料,再結合視訊的代碼,把自己的一些思考融入了這篇總結文檔中,同時嘗試用通俗诙諧的語言風格來闡述,期望能給感興趣的讀者帶來幫助。
為了不和時代落伍,我們必須要學習 XML 和 JSON,但同時它們也很容易學習,Let’s start:–)
一、XML
XML即可擴充标記語言(eXtensible Markup Language)。标記是指計算機所能了解的資訊符号,通過此種标記,計算機之間可以處理包含各種資訊的文章等。如何定義這些标記,既可以選擇國際通用的标記語言,比如HTML,也可以使用象XML這樣由相關人士自由決定的标記語言,這就是語言的可擴充性。XML是從SGML中簡化修改出來的。它主要用到的有XML、XSL和XPath等。
上面這段是對XML的一個基本定義,一個被廣泛接受的說明。簡單說,XML就是一種資料的描述語言,雖然它是語言,但是通常情況下,它并不具備常見語言的基本功能——被計算機識别并運作。隻有依靠另一種語言,來解釋它,使它達到你想要的效果或被計算機所接受。
記住以下幾點就行了:
- XML是一種标記語言,很類似HTML
- XML的設計宗旨是傳輸資料,而非顯示資料
- XML标簽沒有被預定義。您需要自行定義标簽。
- XML被設計為具有自我描述性。
- XML是W3C的推薦标準
總結:
XML是獨立于軟體和硬體的資訊傳輸工具。 目前,XML在Web中起到的作用不會亞于一直作為 Web 基石的 HTML。 XML無所不在。XML是各種應用程式之間進行資料傳輸的最常用的工具,并且在資訊存儲和描述領域變得越來越流行。
1.1 XML屬性
1.1.1 XML與HTML的主要差異
- XML不是HTML的替代。
- XML和HTML為不同的目的而設計。
- XML被設計為傳輸和存儲資料,其焦點是資料的内容。
- HTML被設計用來顯示資料,其焦點是資料的外觀。
- HTML旨在顯示資訊,而 XML 旨在傳輸資訊
1.1.2 XML是不作為的。
也許這有點難以了解,但是XML不會做任何事情。XML被設計用來結構化、存儲以及傳輸資訊。
下面是John寫給George的便簽,存儲為XML:
1 2 3 4 5 6 | |
上面的這條便簽具有自我描述性。它擁有标題以及留言,同時包含了發送者和接受者的資訊。但是,這個 XML 文檔仍然沒有做任何事情。它僅僅是包裝在XML标簽中的純粹的資訊。我們需要編寫軟體或者程式,才能傳送、接收和顯示出這個文檔。
1.1.3 XML僅僅是純文字
XML沒什麼特别的。它僅僅是純文字而已。有能力處理純文字的軟體都可以處理XML。 不過,能夠讀懂 XML 的應用程式可以有針對性地處理 XML 的标簽。标簽的功能性意義依賴于應用程式的特性。
1.1.4 XML允許自定義标簽
上例中的标簽沒有在任何XML标準中定義過(比如和)。這些标簽是由文檔的創作者發明的。這是因為XML沒有預定義的标簽。
在HTML中使用的标簽(以及HTML的結構)是預定義的。HTML文檔隻使用在HTML标準中定義過的标簽(比如
<p>
,
<h1>
等等)。
XML允許創作者定義自己的标簽和自己的文檔結構。
1.1.5 XML不是對HTML的替代
XML是對HTML的補充。
XML不會替代HTML,了解這一點很重要。在大多數 web 應用程式中,XML用于傳輸資料,而HTML用于格式化并顯示資料。
1.2 XML的文法
XML的文法規則很簡單,且很有邏輯。這些規則很容易學習,也很容易使用。
1.2.1 所有元素都必須有關閉标簽
在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽。 在HTML,經常會看到沒有關閉标簽的元素:
1 2 | |
在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽:
1 2 | |
注釋:您也許已經注意到XML聲明沒有關閉标簽。這不是錯誤。聲明不屬于XML本身的組成部分。它不是XML元素,也不需要關閉标簽。
1.2.2 XML标簽對大小寫敏感
XML元素使用XML标簽進行定義。
XML标簽對大小寫敏感。在XML中,标簽與标簽是不同的。
必須使用相同的大小寫來編寫打開标簽和關閉标簽:
1 2 | |
1.2.3 XML标簽對大小寫敏感
在 HTML 中,常會看到沒有正确嵌套的元素:
1 | |
在 XML中,所有元素都必須彼此正确地嵌套:
1 | |
在上例中,正确嵌套的意思是:由于
<i>
元素是在
<b>
元素内打開的,那麼它必須在
<b>
元素内關閉。
1.2.4 XML文檔必須有根元素
XML文檔必須有一個元素是所有其他元素的父元素。該元素稱為根元素。
1 2 3 4 5 | |
1.2.5 XML的屬性值須加引号
與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。 在 XML 中,XML 的屬性值須加引号。請研究下面的兩個 XML 文檔。第一個是錯誤的,第二個是正确的:
1 2 3 4 5 6 7 8 9 | |
1.2.6 實體引用
在 XML 中,一些字元擁有特殊的意義。 如果你把字元 “<” 放在 XML 元素中,會發生錯誤,這是因為解析器會把它當作新元素的開始。 這樣會産生 XML 錯誤:
1 | |
為了避免這個錯誤,請用實體引用來代替 “<” 字元:
1 | |
在 XML 中,有 5 個預定義的實體引用:
1 2 3 4 5 | |
注釋:在 XML 中,隻有字元 “<” 和 “&” 确實是非法的。大于号是合法的,但是用實體引用來代替它是一個好習慣。
1.2.7 XML中的注釋
在 XML 中編寫注釋的文法與 HTML 的文法很相似:
1 | |
在 XML 中,空格會被保留 HTML 會把多個連續的空格字元裁減(合并)為一個:
1 | |
輸出: Hello my name is David. 在 XML 中,文檔中的空格不會被删節。
1.2.8 以 LF 存儲換行
在 Windows 應用程式中,換行通常以一對字元來存儲:回車符 (CR) 和換行符 (LF)。這對字元與打字機設定新行的動作有相似之處。在 Unix 應用程式中,新行以 LF 字元存儲。而 Macintosh 應用程式使用CR來存儲新行。
1.3 XML CDATA
所有XML文檔中的文本均會被解析器解析。
隻有CDATA區段(CDATA section)中的文本會被解析器忽略。
1.3.1 PCDATA
PCDATA指的是被解析的字元資料(Parsed Character Data)。
XML解析器通常會解析XML文檔中所有的文本。 當某個XML元素被解析時,其标簽之間的文本也會被解析:
1 | |
解析器之是以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的元素包含着另外的兩個元素(first和last):
1 | |
而解析器會把它分解為像這樣的子元素:
1 2 3 4 | |
1.3.2 轉義字元
非法的XML字元必須被替換為實體引用(entity reference)。
假如您在XML文檔中放置了一個類似 “<” 字元,那麼這個文檔會産生一個錯誤,這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫:
1 | |
為了避免此類錯誤,需要把字元 “<” 替換為實體引用,就像這樣:
1 | |
在 XML 中有 5 個預定義的實體引用:
1 2 3 4 5 | |
注釋:嚴格地講,在XML中僅有字元”<“和”&“是非法的。省略号、引号和大于号是合法的,但是把它們替換為實體引用是個好的習慣。
1.3.3 CDATA
術語CDATA指的是不應由XML解析器進行解析的文本資料(Unparsed Character Data)。
在 XML 元素中,”<“ 和 ”&“ 是非法的。
“<” 會産生錯誤,因為解析器會把該字元解釋為新元素的開始。 “&” 也會産生錯誤,因為解析器會把該字元解釋為字元實體的開始。
某些文本,比如 JavaScript 代碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以将腳本代碼定義為 CDATA。 CDATA 部分中的所有内容都會被解析器忽略。 CDATA 部分由 “<![CDATA[” 開始,由 “]]>” 結束:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 | |
這是展示一部電影的具體資料,包括标題、介紹、内容、導演、演員、時長、上映年份等很多内容。
1.5 XML樹結構
XML文檔形成了一種樹結構,它從“根部”開始,然後擴充到“枝葉”。
1.5.1 一個XML文檔執行個體
XML使用簡單的具有自我描述性的文法:
1 2 3 4 5 6 7 | |
第一行是XML聲明。它定義XML的版本(1.0)和所使用的編碼(ISO-8859-1=Latin-1/西歐字元集)。
下一行描述文檔的根元素(像在說:“本文檔是一個便簽”):
1 | |
接下來 4 行描述根的 4 個子元素(to, from, heading 以及 body):
1 2 3 4 | |
最後一行定義根元素的結尾:
1 | |
從本例可以設想,該XML文檔包含了John給George的一張便簽。
- XML具有出色的自我描述性,你同意嗎?
- XML文檔形成一種樹結構
- XML文檔必須包含根元素。該元素是所有其他元素的父元素。
- XML文檔中的元素形成了一棵文檔樹。這棵樹從根部開始,并擴充到樹的最底端。
所有元素均可擁有子元素:
1 2 3 4 5 | |
父、子以及同胞等術語用于描述元素之間的關系。父元素擁有子元素。相同層級上的子元素成為同胞(兄弟或姐妹)。
所有元素均可擁有文本内容和屬性(類似HTML中)。
1.6 XML DOM
想到這裡,大家都有點迫不及待了,XML 檔案到底如何解析呢?
但是,别急,讓子彈先飛會兒:–)
在XML解析之前,我們必須系統性的學習一下 XML DOM 知識:
1.6.1 定義
XML DOM(XML Document Object Model) 定義了通路和操作XML文檔的标準方法。
DOM把XML文檔作為樹結構來檢視。能夠通過DOM樹來通路所有元素。可以修改或删除它們的内容,并建立新的元素。元素,它們的文本,以及它們的屬性,都被認為是節點。
XML DOM是:
- 用于XML的标準對象模型
- 用于XML的标準程式設計接口
- 中立于平台和語言
- W3C的标準
XML DOM定義了所有XML元素的對象和屬性,以及通路它們的方法(接口)。
換句話說:
1 | |
DOM将XML文檔作為一個樹形結構,而樹葉被定義為節點。
1.6.2 總結
XML DOM其實比較複雜,在這麼短的篇幅裡也無法一一進行講解。想詳細了解XML DOM可以好好去學習下
1.7 XML如何解析?
上面講了這麼多關于XML的東西,那麼XML檔案應該如何解析呢?
終于到了我們的重頭戲了
下面以視訊項目為例,展示如何解析XML檔案:
1.7.1 Step 1
XML檔案是一棵樹,首先需要找到對應的節點,然後從節點開始解析,比如搜尋找到的就是result/weights/weight 和result/weights/weight 2個節點,分别從這個開始解析:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 | |
1.7.2 Step 2
找到了對應的Node,即從對應的Node開始遞歸的查找,直到找到最小的節點,也就是最基本的單元Element。再對每一個Element進行解析:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | |
1.7.3 Step 3
針對擷取到的Element,解析出對應的String将資料傳遞給VideoInfo這個類:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 | |
1.7.4 Step 4
當使用XML解析器将XML資料解析出來之後。需要将這些資料提取出來,也是通過連續2層提取,将資料定位到每個video, 将每個video裡的資料傳遞給SearchVideoInfo這個ArrayList,然後将ArrayList中的資料和對應的Adapter資料關聯起來:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 | |
以上就是搜尋資料的XML的解析和資料展示過程。
二、JSON
XML很好很強大,但是最近有另外一個時代弄潮兒,這就是JSON。現在JSON的光環已經逐漸超越了XML,各大網站提供的資料接口一般都是JSON。下面我們就來學習下JSON。
2.1 JSON是什麼?
JSON:JavaScript對象表示法(JavaScript Object Notation), 是一種輕量級的資料交換格式, 易于人閱讀和編寫, 同時也易于機器解析和生成。
JSON是存儲和交換文本資訊的文法,類似XML。
JSON采用完全獨立于語言的文本格式,但是也使用了類似于C語言家族的習慣(包括C, C++, C#, Java, JavaScript, Perl, Python等)。 這些特性使JSON成為理想的資料交換語言
2.2 JSON格式
JSON建構于兩種結構:
- “名稱/值”對的集合(A collection of name/value pairs)。不同的語言中,它被了解為對象(object),紀錄(record),結構(struct),字典(dictionary),哈希表(hash table),有鍵清單(keyed list),或者關聯數組(associative array)。
- 值的有序清單(An ordered list of values)。在大多數語言中,它被了解為數組(array)、矢量(vector), 清單(list)或者是序列(sequence)。
JSON具有以下這些形式:
- 對象是一個無序的“’名稱/值’對”集合。一個對象以“{”(左括号)開始,“}”(右括号)結束。每個“名稱”後跟一個“:”(冒号);“‘名稱/值’ 對”之間使用“,”(逗号)分隔。
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIml2ZuQ3YlpmYv9CXnJ3bu42bzpmL3d3dvw1LcpDc0RHaiojIsJye.gif)
- 數組是值(value)的有序集合。一個數組以“[”(左中括号)開始,“]”(右中括号)結束。值之間使用“,”(逗号)分隔。
-
[轉] 10分鐘掌握XML、JSON及其解析一、XML二、JSON三、 JSON vs. XML四、總結 - 值(value)可以是雙引号括起來的字元串(string)、數值(number)、true、false、 null、對象(object)或者數組(array)。這些結構可以嵌套。
[轉] 10分鐘掌握XML、JSON及其解析一、XML二、JSON三、 JSON vs. XML四、總結 - 字元串(string)是由0到多個Unicode字元組成的序列,封裝在雙引号(”“)中, 可以使用反斜杠(‘\’)來進行轉義。一個字元可以表示為一個單一字元的字元串。
[轉] 10分鐘掌握XML、JSON及其解析一、XML二、JSON三、 JSON vs. XML四、總結 - 數字(number)類似C或者Java裡面的數,沒有用到的8進制和16進制數除外。
[轉] 10分鐘掌握XML、JSON及其解析一、XML二、JSON三、 JSON vs. XML四、總結 2.3 舉個栗子
上面關于JSON講了這麼多,大家都表示一頭霧水了吧?
沒關系,我們來舉個栗子,讓大家有個直覺的感受:–)
以目前視訊使用的iQiyi提供的頻道接口為例:
iQiyi提供的電影頻道的JSON電影資料如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 | |
從上面的例子可以很清晰的看出JSON是如何展示一個電影的資料的,當然這是JSON格式化之後的資料。JSON的中繼資料是不便于閱讀的。
2.4 如何解析JSON?
Android JSON所有相關類,都在org.json包下。
包括JSONObject、JSONArray、JSONStringer、JSONTokener、JSONWriter、JSONException。
<1>. 常見方法
目前JSON解析有2種方法,分别是get和opt方法,可以使用JSON
那麼使用get方法與使用opt方法的差別是?
JsonObject方法,opt與get建議使用opt方法,因為get方法如果其内容為空會直接抛出異常。不過JsonArray.opt(index)會有越界問題需要特别注意。
opt、optBoolean、optDouble、optInt、optLong、optString、optJSONArray、optJSONObject get、getBoolean、getDouble、getInt、getLong、getString、getJSONArray、getJSONObject
<2>. Android中如何建立JSON?
在Android中應該如何建立JSON呢?
下面展示了一個如何建立JSON的例子:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | |
其輸出結果如下所示:
1 | |
<3>. 如何解析JSON?
下面以視訊中解析iQiyi的每個視訊album資料為例來說明如何解析JSON:
第一步,需要從網絡伺服器上發起請求,擷取到JSON資料:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 | |
第二步,擷取到對應的對應的JSONObject資料:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 | |
擷取到JSON Object之後,就對這個JSONObject進行解析:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 | |
<4>. Android JSON解析庫
上面介紹都是使用Android提供的原生類解析JSON,最大的好處是項目不需要引入第三方庫,但是如果比較注重開發效率而且不在意應用大小增加幾百K的話,有以下JSON可供選擇:
- Jackson
- google-gson
- Json-lib
大家可以去對應的官網下載下傳并學習:)
三、 JSON vs. XML
JSON和XML就像武林界的屠龍刀和倚天劍,那麼他們孰強孰弱?
XML長期執資料傳輸界之牛耳,而JSON作為後起之秀,已經盟主發起了挑戰。
那就讓他們來進行PK一下:
<1>. JSON相比XML的不同之處
- 沒有結束标簽
- 更短
- 讀寫的速度更快
- 能夠使用内建的 JavaScript eval() 方法進行解析
- 使用數組
- 不使用保留字
總之: JSON 比 XML 更小、更快,更易解析。
<2>. XML和JSON的差別:
XML的主要組成成分:
1 | |
JSON的主要組成成分:
1 | |
XML要表示一個object(指name-value pair的集合),最初可能會使用element作為object,每個key-value pair 用 attribute 表示:
1 | |
但如個某個 value 也是 object,那麼就不可以當作attribute:
1 2 3 4 5 6 7 8 9 | |
那麼,什麼時候用element,什麼時候用attribute,就已經是一個問題了。
而JSON因為有object這種類型,可以自然地映射,不需考慮上述的問題,自然地得到以下的格式。
1 2 3 4 5 6 7 8 9 10 11 | |
One More Thing…
XML需要選擇怎麼處理element content的換行,而JSON string則不須作這個選擇。
XML隻有文字,沒有預設的數字格式,而JSON則有明确的number格式,這樣在locale上也安全。
XML映射數組沒大問題,就是數組元素tag比較重複備援。JSON 比較易讀。
JSON的true/false/null也能容易統一至一般程式設計語言的對應語義。
XML文檔可以附上DTD、Schema,還有一堆的諸如XPath之類規範,使用自定義XML元素或屬性,能很友善地給資料附加各種限制條件和關聯額外資訊,從資料表達能力上看,XML強于Json,但是很多場景并不需要這麼複雜的重量級的東西,輕便靈活的Json就顯得很受歡迎了。
打個比方,如果完成某件事有兩種方式:一種簡單的,一個複雜的。你選哪個?
我隻想殺隻雞罷了,用得着牛刀?
JSON與XML相比就是這樣的。
四、總結
這篇文章隻是對XML和JSON這2種目前主流使用的資料格式進行了解釋,并系統的學習了其中的文法及如何進行解析,同時在最好針對XML和JSON做了對比,了解其不同點和各自的優勢。