來源: Long Luo 的部落格
連結:http://longluo.github.io/blog/20141031/master-XML-JSON-and-how-to-aprse-them-in-10-minutes/
引言
NOKIA 有句著名的廣告語:“科技以人為本”。任何技術都是為了滿足人的生産生活需要而産生的。具體到小小的一個手機,裡面蘊含的技術也是浩如煙海,是幾千年來人類科技的結晶,單個人窮其一生也未必能掌握其一角。不過個人一直認為基本的技術和思想是放之四海而皆準的,許多技術未必需要我們從頭到尾再研究一遍,我們要做的就是站在巨人的肩膀上,利用其成果來為人們的需求服務。
随着移動網際網路時代的大潮,越來越多的App不光是需要和網絡伺服器進行資料傳輸和互動,也需要和其他 App 進行資料傳遞。承擔App與網絡來進行傳輸和存儲資料的一般是XML或者JSON。在移動網際網路時代,XML和JSON很重要。
最近一段時間,個人綜合了之前對XML、JSON的一些了解,參考了相關資料,再結合視訊的代碼,把自己的一些思考融入了這篇總結文檔中,同時嘗試用通俗诙諧的語言風格來闡述,期望能給感興趣的讀者帶來幫助。
為了不和時代落伍,我們必須要學習 XML 和 JSON,但同時它們也很容易學習,Let’s start
一、XML
XML即可擴充标記語言(eXtensible Markup Language)。标記是指計算機所能了解的資訊符号,通過此種标記,計算機之間可以處理包含各種資訊的文章等。如何定義這些标記,既可以選擇國際通用的标記語言,比如HTML,也可以使用象XML這樣由相關人士自由決定的标記語言,這就是語言的可擴充性。XML是從SGML中簡化修改出來的。它主要用到的有XML、XSL和XPath等。
上面這段是對XML的一個基本定義,一個被廣泛接受的說明。簡單說,XML就是一種資料的描述語言,雖然它是語言,但是通常情況下,它并不具備常見語言的基本功能——被計算機識别并運作。隻有依靠另一種語言,來解釋它,使它達到你想要的效果或被計算機所接受。
記住以下幾點就行了:
- XML是一種标記語言,很類似HTML
- XML的設計宗旨是傳輸資料,而非顯示資料
- XML标簽沒有被預定義。您需要自行定義标簽。
- XML被設計為具有自我描述性。
- XML是W3C的推薦标準
總結:
XML是獨立于軟體和硬體的資訊傳輸工具。 目前,XML在Web中起到的作用不會亞于一直作為 Web 基石的 HTML。 XML無所不在。XML是各種應用程式之間進行資料傳輸的最常用的工具,并且在資訊存儲和描述領域變得越來越流行。
1.1 XML屬性
1.1.1 XML與HTML的主要差異
- XML不是HTML的替代。
- XML和HTML為不同的目的而設計。
- XML被設計為傳輸和存儲資料,其焦點是資料的内容。
- HTML被設計用來顯示資料,其焦點是資料的外觀。
- HTML旨在顯示資訊,而 XML 旨在傳輸資訊
1.1.2 XML是不作為的。
也許這有點難以了解,但是XML不會做任何事情。XML被設計用來結構化、存儲以及傳輸資訊。
下面是John寫給George的便簽,存儲為XML:
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
上面的這條便簽具有自我描述性。它擁有标題以及留言,同時包含了發送者和接受者的資訊。但是,這個 XML 文檔仍然沒有做任何事情。它僅僅是包裝在XML标簽中的純粹的資訊。我們需要編寫軟體或者程式,才能傳送、接收和顯示出這個文檔。
1.1.3 XML僅僅是純文字
XML沒什麼特别的。它僅僅是純文字而已。有能力處理純文字的軟體都可以處理XML。 不過,能夠讀懂 XML 的應用程式可以有針對性地處理 XML 的标簽。标簽的功能性意義依賴于應用程式的特性。
1.1.4 XML允許自定義标簽
上例中的标簽沒有在任何XML标準中定義過(比如和)。這些标簽是由文檔的創作者發明的。這是因為XML沒有預定義的标簽。
在HTML中使用的标簽(以及HTML的結構)是預定義的。HTML文檔隻使用在HTML标準中定義過的标簽(比如<p>,<h1> 等等)。
XML允許創作者定義自己的标簽和自己的文檔結構。
1.1.5 XML不是對HTML的替代
XML是對HTML的補充。
XML不會替代HTML,了解這一點很重要。在大多數 web 應用程式中,XML用于傳輸資料,而HTML用于格式化并顯示資料。
1.2 XML的文法
XML的文法規則很簡單,且很有邏輯。這些規則很容易學習,也很容易使用。
1.2.1 所有元素都必須有關閉标簽
在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽。 在HTML,經常會看到沒有關閉标簽的元素:
<p>This is a paragraph
<p>This is another paragraph
在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽:
<p>This is a paragraph</p>
<p>This is another paragraph</p>
注釋:您也許已經注意到XML聲明沒有關閉标簽。這不是錯誤。聲明不屬于XML本身的組成部分。它不是XML元素,也不需要關閉标簽。
1.2.2 XML标簽對大小寫敏感
XML元素使用XML标簽進行定義。
XML标簽對大小寫敏感。在XML中,标簽與标簽是不同的。
必須使用相同的大小寫來編寫打開标簽和關閉标簽:
<Message>這是錯誤的。</message>
<message>這是正确的。</message>
1.2.3 XML标簽對大小寫敏感
在 HTML 中,常會看到沒有正确嵌套的元素:
<b><i>This text is bold and italic</b></i>
在 XML中,所有元素都必須彼此正确地嵌套:
<b><i>This text is bold and italic</i></b>
在上例中,正确嵌套的意思是:由于<i>元素是在<b>元素内打開的,那麼它必須在<b>元素内關閉。
1.2.4 XML文檔必須有根元素
XML文檔必須有一個元素是所有其他元素的父元素。該元素稱為根元素。
<root>
<child>
<subchild>.....</subchild>
</child>
</root>
1.2.5 XML的屬性值須加引号
與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。 在 XML 中,XML 的屬性值須加引号。請研究下面的兩個 XML 文檔。第一個是錯誤的,第二個是正确的:
<note date=08/08/2008>
<to>George</to>
<from>John</from>
</note>
<note date="08/08/2008">
<to>George</to>
<from>John</from>
</note>
1.2.6 實體引用
在 XML 中,一些字元擁有特殊的意義。 如果你把字元 “<” 放在 XML 元素中,會發生錯誤,這是因為解析器會把它當作新元素的開始。 這樣會産生 XML 錯誤:
<message>if salary < 1000 then</message>
為了避免這個錯誤,請用實體引用來代替 “<” 字元:
<message>if salary < 1000 then</message>
在 XML 中,有 5 個預定義的實體引用:
< < 小于
> > 大于
& & 和号
' ' 單引号
" " 引号
注釋:在 XML 中,隻有字元 “<” 和 “&” 确實是非法的。大于号是合法的,但是用實體引用來代替它是一個好習慣。
1.2.7 XML中的注釋
在 XML 中編寫注釋的文法與 HTML 的文法很相似:
<!-- This is a comment -->
在 XML 中,空格會被保留 HTML 會把多個連續的空格字元裁減(合并)為一個:
HTML: Hello my name is David.
輸出: Hello my name is David. 在 XML 中,文檔中的空格不會被删節。
1.2.8 以 LF 存儲換行
在 Windows 應用程式中,換行通常以一對字元來存儲:回車符 (CR) 和換行符 (LF)。這對字元與打字機設定新行的動作有相似之處。在 Unix 應用程式中,新行以 LF 字元存儲。而 Macintosh 應用程式使用CR來存儲新行。
1.3 XML CDATA
所有XML文檔中的文本均會被解析器解析。
隻有CDATA區段(CDATA section)中的文本會被解析器忽略。
1.3.1 PCDATA
PCDATA指的是被解析的字元資料(Parsed Character Data)。
XML解析器通常會解析XML文檔中所有的文本。 當某個XML元素被解析時,其标簽之間的文本也會被解析:
<message>此文本也會被解析</message>
解析器之是以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的元素包含着另外的兩個元素(first和last):
<name><first>Bill</first><last>Gates</last></name>
而解析器會把它分解為像這樣的子元素:
<name>
<first>Bill</first>
<last>Gates</last>
</name>
1.3.2 轉義字元
非法的XML字元必須被替換為實體引用(entity reference)。
假如您在XML文檔中放置了一個類似 “<” 字元,那麼這個文檔會産生一個錯誤,這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫:
<message>if salary < 1000 then</message>
為了避免此類錯誤,需要把字元 “<” 替換為實體引用,就像這樣:
<message>if salary < 1000 then</message>
在 XML 中有 5 個預定義的實體引用:
< < 小于
> > 大于
& & 和号
' ' 省略号
" " 引号
注釋:嚴格地講,在XML中僅有字元”<“和”&“是非法的。省略号、引号和大于号是合法的,但是把它們替換為實體引用是個好的習慣。
1.3.3 CDATA
術語CDATA指的是不應由XML解析器進行解析的文本資料(Unparsed Character Data)。
在 XML 元素中,”<“ 和 ”&“ 是非法的。
“<” 會産生錯誤,因為解析器會把該字元解釋為新元素的開始。 “&” 也會産生錯誤,因為解析器會把該字元解釋為字元實體的開始。
某些文本,比如 JavaScript 代碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以将腳本代碼定義為 CDATA。 CDATA 部分中的所有内容都會被解析器忽略。
CDATA 部分由 “<![CDATA[” 開始,由 “]]>” 結束:
<?xml version="1.0" encoding="utf-8"?>
<response>
<header>
<respcode>0</respcode>
<total>1736</total>
</header>
<result>
<album>
<album_id>320305900</album_id>
<title> <![CDATA[ 電影侃侃之初戀永不早 ]]> </title>
<tag> <![CDATA[ 18歲以上 當代 暧昧 華語 ]]> </tag>
<img>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_120_160.jpg</img>
<img180236>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_180_236.jpg</img180236>
<img11577>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_115_77.jpg</img11577>
<img220124>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_284_160.jpg</img220124>
<category_id>1</category_id>
<score>0.0</score>
<voters>0</voters>
<tv_sets>0</tv_sets>
<duration>00:38:57</duration>
<year> <![CDATA[ 2014 ]]> </year>
<tv_focus>跟愛情片學把妹心經</tv_focus>
<episode_count>1</episode_count>
<directors> <![CDATA[ 關雅荻 ]]> </directors>
<mainactors> <![CDATA[ 關雅荻 ]]> </mainactors>
<actors> <![CDATA[ ]]> </actors>
<vv2> <![CDATA[ 15 ]]> </vv2>
<timeText> <![CDATA[ 今天 ]]> </timeText>
<first_issue_time> <![CDATA[ 2014-10-16 ]]> </first_issue_time>
<up>0</up>
<down>0</down>
<download>1</download>
<purchase_type>0</purchase_type>
<hot_or_new>0</hot_or_new>
<createtime>2014-10-16 12:25:08</createtime>
<purchase>0</purchase>
<desc> <![CDATA[
本期節目主持人介紹新近上映的口碑愛情片,。主持人輕松幽默的羅列出胡鳄魚導演拍攝的愛情片越來越接地氣,博得觀衆的認同和追捧,更提出“初戀永遠不嫌早”的口号。觀衆可以跟着愛情片學習把妹心經。
]]> </desc>
<ip_limit>1</ip_limit>
<episodes/>
</album>
</result>
</response>
這是展示一部電影的具體資料,包括标題、介紹、内容、導演、演員、時長、上映年份等很多内容。
1.5 XML樹結構
XML文檔形成了一種樹結構,它從“根部”開始,然後擴充到“枝葉”。
1.5.1 一個XML文檔執行個體
XML使用簡單的具有自我描述性的文法:
<?xml version="1.0" encoding="ISO-8859-1"?>
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
第一行是XML聲明。它定義XML的版本(1.0)和所使用的編碼(ISO-8859-1=Latin-1/西歐字元集)。
下一行描述文檔的根元素(像在說:“本文檔是一個便簽”):
<note>
接下來 4 行描述根的 4 個子元素(to, from, heading 以及 body):
1 2 3 4 | <to>George</to> <from>John</from> <heading>Reminder</heading> <body>Don't forget the meeting!</body> |
最後一行定義根元素的結尾:
</note>
從本例可以設想,該XML文檔包含了John給George的一張便簽。
- XML具有出色的自我描述性,你同意嗎?
- XML文檔形成一種樹結構
- XML文檔必須包含根元素。該元素是所有其他元素的父元素。
- XML文檔中的元素形成了一棵文檔樹。這棵樹從根部開始,并擴充到樹的最底端。
所有元素均可擁有子元素:
<root>
<child>
<subchild>.....</subchild>
</child>
</root>
父、子以及同胞等術語用于描述元素之間的關系。父元素擁有子元素。相同層級上的子元素成為同胞(兄弟或姐妹)。
所有元素均可擁有文本内容和屬性(類似HTML中)。
1.6 XML DOM
想到這裡,大家都有點迫不及待了,XML 檔案到底如何解析呢?
但是,别急,讓子彈先飛會兒
在XML解析之前,我們必須系統性的學習一下 XML DOM 知識:
1.6.1 定義
XML DOM(XML Document Object Model) 定義了通路和操作XML文檔的标準方法。
DOM把XML文檔作為樹結構來檢視。能夠通過DOM樹來通路所有元素。可以修改或删除它們的内容,并建立新的元素。元素,它們的文本,以及它們的屬性,都被認為是節點。
XML DOM是:
- 用于XML的标準對象模型
- 用于XML的标準程式設計接口
- 中立于平台和語言
- W3C的标準
XML DOM定義了所有XML元素的對象和屬性,以及通路它們的方法(接口)。
換句話說:
XML DOM是用于擷取、更改、添加或删除XML元素的标準
DOM将XML文檔作為一個樹形結構,而樹葉被定義為節點。
1.6.2 總結
XML DOM其實比較複雜,在這麼短的篇幅裡也無法一一進行講解。想詳細了解XML DOM可以好好去學習下
1.7 XML如何解析?
上面講了這麼多關于XML的東西,那麼XML檔案應該如何解析呢?
終于到了我們的重頭戲了
下面以視訊項目為例,展示如何解析XML檔案:
1.7.1 Step 1
XML檔案是一棵樹,首先需要找到對應的節點,然後從節點開始解析,比如搜尋找到的就是result/weights/weight 和result/weights/weight 2個節點,分别從這個開始解析:
public ResultInfo onParser(Element rootElement) {
int resp = -1;
try {
String elName = "header/respcode";
resp = Integer.parseInt(selectNodeString(rootElement, elName));
} catch (NumberFormatException e) {
e.printStackTrace();
}
Log.d(TAG, "resp= " + resp);
if (resp != 0) {
return null;
}
ResultInfo searchResultInfo = new ResultInfo();
// Parse Search Weight
@SuppressWarnings("rawtypes")
final List weights = rootElement.selectNodes(rootElement.getPath() + "/"
+ "result/weights/weight");
ResultInfo[] resultFilterInfos = parseVideos(weights);
if (resultFilterInfos != null) {
ResultInfo weight = new ResultInfo();
weight.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultFilterInfos);
searchResultInfo.putResultInfo(ResultInfo.KEY_WEIGHT, weight);
}
// Parse Albums
@SuppressWarnings("rawtypes")
final List albums = rootElement.selectNodes(rootElement.getPath() + "/"
+ "result/albums/album");
ResultInfo[] resultInfos = parseVideos(albums);
if (resultInfos != null) {
ResultInfo album = new ResultInfo();
album.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultInfos);
searchResultInfo.putResultInfo(ResultInfo.KEY_SEARCH, album);
}
return searchResultInfo;
}
1.7.2 Step 2
找到了對應的Node,即從對應的Node開始遞歸的查找,直到找到最小的節點,也就是最基本的單元Element。再對每一個Element進行解析:
private ResultInfo[] parseVideos(final List nodes) {
if (nodes != null && nodes.size() > 0) {
final int size = nodes.size();
final ResultInfo[] vis = new ResultInfo[size];
int i = 0;
for (Object o : nodes) {
if (o instanceof Element) {
final Element videoElement = (Element) o;
ResultInfo vi = parseVideo(videoElement);
vis[i] = vi;
}
i++;
}
return vis;
}
return null;
}
1.7.3 Step 3
針對擷取到的Element,解析出對應的String将資料傳遞給VideoInfo這個類:
private ResultInfo parseVideo(final Element videoElement) {
final String id = videoElement.elementText("album_id");
final String title = videoElement.elementText("title");
final String categoryId = videoElement.elementText("category_id");
final String categoryName = videoElement.elementText("category_name");
final String count = videoElement.elementText("count");
final String imgUrl = videoElement.elementText("img180236");
final String duration = videoElement.elementText("duration");
final String mainactors = videoElement.elementText("mainactors");
final String sitename = videoElement.elementText("site_name");
final String videourl = videoElement.elementText("vedio_url");
final String sort = videoElement.elementText("sort");
final String tv_id = videoElement.elementText("tv_id");
ResultInfo vi = new ResultInfo();
vi.putString(VideoInfo.ID, id);
vi.putString(VideoInfo.TITLE, title);
vi.putString(VideoInfo.CATEGORY_ID, categoryId);
vi.putString(VideoInfo.CATEGORY_NAME, categoryName);
vi.putString(VideoInfo.COUNT, count);
vi.putString(VideoInfo.IMG_URL, imgUrl);
vi.putString(VideoInfo.DURATION, duration);
vi.putString(VideoInfo.MAINACTORS, mainactors);
vi.putString(VideoInfo.SITENAME, sitename);
vi.putString(VideoInfo.VIDEOURL, videourl);
vi.putString(VideoInfo.SORT, sort);
vi.putString(VideoInfo.TV_ID, tv_id);
return vi;
}
1.7.4 Step 4
當使用XML解析器将XML資料解析出來之後。需要将這些資料提取出來,也是通過連續2層提取,将資料定位到每個video, 将每個video裡的資料傳遞給SearchVideoInfo這個ArrayList,然後将ArrayList中的資料和對應的Adapter資料關聯起來:
public static ArrayList<SearchVideoInfo> getSearchVideoInfo(ResultInfo searchResultInfo) {
ResultInfo resultInfo = null;
ResultInfo[] videos = null;
ArrayList<SearchVideoInfo> searchVideoInfos = null;
if (searchResultInfo != null) {
resultInfo = searchResultInfo.getResultInfo(ResultInfo.KEY_SEARCH);
}
if (resultInfo != null) {
videos = resultInfo.getResultInfoArray(ResultInfo.KEY_VIDEOS);
}
if (videos != null && videos.length > 0) {
searchVideoInfos = new ArrayList<SearchVideoInfo>(videos.length);
for (ResultInfo video : videos) {
SearchVideoInfo searchInfo = new SearchVideoInfo();
searchInfo.setAlbum_id(video.getString(VideoInfo.ID));
searchInfo.setTitle(video.getString(VideoInfo.TITLE));
searchInfo.setChannel_id(video.getString(VideoInfo.CATEGORY_ID));
searchInfo.setImgUrl(video.getString(VideoInfo.IMG_URL));
searchInfo.setDuration(video.getString(VideoInfo.DURATION));
searchInfo.setMainActors(video.getString(VideoInfo.MAINACTORS));
searchInfo.setSiteName(video.getString(VideoInfo.SITENAME));
searchInfo.setVideo_url(video.getString(VideoInfo.VIDEOURL));
searchInfo.setOrder(video.getString(VideoInfo.SORT));
searchInfo.setTv_id(video.getString(VideoInfo.TV_ID));
// searchInfo.setContinueType(video.getString(VideoInfo.CONTINUETYPE));
searchVideoInfos.add(searchInfo);
}
}
if (searchVideoInfos == null) {
MyLog.e(TAG, "error, getSearchVideoInfo, can not get info");
}
return searchVideoInfos;
}
以上就是搜尋資料的XML的解析和資料展示過程。
接下文
來源: Long Luo 的部落格
連結:http://longluo.github.io/blog/20141031/master-XML-JSON-and-how-to-aprse-them-in-10-minutes/
引言
NOKIA 有句著名的廣告語:“科技以人為本”。任何技術都是為了滿足人的生産生活需要而産生的。具體到小小的一個手機,裡面蘊含的技術也是浩如煙海,是幾千年來人類科技的結晶,單個人窮其一生也未必能掌握其一角。不過個人一直認為基本的技術和思想是放之四海而皆準的,許多技術未必需要我們從頭到尾再研究一遍,我們要做的就是站在巨人的肩膀上,利用其成果來為人們的需求服務。
随着移動網際網路時代的大潮,越來越多的App不光是需要和網絡伺服器進行資料傳輸和互動,也需要和其他 App 進行資料傳遞。承擔App與網絡來進行傳輸和存儲資料的一般是XML或者JSON。在移動網際網路時代,XML和JSON很重要。
最近一段時間,個人綜合了之前對XML、JSON的一些了解,參考了相關資料,再結合視訊的代碼,把自己的一些思考融入了這篇總結文檔中,同時嘗試用通俗诙諧的語言風格來闡述,期望能給感興趣的讀者帶來幫助。
為了不和時代落伍,我們必須要學習 XML 和 JSON,但同時它們也很容易學習,Let’s start
一、XML
XML即可擴充标記語言(eXtensible Markup Language)。标記是指計算機所能了解的資訊符号,通過此種标記,計算機之間可以處理包含各種資訊的文章等。如何定義這些标記,既可以選擇國際通用的标記語言,比如HTML,也可以使用象XML這樣由相關人士自由決定的标記語言,這就是語言的可擴充性。XML是從SGML中簡化修改出來的。它主要用到的有XML、XSL和XPath等。
上面這段是對XML的一個基本定義,一個被廣泛接受的說明。簡單說,XML就是一種資料的描述語言,雖然它是語言,但是通常情況下,它并不具備常見語言的基本功能——被計算機識别并運作。隻有依靠另一種語言,來解釋它,使它達到你想要的效果或被計算機所接受。
記住以下幾點就行了:
- XML是一種标記語言,很類似HTML
- XML的設計宗旨是傳輸資料,而非顯示資料
- XML标簽沒有被預定義。您需要自行定義标簽。
- XML被設計為具有自我描述性。
- XML是W3C的推薦标準
總結:
XML是獨立于軟體和硬體的資訊傳輸工具。 目前,XML在Web中起到的作用不會亞于一直作為 Web 基石的 HTML。 XML無所不在。XML是各種應用程式之間進行資料傳輸的最常用的工具,并且在資訊存儲和描述領域變得越來越流行。
1.1 XML屬性
1.1.1 XML與HTML的主要差異
- XML不是HTML的替代。
- XML和HTML為不同的目的而設計。
- XML被設計為傳輸和存儲資料,其焦點是資料的内容。
- HTML被設計用來顯示資料,其焦點是資料的外觀。
- HTML旨在顯示資訊,而 XML 旨在傳輸資訊
1.1.2 XML是不作為的。
也許這有點難以了解,但是XML不會做任何事情。XML被設計用來結構化、存儲以及傳輸資訊。
下面是John寫給George的便簽,存儲為XML:
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
上面的這條便簽具有自我描述性。它擁有标題以及留言,同時包含了發送者和接受者的資訊。但是,這個 XML 文檔仍然沒有做任何事情。它僅僅是包裝在XML标簽中的純粹的資訊。我們需要編寫軟體或者程式,才能傳送、接收和顯示出這個文檔。
1.1.3 XML僅僅是純文字
XML沒什麼特别的。它僅僅是純文字而已。有能力處理純文字的軟體都可以處理XML。 不過,能夠讀懂 XML 的應用程式可以有針對性地處理 XML 的标簽。标簽的功能性意義依賴于應用程式的特性。
1.1.4 XML允許自定義标簽
上例中的标簽沒有在任何XML标準中定義過(比如和)。這些标簽是由文檔的創作者發明的。這是因為XML沒有預定義的标簽。
在HTML中使用的标簽(以及HTML的結構)是預定義的。HTML文檔隻使用在HTML标準中定義過的标簽(比如<p>,<h1> 等等)。
XML允許創作者定義自己的标簽和自己的文檔結構。
1.1.5 XML不是對HTML的替代
XML是對HTML的補充。
XML不會替代HTML,了解這一點很重要。在大多數 web 應用程式中,XML用于傳輸資料,而HTML用于格式化并顯示資料。
1.2 XML的文法
XML的文法規則很簡單,且很有邏輯。這些規則很容易學習,也很容易使用。
1.2.1 所有元素都必須有關閉标簽
在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽。 在HTML,經常會看到沒有關閉标簽的元素:
<p>This is a paragraph
<p>This is another paragraph
在XML中,省略關閉标簽是非法的。所有元素都必須有關閉标簽:
<p>This is a paragraph</p>
<p>This is another paragraph</p>
注釋:您也許已經注意到XML聲明沒有關閉标簽。這不是錯誤。聲明不屬于XML本身的組成部分。它不是XML元素,也不需要關閉标簽。
1.2.2 XML标簽對大小寫敏感
XML元素使用XML标簽進行定義。
XML标簽對大小寫敏感。在XML中,标簽與标簽是不同的。
必須使用相同的大小寫來編寫打開标簽和關閉标簽:
<Message>這是錯誤的。</message>
<message>這是正确的。</message>
1.2.3 XML标簽對大小寫敏感
在 HTML 中,常會看到沒有正确嵌套的元素:
<b><i>This text is bold and italic</b></i>
在 XML中,所有元素都必須彼此正确地嵌套:
<b><i>This text is bold and italic</i></b>
在上例中,正确嵌套的意思是:由于<i>元素是在<b>元素内打開的,那麼它必須在<b>元素内關閉。
1.2.4 XML文檔必須有根元素
XML文檔必須有一個元素是所有其他元素的父元素。該元素稱為根元素。
<root>
<child>
<subchild>.....</subchild>
</child>
</root>
1.2.5 XML的屬性值須加引号
與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。 在 XML 中,XML 的屬性值須加引号。請研究下面的兩個 XML 文檔。第一個是錯誤的,第二個是正确的:
<note date=08/08/2008>
<to>George</to>
<from>John</from>
</note>
<note date="08/08/2008">
<to>George</to>
<from>John</from>
</note>
1.2.6 實體引用
在 XML 中,一些字元擁有特殊的意義。 如果你把字元 “<” 放在 XML 元素中,會發生錯誤,這是因為解析器會把它當作新元素的開始。 這樣會産生 XML 錯誤:
<message>if salary < 1000 then</message>
為了避免這個錯誤,請用實體引用來代替 “<” 字元:
<message>if salary < 1000 then</message>
在 XML 中,有 5 個預定義的實體引用:
< < 小于
> > 大于
& & 和号
' ' 單引号
" " 引号
注釋:在 XML 中,隻有字元 “<” 和 “&” 确實是非法的。大于号是合法的,但是用實體引用來代替它是一個好習慣。
1.2.7 XML中的注釋
在 XML 中編寫注釋的文法與 HTML 的文法很相似:
<!-- This is a comment -->
在 XML 中,空格會被保留 HTML 會把多個連續的空格字元裁減(合并)為一個:
HTML: Hello my name is David.
輸出: Hello my name is David. 在 XML 中,文檔中的空格不會被删節。
1.2.8 以 LF 存儲換行
在 Windows 應用程式中,換行通常以一對字元來存儲:回車符 (CR) 和換行符 (LF)。這對字元與打字機設定新行的動作有相似之處。在 Unix 應用程式中,新行以 LF 字元存儲。而 Macintosh 應用程式使用CR來存儲新行。
1.3 XML CDATA
所有XML文檔中的文本均會被解析器解析。
隻有CDATA區段(CDATA section)中的文本會被解析器忽略。
1.3.1 PCDATA
PCDATA指的是被解析的字元資料(Parsed Character Data)。
XML解析器通常會解析XML文檔中所有的文本。 當某個XML元素被解析時,其标簽之間的文本也會被解析:
<message>此文本也會被解析</message>
解析器之是以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的元素包含着另外的兩個元素(first和last):
<name><first>Bill</first><last>Gates</last></name>
而解析器會把它分解為像這樣的子元素:
<name>
<first>Bill</first>
<last>Gates</last>
</name>
1.3.2 轉義字元
非法的XML字元必須被替換為實體引用(entity reference)。
假如您在XML文檔中放置了一個類似 “<” 字元,那麼這個文檔會産生一個錯誤,這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫:
<message>if salary < 1000 then</message>
為了避免此類錯誤,需要把字元 “<” 替換為實體引用,就像這樣:
<message>if salary < 1000 then</message>
在 XML 中有 5 個預定義的實體引用:
< < 小于
> > 大于
& & 和号
' ' 省略号
" " 引号
注釋:嚴格地講,在XML中僅有字元”<“和”&“是非法的。省略号、引号和大于号是合法的,但是把它們替換為實體引用是個好的習慣。
1.3.3 CDATA
術語CDATA指的是不應由XML解析器進行解析的文本資料(Unparsed Character Data)。
在 XML 元素中,”<“ 和 ”&“ 是非法的。
“<” 會産生錯誤,因為解析器會把該字元解釋為新元素的開始。 “&” 也會産生錯誤,因為解析器會把該字元解釋為字元實體的開始。
某些文本,比如 JavaScript 代碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以将腳本代碼定義為 CDATA。 CDATA 部分中的所有内容都會被解析器忽略。
CDATA 部分由 “<![CDATA[” 開始,由 “]]>” 結束:
<?xml version="1.0" encoding="utf-8"?>
<response>
<header>
<respcode>0</respcode>
<total>1736</total>
</header>
<result>
<album>
<album_id>320305900</album_id>
<title> <![CDATA[ 電影侃侃之初戀永不早 ]]> </title>
<tag> <![CDATA[ 18歲以上 當代 暧昧 華語 ]]> </tag>
<img>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_120_160.jpg</img>
<img180236>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_180_236.jpg</img180236>
<img11577>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_115_77.jpg</img11577>
<img220124>http://pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_284_160.jpg</img220124>
<category_id>1</category_id>
<score>0.0</score>
<voters>0</voters>
<tv_sets>0</tv_sets>
<duration>00:38:57</duration>
<year> <![CDATA[ 2014 ]]> </year>
<tv_focus>跟愛情片學把妹心經</tv_focus>
<episode_count>1</episode_count>
<directors> <![CDATA[ 關雅荻 ]]> </directors>
<mainactors> <![CDATA[ 關雅荻 ]]> </mainactors>
<actors> <![CDATA[ ]]> </actors>
<vv2> <![CDATA[ 15 ]]> </vv2>
<timeText> <![CDATA[ 今天 ]]> </timeText>
<first_issue_time> <![CDATA[ 2014-10-16 ]]> </first_issue_time>
<up>0</up>
<down>0</down>
<download>1</download>
<purchase_type>0</purchase_type>
<hot_or_new>0</hot_or_new>
<createtime>2014-10-16 12:25:08</createtime>
<purchase>0</purchase>
<desc> <![CDATA[
本期節目主持人介紹新近上映的口碑愛情片,。主持人輕松幽默的羅列出胡鳄魚導演拍攝的愛情片越來越接地氣,博得觀衆的認同和追捧,更提出“初戀永遠不嫌早”的口号。觀衆可以跟着愛情片學習把妹心經。
]]> </desc>
<ip_limit>1</ip_limit>
<episodes/>
</album>
</result>
</response>
這是展示一部電影的具體資料,包括标題、介紹、内容、導演、演員、時長、上映年份等很多内容。
1.5 XML樹結構
XML文檔形成了一種樹結構,它從“根部”開始,然後擴充到“枝葉”。
1.5.1 一個XML文檔執行個體
XML使用簡單的具有自我描述性的文法:
<?xml version="1.0" encoding="ISO-8859-1"?>
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
第一行是XML聲明。它定義XML的版本(1.0)和所使用的編碼(ISO-8859-1=Latin-1/西歐字元集)。
下一行描述文檔的根元素(像在說:“本文檔是一個便簽”):
<note>
接下來 4 行描述根的 4 個子元素(to, from, heading 以及 body):
1 2 3 4 | <to>George</to> <from>John</from> <heading>Reminder</heading> <body>Don't forget the meeting!</body> |
最後一行定義根元素的結尾:
</note>
從本例可以設想,該XML文檔包含了John給George的一張便簽。
- XML具有出色的自我描述性,你同意嗎?
- XML文檔形成一種樹結構
- XML文檔必須包含根元素。該元素是所有其他元素的父元素。
- XML文檔中的元素形成了一棵文檔樹。這棵樹從根部開始,并擴充到樹的最底端。
所有元素均可擁有子元素:
<root>
<child>
<subchild>.....</subchild>
</child>
</root>
父、子以及同胞等術語用于描述元素之間的關系。父元素擁有子元素。相同層級上的子元素成為同胞(兄弟或姐妹)。
所有元素均可擁有文本内容和屬性(類似HTML中)。
1.6 XML DOM
想到這裡,大家都有點迫不及待了,XML 檔案到底如何解析呢?
但是,别急,讓子彈先飛會兒
在XML解析之前,我們必須系統性的學習一下 XML DOM 知識:
1.6.1 定義
XML DOM(XML Document Object Model) 定義了通路和操作XML文檔的标準方法。
DOM把XML文檔作為樹結構來檢視。能夠通過DOM樹來通路所有元素。可以修改或删除它們的内容,并建立新的元素。元素,它們的文本,以及它們的屬性,都被認為是節點。
XML DOM是:
- 用于XML的标準對象模型
- 用于XML的标準程式設計接口
- 中立于平台和語言
- W3C的标準
XML DOM定義了所有XML元素的對象和屬性,以及通路它們的方法(接口)。
換句話說:
XML DOM是用于擷取、更改、添加或删除XML元素的标準
DOM将XML文檔作為一個樹形結構,而樹葉被定義為節點。
1.6.2 總結
XML DOM其實比較複雜,在這麼短的篇幅裡也無法一一進行講解。想詳細了解XML DOM可以好好去學習下
1.7 XML如何解析?
上面講了這麼多關于XML的東西,那麼XML檔案應該如何解析呢?
終于到了我們的重頭戲了
下面以視訊項目為例,展示如何解析XML檔案:
1.7.1 Step 1
XML檔案是一棵樹,首先需要找到對應的節點,然後從節點開始解析,比如搜尋找到的就是result/weights/weight 和result/weights/weight 2個節點,分别從這個開始解析:
public ResultInfo onParser(Element rootElement) {
int resp = -1;
try {
String elName = "header/respcode";
resp = Integer.parseInt(selectNodeString(rootElement, elName));
} catch (NumberFormatException e) {
e.printStackTrace();
}
Log.d(TAG, "resp= " + resp);
if (resp != 0) {
return null;
}
ResultInfo searchResultInfo = new ResultInfo();
// Parse Search Weight
@SuppressWarnings("rawtypes")
final List weights = rootElement.selectNodes(rootElement.getPath() + "/"
+ "result/weights/weight");
ResultInfo[] resultFilterInfos = parseVideos(weights);
if (resultFilterInfos != null) {
ResultInfo weight = new ResultInfo();
weight.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultFilterInfos);
searchResultInfo.putResultInfo(ResultInfo.KEY_WEIGHT, weight);
}
// Parse Albums
@SuppressWarnings("rawtypes")
final List albums = rootElement.selectNodes(rootElement.getPath() + "/"
+ "result/albums/album");
ResultInfo[] resultInfos = parseVideos(albums);
if (resultInfos != null) {
ResultInfo album = new ResultInfo();
album.putResultInfoArray(ResultInfo.KEY_VIDEOS, resultInfos);
searchResultInfo.putResultInfo(ResultInfo.KEY_SEARCH, album);
}
return searchResultInfo;
}
1.7.2 Step 2
找到了對應的Node,即從對應的Node開始遞歸的查找,直到找到最小的節點,也就是最基本的單元Element。再對每一個Element進行解析:
private ResultInfo[] parseVideos(final List nodes) {
if (nodes != null && nodes.size() > 0) {
final int size = nodes.size();
final ResultInfo[] vis = new ResultInfo[size];
int i = 0;
for (Object o : nodes) {
if (o instanceof Element) {
final Element videoElement = (Element) o;
ResultInfo vi = parseVideo(videoElement);
vis[i] = vi;
}
i++;
}
return vis;
}
return null;
}
1.7.3 Step 3
針對擷取到的Element,解析出對應的String将資料傳遞給VideoInfo這個類:
private ResultInfo parseVideo(final Element videoElement) {
final String id = videoElement.elementText("album_id");
final String title = videoElement.elementText("title");
final String categoryId = videoElement.elementText("category_id");
final String categoryName = videoElement.elementText("category_name");
final String count = videoElement.elementText("count");
final String imgUrl = videoElement.elementText("img180236");
final String duration = videoElement.elementText("duration");
final String mainactors = videoElement.elementText("mainactors");
final String sitename = videoElement.elementText("site_name");
final String videourl = videoElement.elementText("vedio_url");
final String sort = videoElement.elementText("sort");
final String tv_id = videoElement.elementText("tv_id");
ResultInfo vi = new ResultInfo();
vi.putString(VideoInfo.ID, id);
vi.putString(VideoInfo.TITLE, title);
vi.putString(VideoInfo.CATEGORY_ID, categoryId);
vi.putString(VideoInfo.CATEGORY_NAME, categoryName);
vi.putString(VideoInfo.COUNT, count);
vi.putString(VideoInfo.IMG_URL, imgUrl);
vi.putString(VideoInfo.DURATION, duration);
vi.putString(VideoInfo.MAINACTORS, mainactors);
vi.putString(VideoInfo.SITENAME, sitename);
vi.putString(VideoInfo.VIDEOURL, videourl);
vi.putString(VideoInfo.SORT, sort);
vi.putString(VideoInfo.TV_ID, tv_id);
return vi;
}
1.7.4 Step 4
當使用XML解析器将XML資料解析出來之後。需要将這些資料提取出來,也是通過連續2層提取,将資料定位到每個video, 将每個video裡的資料傳遞給SearchVideoInfo這個ArrayList,然後将ArrayList中的資料和對應的Adapter資料關聯起來:
public static ArrayList<SearchVideoInfo> getSearchVideoInfo(ResultInfo searchResultInfo) {
ResultInfo resultInfo = null;
ResultInfo[] videos = null;
ArrayList<SearchVideoInfo> searchVideoInfos = null;
if (searchResultInfo != null) {
resultInfo = searchResultInfo.getResultInfo(ResultInfo.KEY_SEARCH);
}
if (resultInfo != null) {
videos = resultInfo.getResultInfoArray(ResultInfo.KEY_VIDEOS);
}
if (videos != null && videos.length > 0) {
searchVideoInfos = new ArrayList<SearchVideoInfo>(videos.length);
for (ResultInfo video : videos) {
SearchVideoInfo searchInfo = new SearchVideoInfo();
searchInfo.setAlbum_id(video.getString(VideoInfo.ID));
searchInfo.setTitle(video.getString(VideoInfo.TITLE));
searchInfo.setChannel_id(video.getString(VideoInfo.CATEGORY_ID));
searchInfo.setImgUrl(video.getString(VideoInfo.IMG_URL));
searchInfo.setDuration(video.getString(VideoInfo.DURATION));
searchInfo.setMainActors(video.getString(VideoInfo.MAINACTORS));
searchInfo.setSiteName(video.getString(VideoInfo.SITENAME));
searchInfo.setVideo_url(video.getString(VideoInfo.VIDEOURL));
searchInfo.setOrder(video.getString(VideoInfo.SORT));
searchInfo.setTv_id(video.getString(VideoInfo.TV_ID));
// searchInfo.setContinueType(video.getString(VideoInfo.CONTINUETYPE));
searchVideoInfos.add(searchInfo);
}
}
if (searchVideoInfos == null) {
MyLog.e(TAG, "error, getSearchVideoInfo, can not get info");
}
return searchVideoInfos;
}
以上就是搜尋資料的XML的解析和資料展示過程。
接下文