XML 特殊字元處理和 CDATA

2016-04-04 00:07:00

在處理XML資料時，特殊字元要特殊處理，不能和節點字元混淆。

所有 XML 文檔中的文本均會被解析器解析。

隻有 CDATA 區段（CDATA section）中的文本會被解析器忽略。

PCDATA

PCDATA 指的是被解析的字元資料（Parsed Character Data）。

XML 解析器通常會解析 XML 文檔中所有的文本。

當某個 XML 元素被解析時，其标簽之間的文本也會被解析：

<message>此文本也會被解析</message>

解析器之是以這麼做是因為 XML 元素可包含其他元素，就像這個例子中，其中的 <name> 元素包含着另外的兩個元素(first 和 last)：

<name><first>Bill</first><last>Gates</last></name>

而解析器會把它分解為像這樣的子元素：

<name>

<last>Gates</last>

</name>

轉義字元

非法的 XML 字元必須被替換為實體引用（entity reference）。

假如您在 XML 文檔中放置了一個類似 "<" 字元，那麼這個文檔會産生一個錯誤，這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫：

<message>if salary < 1000 then</message>

為了避免此類錯誤，需要把字元 "<" 替換為實體引用，就像這樣：

<message>if salary &lt; 1000 then</message>

在 XML 中有 5 個預定義的實體引用：

&lt;

小于

&gt;

大于

&amp;

和号

&apos;

單引号

&quot;

雙引号

注釋：嚴格地講，在 XML 中僅有字元 "<"和"&" 是非法的。省略号、引号和大于号是合法的，但是把它們替換為實體引用是個好的習慣。

CDATA

術語 CDATA 指的是不應由 XML 解析器進行解析的文本資料（Unparsed Character Data）。

在 XML 元素中，"<" 和 "&" 是非法的。

"<" 會産生錯誤，因為解析器會把該字元解釋為新元素的開始。

"&" 也會産生錯誤，因為解析器會把該字元解釋為字元實體的開始。

某些文本，比如 JavaScript 代碼，包含大量 "<" 或 "&" 字元。為了避免錯誤，可以将腳本代碼定義為 CDATA。

CDATA 部分中的所有内容都會被解析器忽略。

CDATA 部分由 "<![CDATA[" 開始，由 "]]>" 結束：

在上面的例子中，解析器會忽略 CDATA 部分中的所有内容。

關于 CDATA 部分的注釋：

CDATA 部分不能包含字元串 "]]>"。也不允許嵌套的 CDATA 部分。

标記 CDATA 部分結尾的 "]]>" 不能包含空格或折行。

XML 特殊字元處理和 CDATA

繼續閱讀

出現invalid byte 1 of 1-byte UTF-8 sequence問題

Perl與網絡監控

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

PAT (Advanced Level) Practise 1131 Subway Map (30)

ZOJ 3938 Defuse the Bomb

CSU 1565 Word Cloud

ZOJ 3700 Ever Dream

為什麼要選擇UniDAC

ZOJ 1199 Point of Intersection

CSU 1567 Reverse Rot

SIP Presence SUBSCRIBE-NOTIFY

QName是什麼

詳解STM32單片機的堆棧