在處理XML資料時,特殊字元要特殊處理,不能和節點字元混淆。
所有 XML 文檔中的文本均會被解析器解析。
隻有 CDATA 區段(CDATA section)中的文本會被解析器忽略。
PCDATA
PCDATA 指的是被解析的字元資料(Parsed Character Data)。
XML 解析器通常會解析 XML 文檔中所有的文本。
當某個 XML 元素被解析時,其标簽之間的文本也會被解析:
<message>此文本也會被解析</message>
解析器之是以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的 <name> 元素包含着另外的兩個元素(first 和 last):
<name><first>Bill</first><last>Gates</last></name>
而解析器會把它分解為像這樣的子元素:
<name>
<first>Bill</first>
<last>Gates</last>
</name>
轉義字元
非法的 XML 字元必須被替換為實體引用(entity reference)。
假如您在 XML 文檔中放置了一個類似 "<" 字元,那麼這個文檔會産生一個錯誤,這是因為解析器會把它解釋為新元素的開始。是以你不能這樣寫:
<message>if salary < 1000 then</message>
為了避免此類錯誤,需要把字元 "<" 替換為實體引用,就像這樣:
<message>if salary &lt; 1000 then</message>
在 XML 中有 5 個預定義的實體引用:
&lt;
<
小于
&gt;
>
大于
&amp;
&
和号
&apos;
'
單引号
&quot;
"
雙引号
注釋:嚴格地講,在 XML 中僅有字元 "<"和"&" 是非法的。省略号、引号和大于号是合法的,但是把它們替換為實體引用是個好的習慣。
CDATA
術語 CDATA 指的是不應由 XML 解析器進行解析的文本資料(Unparsed Character Data)。
在 XML 元素中,"<" 和 "&" 是非法的。
"<" 會産生錯誤,因為解析器會把該字元解釋為新元素的開始。
"&" 也會産生錯誤,因為解析器會把該字元解釋為字元實體的開始。
某些文本,比如 JavaScript 代碼,包含大量 "<" 或 "&" 字元。為了避免錯誤,可以将腳本代碼定義為 CDATA。
CDATA 部分中的所有内容都會被解析器忽略。
CDATA 部分由 "<![CDATA[" 開始,由 "]]>" 結束:
在上面的例子中,解析器會忽略 CDATA 部分中的所有内容。
關于 CDATA 部分的注釋:
CDATA 部分不能包含字元串 "]]>"。也不允許嵌套的 CDATA 部分。
标記 CDATA 部分結尾的 "]]>" 不能包含空格或折行。