天天看點

TinyXml學習筆記

TinyXml 是一個基于 DOM 模型的、非驗證的輕量級 C++ 解釋器。

目前 XML 的解析主要有兩大模型: SAX 和 DOM 。

其中 SAX 是基于事件的,其基本工作流程是分析 XML 文檔,當發現了一個新的元素時,産生一個對應事件,并調用相應的使用者處理函數。這種方式占用記憶體少,速度快,但使用者程式相應得會比較複雜。

而 DOM (文檔對象模型),則是在分析時,一次性的将整個 XML 文檔進行分析,并在記憶體中形成對應的樹結構,同時,向使用者提供一系列的接口來通路和編輯該樹結構。這種方式占用記憶體大,速度往往慢于 SAX ,但可以給使用者提供一個面向對象的通路接口,對使用者更為友好。

另據說,一些同時提供了 SAX 和 DOM 接口的庫,是在底層先實作 SAX ,再在 SAX 的基礎上實作 DOM 。

目前我知道的 XML 解析庫有下面幾個:

名稱

通路接口

是否支援驗證

備注

Expat

SAX/Local

不清楚

Local 指它還有一套自己通路模型

LibXML2

SAX/DOM

TinyXml

DOM

XML4C

和 Xerces-C 是一家,不過用了 ICU ,國際化似乎更好

Xerces-C

XML Booster

Local

這個庫不是特别了解,好像是類似 yacc 那樣,可以生成一個特定的解析器,估計效率應該很高(看名字也像)。

對于一個特定的 XML 文檔而言,其正确性分為兩個層次。首先是其格式應該符合 XML 的基本格式要求,比如第一行要有聲明,标簽的嵌套層次必須前後一緻等等,符合這些要求的檔案,就是一個合格的 XML 檔案,稱作 well-formatted 。但除此之外,一個 XML 文檔因其内容的不同還必須在語義上符合相應的标準,這些标準由相應的 DTD 檔案或者 Schema 檔案來定義,符合了這些定義要求的 XML 檔案,稱作 valid 。

是以,解析器也分為兩種,一種是驗證的,即會跟據 XML 檔案中的聲明,用相應的 DTD 檔案對 XML 檔案進行校驗,檢查它是否滿足 DTD 檔案的要求。另一種是忽略DTD 檔案,隻要基本格式正确,就可以進行解析。

就我所知,驗證的解析器通常都是比較重量級的。 TinyXml 不支援驗證,但是體積很小,用在解析格式較為簡單的 XML 檔案,比如配置檔案時,特别的合适。

TinyXml 在建構時可以選擇是否支援 STL ,選擇的話,則可以使用 std::string ,是以通常應該打開這個選項。

在 Windows 上, TinyXml 的源碼包裡提供了 VC6 的工程檔案,直接用它就可以生成兩個靜态庫(帶 STL 和不帶 STL ),非常容易。唯一需要注意的是,預設生成的庫是單線程的,如果用在多線程的項目中,需要改動一下配置,生成相應的多線程庫。

在 Unix 平台上, TinyXml 的源碼包裡隻提供了一個 Makefile ,對于典型的 Linux 系統,或裝了 gcc 和 gmake 的其他 Unix ,這個 Makefile 足夠用了,我在 RH9 和RHEL4 上測試,簡單的 make 就成功了。需要注意的有以下幾點:預設的編譯是不支援 STL 的,可以通過編輯 Makefile 的 TINYXML_USE_STL := NO 那一行,把 NO 改成 YES 就可以支援 STL 了;還有預設隻生成了一個測試程式,沒有生成任何庫,如果要生成靜态庫的話,可以用 ar 指令,将生成的幾個目标檔案打包就行了,如果要生成動态庫,則需要加上 -fpic 參數重新編譯。

建構了相應的庫之後,在使用了它們的工程中,隻要在連接配接時把他們連上就行了。需要注意的是,如果需要 STL 支援,在編譯用到了 TinyXml 的檔案時,需要定義一個宏TIXML_USE_STL ,對 gcc ,可以使用參數 -DTIXML_USE_STL ,對 cl.exe ( VC ),可以使用參數 /DTIXML_USE_STL ,如果嫌麻煩,可以直接定義在 tinyxml.h 檔案裡。

TinyXml 實作的時 DOM 通路模型,是以提供了一系列的類對應 XML 檔案中的各個節點。主要類間的關系如下圖所示:

TiXmlBase :其他類的基類,是個抽象類

TiXmlNode :表示一個節點,包含節點的一般方法,如通路自節點、兄弟節點、編輯自身、編輯子節電

TiXmlDocument :表示整個 XML 文檔,不對應其中某個特定的節點。

TiXmlElement :表示元素節點,可以包含子節點和 TiXmlAttribute

TiXmlComment :表示注釋

TiXmlDeclaration :表示聲明

TiXmlText :表示文本節點

TiXmlUnknown :表示未知節點,通常是出錯了

TiXmlAttribute :表示一個元素的屬性

下面是一個簡單的例子:

<?xml version="1.0" encoding="utf-8" ?>

<!-This is only a sample-->

<book>

       <name>TinyXml How To</name>

       <price unit=”RMB”>20</price>

       <description>Some words…</description>

</ book >

整個文檔,對應 TiXmlDocument

book,name,price , description ,都對應 TiXmlElement

第一行對應一個 TiXmlDeclaration

第二行對應一個 TiXmlComment

“TinyXml How To” 對應一個 TiXmlText

unit 則是 price 的一個 TiXmlAttribute

這些類與 XML 檔案中的相應元素都有很好的對應關系,是以相信參照 TinyXml 的文檔,可以很容易的掌握各個方法的使用。

<b>各類之間的轉換</b>

由于各個節點類都從 TiXmlNode 繼承,在使用時常常需要将 TiXmlNode * 類型的指針轉換為其派生類的指針,在進行這種轉換時,應該首先使用由 TiXmlNode 類提供的一系列轉換函數,如 ToElement (void) ,而不是 c++ 的 dynamic_cast

<b>檢查傳回值</b>

由于 TinyXml 是一個非校驗的解析器,是以當解析一個檔案時,很可能檔案并不包含我們預期的某個節點,在這種情況下, TinyXml 将傳回空指針。是以,必須要對傳回值進行檢查,否則将很容易出現記憶體通路的錯誤。

<b>如何重頭建立一個 XML </b><b>檔案</b>

先建立一個 TiXmlDocument 對象,然後,載入某個模闆,或者直接插入一個節點作為根節點,接着就可以像打開一個已有的 XML 檔案那樣對它進行操作了。

TinyXml 最大的特點就是它很小,可以很友善的靜态連接配接到程式裡。對于像配置檔案、簡單的資料檔案這類檔案的解析,它很适合。但是由于它是非驗證的,是以需要在程式裡做許多檢查工做,加重了程式編寫的負擔。是以對于複雜的 XML 檔案,我覺得最好還是用驗證的解析器來處理。

繼續閱讀