淺析使用SAX解析XML
1. 概述
Java解析XML通常有兩種方式,DOM和SAX。DOM雖然是W3C的标準,提供了标準的解析方式,但它的解析效率一直不盡如人意,因為使用DOM解析XML時,解析器讀入整個文檔并建構一個駐留記憶體的樹結構(節點樹),然後您的代碼才可以使用DOM的标準接口來操作這個樹結構。但大部分情況下我們隻對文檔的部分内容感興趣,根本就不用先解析整個文檔,并且從節點樹的根節點來索引一些我們需要的資料也是非常耗時的。
SAX是一種XML解析的替代方法。相比于文檔對象模型DOM,SAX是讀取和操作XML資料的更快速、更輕量的方法。SAX允許您在讀取文檔時處理它,進而不必等待整個文檔被存儲之後才采取操作。它不涉及DOM所必需的開銷和概念跳躍。
SAX解析XML文檔采用事件驅動模式。什麼是事件驅動模式?它将XML文檔轉換成一系列的事件,由單獨的事件處理器來決定如何處理。
基于事件驅動的處理模式主要是基于事件源和事件處理器(或者叫監聽器)來工作的。一個可以産生事件的對象叫做事件源,而一個可以針對事件做出響應的對象就被叫做事件處理器。
以下介紹使用SAX來解析XML,如果您對DOM解析感興趣,請自行查閱相關資料。
2. API
SAX API是一個基于事件的API,适用于處理資料流,即随着資料的流動而依次處理資料。
下面介紹類庫中常用到的接口與類。
2.1 ContentHandler接口
接口作用:用于接收XML文檔邏輯内容的通知的處理器接口。這是我們做XML的SAX解析最常用到的接口。
該接口中常用的方法:
/*
* 接收字元資料的通知。
* 在DOM中,ch數組從begin位置開始,長度為length的元素,
* 相當于Text節點的節點值(nodeValue)
*/
public void characters(char[] ch, int begin, int length) throws SAXException;
/*
* 接收元素結束的通知。
* 參數意義如下:
* uri:元素的命名空間
* localName:元素的本地名稱
* qName:元素的限定名
*
*/
public void endElement (String uri, String localName, String qName)
throws SAXException;
/*
* 接收文檔的開始的通知。
*/
public void startDocument () throws SAXException;
/*
* 接收元素開始的通知。
* 參數意義如下:
* uri:元素的命名空間
* localName:元素的本地名稱(不帶字首)
* qName:元素的限定名(帶字首)
* atts:元素的屬性集合
*/
public void startElement (String uri, String localName, String qName, Attributes atts)
throws SAXException;
2.2 DTDHandler 接口
接口作用:用于接收與DTD相關的事件的通知的處理器接口。
2.3 EntityResolver接口
接口作用:用于解析實體的基本接口。
2.4 ErrorHandler接口
接口作用:是用于錯誤處理程式的基本接口。
2.5 DefaultHandler類
實際上DefaultHandler就是實作了前述的四個事件處理器接口,然後提供了每個抽象方法的預設實作。
我們在使用SAX時,一般都是繼承自DefaultHandler,然後實作需要的方法,而保持其他方法預設實作。
2.6 SAXParser
SAX解析器,此類的執行個體可以從SAXParserFactory.newSAXParser() 方法獲得。擷取此類的執行個體之後,将可以從各種輸入源解析XML。
簡單示例:
xml檔案:
<employees>
<employee id="1">
<name>小明</name>
<age>29</age>
<address>四川成都</address>
</employee>
<employee id="2">
<name>老駱</name>
<age>35</age>
<address>四川成都</address>
</employee>
</employees>
處理器類:
package com.demo;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
/**
* 處理器類
*
* @author 小明
*
*/
public class MyHandler extends DefaultHandler {
// 存儲單個解析(employee)的完整對象
private Map<String, String> map;
// 存儲所有解析(employees)的完整對象
private List<Map<String, String>> list;
// 目前正在解析的元素的标簽名
private String currentTag;
// 目前正在解析的元素的值
private String currentValue;
// 目前需要解析的元素的節點名稱
private String nodeName;
public MyHandler(String nodeName) {
super();
this.nodeName = nodeName;
}
public List<Map<String, String>> getList() {
return list;
}
/**
* 當讀取到xml文檔準備開始解析的時候,這時會觸發這個方法的執行
*/
@Override
public void startDocument() throws SAXException {
list = new ArrayList<Map<String, String>>();
}
/**
* 當遇到元素開始的時候,調用這個方法
*/
@Override
public void startElement(String uri, String localName, String qName,
Attributes attributes) throws SAXException {
if (qName.equals(nodeName)) { // 是目前需要解析的節點,則建立Map對象
map = new HashMap<String, String>();
}
if (attributes != null && map != null) { // map對象存在,且節點有屬性,則映射屬性名與屬性值
for (int i = 0; i < attributes.getLength(); i++) {
map.put(attributes.getQName(i), attributes.getValue(i));
}
}
currentTag = qName; // 目前解析的節點名稱
}
/**
* 這個方法是用來處理xml文本節點所讀取到的内容
*/
@Override
public void characters(char[] ch, int start, int length)
throws SAXException {
if (currentTag != null && map != null) { // 有解析到節點,且map不為空
currentValue = new String(ch, start, length); // 轉換文本節點值
if (currentValue != null && !"".equals(currentValue.trim())
&& !"\n".equals(currentValue.trim())) { // 文本節點值不為空,則映射節點名稱與節點文本值
map.put(currentTag, currentValue);
}
}
currentTag = null;
currentValue = null;
}
/**
* 遇到結束标記的時候會調用這個方法
*/
@Override
public void endElement(String uri, String localName, String qName)
throws SAXException {
if (qName.equals(nodeName)) { // 需要解析的節點解析完畢,則将已解析得到的單個完整對象添加到list中儲存
list.add(map);
map = null; // map置空
}
}
}
服務類:
package com.demo;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;
import java.util.Map;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.SAXException;
/**
* 解析服務類
*
* @author 小明
*
*/
public class SAXService {
/**
* 解析XML節點
*
* @param in
* 待解析的XML輸入流
* @param nodeName
* 待解析的節點名稱
* @return 完整解析清單
*/
public static List<Map<String, String>> readXML(InputStream in,
String nodeName) {
// 建立一個用于SAX解析的工廠對象
SAXParserFactory factory = SAXParserFactory.newInstance();
try {
// 從工廠中建立SAX解析器對象
SAXParser parser = factory.newSAXParser();
// 使用解析器解析需要先建立DefaultHandler引用的對象
MyHandler handler = new MyHandler(nodeName);
// 解析
parser.parse(in, handler);
// 釋放流資源
in.close();
// 傳回解析結果清單
return handler.getList();
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
/**
* 解析XML節點
*
* @param file
* 待解析的xml檔案對象
* @param nodeName
* 待解析的節點名稱
* @return 完整解析清單
*/
public static List<Map<String, String>> readXML(File file, String nodeName) {
// 建立一個用于SAX解析的工廠對象
SAXParserFactory factory = SAXParserFactory.newInstance();
try {
// 從工廠中建立SAX解析器對象
SAXParser parser = factory.newSAXParser();
// 使用解析器解析需要先建立DefaultHandler引用的對象
MyHandler handler = new MyHandler(nodeName);
// 解析
parser.parse(file, handler);
// 傳回解析結果清單
return handler.getList();
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
}
測試類:
package com.demo;
import java.io.File;
import java.util.List;
import java.util.Map;
public class SaxDemo {
public static void main(String[] args) {
File file = new File("demo.xml");
List<Map<String, String>> list = SAXService.readXML(file, "employee");
for (Map<String, String> map : list) {
System.out.println(map);
}
}
}