http://www./Java/HTML/75888.html
簡(jiǎn)介
在1998年W3CXML1.0推薦標(biāo)準(zhǔn)發(fā)布之后,XML就開始變得很流行。Sun公司就是在那時(shí)候規(guī)范Java Community
Process
(JCP),同時(shí)JAXP(JSR-05)的第一版在2000早些時(shí)候發(fā)布了。這個(gè)版本得到了很多工業(yè)集團(tuán)的支持,譬如(以年月次序排列)BEA
Systems, Fujitsu Limited, Hewlett-Packard, IBM, Netscape
Communications, Oracle, and Sun Microsystems, Inc. JAXP
(全稱Java API for XML
Parsing)的可插拔性(pluggability)在開發(fā)社區(qū)里引起很大的轟動(dòng)。這點(diǎn)也是JAXP的精華所在。開發(fā)人員可以編寫自己的xml處理
器,只要它符合JAXP的APIs,這樣底層不同的xml處理器可以任意切換而不用改應(yīng)用程序的代碼。 那JAXP到底是什么呢?首先 這個(gè)P有點(diǎn)迷惑,它代表Parsing還是Processing呢? 因?yàn)镴AXP1.0的時(shí)候只支持解析(parsing),所以JAXP全稱應(yīng)該是Java API for XML Parsing.
但在JAXP1.1的時(shí)候,XSL-T被推薦用作XML的轉(zhuǎn)換(transformation)處理。很遺憾,當(dāng)時(shí)W3C
XLT-T的標(biāo)準(zhǔn)規(guī)范(specification)里沒有提供任何用來轉(zhuǎn)換(transformation)處理的APIs。因此JAXP1.1的專家
組推薦了一組APIs叫Transformation API for XML (TrAX)。 從此JAXP就叫Java API for XML Processing. JAXP通過逐步進(jìn)化,支持的東西也越來越多 不僅僅是解析xml文件(譬如在解析文檔的時(shí)候根據(jù)schema校驗(yàn)有效性,根據(jù)預(yù)解析的schema來校驗(yàn)文檔有效性,計(jì)算XPath 表達(dá)式等等)。 由于底層用來處理xml文檔的可插拔的processor是任意編寫的,只要它符合JAXP的規(guī)范,因此JAXP 是一個(gè)輕量級(jí)的處理xml文件的處理APIs。(譯者注:JAXP只是一個(gè)api規(guī)范而已,真正底層實(shí)現(xiàn)是任意的。后面會(huì)有具體介紹。) 使用JAXP來解析XML文檔
JAXP支持基于對(duì)象和基于事件的兩種解析方式?;趯?duì)象的解析,到目前為止只支持W3C
DOM解析,JAXP的專家組可能在JAXP的將來版本中會(huì)支持J-DOM規(guī)范。基于事件的解析,只有SAX
解析模式被支持,另一個(gè)基于事件的解析模式叫Pull Parsing,本來它應(yīng)該是JAXP的一部分。但是對(duì)于Pull
Parsing存在有一份不同的JSR (#173)文檔,也就是大家所知道的Streaming API for XML (StAX)
parsing,現(xiàn)在我們對(duì)于那個(gè)也沒什么更多的可以做了。
 Figure 1: Various mechanism of parsing XML
使用SAX來解析XML文檔
SAX APIs 是在1998年的早些時(shí)候由David
Megginson提出的,目標(biāo)是成為基于事件驅(qū)動(dòng)的xml文檔解析模式的標(biāo)準(zhǔn)API(這里你可以的到一些 SAX
的歷史信息)。即使這樣,SAX仍不是W3C 的REC。但毫無疑問實(shí)際中它是行業(yè)內(nèi)解析XML文檔的標(biāo)準(zhǔn)。 SAX
是一種基于事件的解析模式,是push-parsing原理,解析文檔的時(shí)候,當(dāng)遇到<opening> 標(biāo)簽,
</closing>標(biāo)簽 或字符等,SAX
都會(huì)產(chǎn)生相應(yīng)的事件(event)。一個(gè)SAX解析器解析XML文檔的時(shí)候,把文檔看作為一個(gè)流,依次產(chǎn)生相應(yīng)的事件報(bào)告給已注冊(cè)的content
handler, org.xml.sax.ContentHandler,如果有錯(cuò)誤,錯(cuò)誤會(huì)報(bào)告給error handler,
org.xml.sax.ErrorHandler. 如果你不注冊(cè)一個(gè)error handler,那你就根本不會(huì)知道在解析XML文檔的時(shí)候有沒有錯(cuò)誤產(chǎn)生和錯(cuò)誤是什么。因此,在SAX解析XML文檔的時(shí)候注冊(cè)一個(gè)error handler是極其重要的。 如果程序需要知道有什么事件產(chǎn)生了(并且想處理此事件),那你必須實(shí)現(xiàn)org.xml.sax.ContentHandler 接口并注冊(cè)給 SAX解析器。一個(gè)典型的事件被觸發(fā)的順序是 startDocument, startElement, characters, endElement, endDocument。 startDocument 僅僅被觸發(fā)一次而且是在觸發(fā)其它event之前。同樣,endDocument僅僅被觸發(fā)一次而且是在整個(gè)文檔被成功解析之后。你可以從SAX javadocs中獲取更詳細(xì)的信息。
 Figure 2: SAX Parsing XML
使用JAXP,通過SAX parse XML document的代碼片斷: SAXParserFactory spfactory = SAXParserFactory.newInstance(); spfactory.setNamespaceAware(true); SAXParser saxparser = spfactory.newSAXParser(); //write your handler for processing events and handling error DefaultHandler handler = new MyHandler(); //parse the XML and report events and errors (if any) to the handler saxparser.parse(new File("data.xml"), handler); 文檔對(duì)象模型解析
DOM
解析是基于對(duì)象的原理,當(dāng)用DOM解析XML文檔時(shí)它會(huì)在內(nèi)存中生成一個(gè)樹形的結(jié)構(gòu)來表示一個(gè)XML文檔。樹上的每個(gè)節(jié)點(diǎn)代表著XML文檔中的一個(gè)節(jié)點(diǎn)。
如果一個(gè)DOM解析器符合W3C標(biāo)準(zhǔn),那它產(chǎn)生的DOM就是W3C的DOM,使用org.w3c.dom APIs就能遍歷和修改這個(gè)DOM。 大部分DOM解析器允許你抽取XML文檔里的一部分來生成DOM樹,而不是把整個(gè)XML文檔在內(nèi)存中建立對(duì)應(yīng)DOM樹。
 Figure 3: DOM Parsing XML
使用JAXP, 通過DOM parse XML document的代碼片斷: DocumentBuilderFactory dbfactory = DocumentBuilderFactory.newInstance(); dbfactory.setNamespaceAware(true); DocumentBuilder domparser = dbfactory.newDocumentBuilder(); //parse the XML and create the DOM Document doc = domparser.parse(new File("data.xml")); //to create a new DOM from scratch - //Document doc = domparser.newDocument(); //once you have the Document handle, then you can use //the org.w3c.dom.* APIs to traverse or modify the DOM... 在校驗(yàn)?zāi)J较逻M(jìn)行解析 根據(jù)DTD校驗(yàn)
DTD 是XML 文檔的語法。經(jīng)常人們會(huì)覺得DTD有點(diǎn)另類,因?yàn)樗蚗ML的syntax不一樣,但DTD是W3C
XML1.0里的完整的一部分。如果一份XML文檔聲明了DOCTYPE,并且想在解析的時(shí)候根據(jù)DTD校驗(yàn)文檔,那你必須在適當(dāng)?shù)膄actory里啟用
根據(jù)DTD校驗(yàn)文檔(validation)這個(gè)特性。例如: DocumentBuilderFactory dbfactory = DocumentBuilderFactory.newInstance(); dbfactory.setValidating(true); OR SAXParserFactory spfactory = SAXParserFactory.newInstance(); spfactory.setValidating(true);
注意,如果XML文檔聲明了一個(gè)DTD
,即使你不啟用校驗(yàn)(validation)這個(gè)特性,解析器總是試著去讀入這個(gè)DTD?!∵@樣做的目的是為了保證XML文檔中entity
reference被正確的擴(kuò)展了,否則會(huì)導(dǎo)致格式不正確的XML文檔,只有在XML文檔序言部分的聲明中standalone屬性被置為true時(shí),外
部的DTD才會(huì)被完全忽略掉。例如: <?xml version="1.1" encoding="UTF-8" standalone="yes"?> 根據(jù)W3C Schema來校驗(yàn)XML文檔(WXS)
XMLSchema
是XML文檔的另外一種文法描述。XMLSchema非常流行市因?yàn)樗蚗ML文檔使用同樣的語法并且提供了豐富的定義校驗(yàn)限制的特性。如果一個(gè)XML文
檔用"schemaLocation"
和"noNamespaceSchemaLocation"指向了一個(gè)schema,結(jié)下來你想啟用根據(jù)XMLSchema校驗(yàn)文檔這個(gè)特性,你還要做如
下的步驟: 1.和上面說的一樣,調(diào)用SAXParserFactory o或DocumentBuilderFactory的setValidating函數(shù)來啟用validation這個(gè)特性。 2.把屬性 "http://java./xml/jaxp/properties/schemaLanguage" 值設(shè)為 "http://www./2001/XMLSchema" 注意,這種情況下,即使XML文檔有DOCTYPE聲明,處理器仍不會(huì)用DTD來校驗(yàn)這個(gè)文檔。但是和前面提到的一樣,為了任何一個(gè)entity reference是被正確擴(kuò)展的,這個(gè)DTD還是會(huì)被裝載的,
既然"schemaLocation"
和"noNamespaceSchemaLocation"僅僅是提示,所以可以使用屬性"http:
//java./xml/jaxp/properties/schemaSource"從外部提供schemas來覆蓋這些提示。 對(duì)于這個(gè)屬性,一些可以接受值是: ·是一個(gè)代表schema的URL地址的字符串。 ·java.io.InputStream with the contents of the schema ·org.xml.sax.InputSource ·java.io.File ·一個(gè) java.lang.Object 的數(shù)組,數(shù)組內(nèi)容是上面所提到三類中的一個(gè)。 例如: SAXParserFactory spfactory = SAXParserFactory.newInstance(); spfactory.setNamespaceAware(true); //turn the validation on spfactory.setValidating(true); //set the validation to be against WXS saxparser.setProperty("http://java./xml/jaxp/properties/ schemaLanguage", "http://www./2001/XMLSchema"); //set the schema against which the validation is to be done saxparser.setProperty("http://java./xml/jaxp/properties/ schemaSource", new File("myschema.xsd")); 使用JAXP的TrAX APIs來進(jìn)行XML文檔轉(zhuǎn)換處理工作 W3C XSL-T 定義了一些轉(zhuǎn)換規(guī)則來把源樹轉(zhuǎn)化生成結(jié)果樹。在XSL-T中,轉(zhuǎn)換信息所存在的文件叫樣式表(stylesheet)。要用JAXP來轉(zhuǎn)換一個(gè)XML文檔,你需
http://blog.csdn.net/haydenwang8287/archive/2007/09/13/1784396.aspx
|