【图】在.NET Framework中轻松处理XML数据(一)

在.NET Framework中，XmlTextReader和XmlTextWriter类提供了对xml数据的读和写操作。在本文中，作者讲述了XML阅读器(Reader)的体系结构及它们怎样与XMLDOM 和SAX 解释器结合。作者也演示了怎么样运用阅读器分析和验证XML文档，怎么样创建格式良好的XML文档，以及怎么样用函数读/写基于Base64和BinHex编码的大型的XML文档。最后，作者讲了怎么样实现一个基于流的读/写分析器，它把读写器都封装在一个单独的类里。

大概三年前，我参加了一个软件研讨会，主题是“没有XML，就没有编程的未来”。XML确实也在一步一步的发展，它已经嵌入到. NET Framework中了。在本文中，我将讲解. NET Framework中用于处理XML文档的API的角色和它的内部特性，然后我将演示一些常用的功能。

从MSXML到.net的XML

在. NET Framework出现之前，你习惯使用MSXML服务----一个基于COM的类库---写windows的XML的驱动程序。不像. NET Framework中的类，MSXML类库的部分代码比API更深，它完全的嵌在操作系统的底层。MSXML的确能够与你的应用程序通信，但是它不能真正的与外部环境结合。

MSXML类库能在win32中被导入，也能在CLR中运用，但它只能作为一个外部服务器组件使用。但是基于.NET Framework的应用程序能直接的用XML类与.NET Framework 的其它命名空间整合使用，并且写出来的代码易于阅读。

作为一个独立的组件，MSXML分析器提供了一些高级的特性如异步分析。这个特性在.NET Framework中的XML类及.NET Framework的其它类都没有提供，但是，NET Framework中的XML类与其它的类整合可以很轻易的获得相同的功能，在这个基础上你可以增加更多的功能。

.NET Framework中的XML类提供了基本的分析、查询、转换XML数据的功能。在.NET Framework中，你可以找到支持Xpath查询和XSLT转换的类，及读/写XML文档的类。另外，.NET Framework也包含了其它处理XML的类，例如对象的序列化（XmlSerializer和the SoapFormatter类），应用程序配置（AppSettingsReader类），数据存储（DataSet类）。在本文中，我只讨论实现基本XML I/O操作的类。

XML分析模式

既然XML是一种标记语言，就应该有一种工具按一定的语法来分析和理解存储在文档中信息。这个工具就是XML分析器---一个组件用于读标记文本并返回指定平台的对象。

所有的XML分析器，不管它属于哪个操作平台，不外乎都分以下的两类：基于树或者基于事件的处理器。这两类通常都是用XMLDOM（the Microsoft XML Document Object Model）和SAX(Simple API for XML)来实现。XMLDOM分析器是一个普通的基于树的API---它把XML文档当成一个内存结构树呈现。SAX分析器是基于事件的API----它处理每个在XML数据流中的元素(它把XML数据放进流中再进行处理)。通常，DOM能被一个SAX流载入并执行，因此，这两类的处理不是相互排斥的。

总的来说，SAX分析器与XMLDOM分析器正好相反，它们的分析模式存在着极大的差别。XMLDOM被很好的定义在它的functionalition集合里面，你不能扩展它。当它在处理一个大型的文档时，它要占用很大内存空间来处理functionalition这个巨大的集合。

SAX分析器利用客户端应用程序通过现存的指定平台的对象的实例去处理分析事件。SAX分析器控制整个处理过程，把数据“推出”到处理程序，该处理程序依次接受或拒绝处理数据。这种模式的优点是只需很少的内存空间。

.NET Framework完全支持XMLDOM模式，但它不支持SAX模式。为什么呢？因为.NET Framework支持两种不同的分析模式：XMLDOM分析器和XML阅读器。它显然不支持SAX分析器，但这并不意味它没有提供类似SAX分析器的功能。通过XML阅读器SAX的所有的功能都能很容易的实现及更有效的运用。不像SAX分析器，.NET Framework的阅读器整个都运作在客户端应用程序下面。这样，应用程序本身就可以只把真正需要的数据“推出”，然后从XML数据流中跳出来。而SAX分析模式要处理所有的对应用程序有用和无用的信息。

阅读器是基于.NET Framework流模式工作的，它的工作方式类似于数据库的游标。有趣的是，实现类似游标分析模式的类提供对.NET Framework中的XMLDOM分析器的底层支持。XmlReader、XmlWriter两个抽象类是所有.NET Framework中XML类的基础类，包括XMLDOM类、ADO.NET驱动类及配置类。所以在.NET Framework中你有两种可选的方法去处理XML数据。用XmlReader和XmlWriter类直接处理XML数据，或者用XMLDOM模式处理。更多的关于在.NET Framework中读文档的介绍可以参见MSDN 2002 年八月刊的Cutting Edge栏目文章。

XmlReader类

XML阅读器支持一个编程接口，接口用于连接XML文档，“推出”你要的数据。如果你更深入去了解阅读器，你会发现阅读器工作原理类似于我们的桌面应用程序从数据库中取出数据的原理。数据库服务返回一个游标对象，它包含所有查询结果集，并返回指向目标数据集的开始地址的引用。XML阅读器的客户端收到一个指向阅读器实例的引用。该实例提取底层的数据流并把取出的数据呈现为一棵XML树。阅读器类提供只读、向前的游标,你可以用阅读器类提供的方法滚动游标遍历结果集中的每一条数据。

从阅读器中看XML文档不是一个标签文本文件，而是一个序列化的节点集合。它是.NET Framework中的一种特殊的游标模式;在.NET Framework中,你找不到其它的任何一个类似的API函数。

阅读器和XMLDOM分析器有几点不同的地方。XML阅读器是只进的，它没有父、子、祖宗、兄弟节点的概念，而且是只读的。在.NET Framework中，读写XML文档是分为两种完全不同的功能，分别由XmlReader和XmlWriter类来完成。要编辑XML文档，你可以用XMLDOM分析器，或者你自己设计一个类来实现这两种功能。让我们开始分析阅读器的程序功能。

XmlReader是一个抽象类，你可

ead方法访问属性节点。要访问当前元素的属性节点集合，必须用一个简单的用MoveToNextAttribute方法的返回值控制的循环去遍历该集合。下面的代码用于访问当前节点的所有属性，并把属性的名称和它的值用逗号分开组合成一个字符串：
if (reader.HasAttributes)
while(reader.MoveToNextAttribute())
buf += reader.Name + "="" + reader.Value + "",";
reader.MoveToElement();

当你完成对属性集的处理时，调用MoveToElement方法使指针返回到属性所属的元素节点。准确的说，MoveToElement方法并不是真正的移动指针，因为在处理属性集时指针从来就没有从元素节点中移开。MoveToElement方法只不过指向某个内部成员，并依次取得成员的值。例如，用Name属性获得某个属性的属性名，然后调用MoveToElement方法把指针移到其所属的元素节点处。但是当你不需要继续处理别的节点时，就不必再调用MoveToElement方法了。

作者：chyich(译)/ASPCool