【图】构建基于Web/XML的信息集成研究

　　摘要在当前的网络信息时代，信息量不仅庞大而且源自于不同的数据源，信息集成一直是研究的热点。基于多代理(Multi-Agent)的信息资源集成方案有所不足，而XML集成机制的优点，适于网络环境下基于XML的信息集成。本方案：包括系统的总体框图、层次结构、工作过程及信息系统主要部分的具体设计。

　　关键词 XML，资源集成，DTD，XSL, Wrapper，DOM.

　　引言

　　随着计算机技术，特别是Internet的不断发展，实现"信息孤岛"之间的集成与交互成为亟待解决的问题。

　　在诸多解决方案中，基于多代理(Multi-Agent)的信息集成就是其中的一种。该系统已被认为是建造大型复杂分布式信息处理系统的重要技术和框架。在基于多代理的方法中，资源集成的具体操作步骤是：用户把请求提交给搜索代理，由搜索代理对请求进行适当的转换，发送给代理路由器；代理路由器通过链接，将查询请求发送给数据库代理；数据库代理接受查询请求，并进行具体的数据库操作，然后把查询结果返回给请求者；搜索代理对返回的结果进行识别，若存在所需的资源，则激活本地数据库代理，对获得的信息进行记录，由专家系统对所搜集的信息进行进一步的处理。这种方法有一个明显的缺陷，即必须明确数据库的格式，代理才能正常工作。

　　而XML技术则可以很好的解决这个问题。用XML进行数据集成，只需对所有的异构数据源增加一个以XML为格式的封装体，即在不改变数据源的前提下，用XML对数据源的定义描述字、数据源的创建等相关信息进行封装。供应链节点上所有数据源的封装体纳入全局的XML Schema或DTD，并存储在XML虚拟服务器，为系统检索、定位提供服务。在XML的集成机制里，可以通过XML封装体实现彼此之间的数据交互，所以不需要了解数据库的格式，从而弥补了基于多代理的集成方法在这方面的不足。

　　下面首先概要介绍XML的相关技术，进而给出网络环境下的、基于XML的信息集成方案：包括系统的总体框图、层次结构、工作过程及系统主要组成部分的具体设计。

　　XML技术

　　1、XML相关标准

　　XML不仅仅是一种语言，广义的XML是一系列标准的集合。图1说明了XML及其相关标准，在图中，中间一层是XML基础标准，最下层是XML的应用标准。

图1 XML相关标准

　　XML基础标准是为XML的进一步实用化制定的标准，它规定了采用XML制定标准时的一些公用特征、方法或规则。XML Schema描述了更加严格定义XML文档的方法，以便可以更自动地处理XML文档。XML Namespace用于保证XML DTD中名字的一致性，以便不同的DTD中的名字在需要时可以合并到一个文档中。DOM定义了一组与平台和语言无关的接口，以便程序和脚本能够动态访问和修改XML文档内容、结构及样式。 XQuery的目的是为从Web文档中提取数据，提供一种灵活的查询机制。XPath描述如何识别、选择、匹配XML文件中的各个构成元件，包括元素、属性、文字内容等。XPointer和XLink标准，规定了有关定位、链接方面的内容。CSS被用来作为XML文档显示的样式标准等等。

　　2、XML的主要技术特点

　　XML是一种元标记语言，强调以数据为核心，这两大特点在XML的众多技术特点中最为突出，同时也奠定了XML在信息管理中的优势。

　　XML是一种元标记语言

　　与HTML不同，XML不是一种具体的标记语言，它没有固定的标记符号，是一种元标记语言，是一种用来定义标记的标记语言，它允许用户自己定义一套适于应用的DTD。

　　XML的核心是数据

　　在一个普通的文档里，往往混合有文档数据、文档结构、文档样式三个要素。而对于XML文档来说，数据是其核心。将样式与内容分离，是XML的巨大优点。一方面可以使应用程序轻松的从文档中寻找并提取有用的数据信息，而不会迷失在混乱的各类标签中；另一方面，由于内容与样式的独立，也可以为同一内容套用各种样式，使得显示方式更加丰富、快捷。

　　3、DTD(Document Type Define，文档类型定义)

　　DTD的作用是定义允许或不允许什么在文档中出现。DTD的结构：一般由元素类型声明、属性表声明、实体声明、记号声明等构成。一个典型的文档类型定义文件会把未来所要创作的XML文档的元素结构、属性类型、实体引用等预先进行规定。用户既可以直接在XML文档中定义DTD，也可以通过URL引用外部的DTD。DTD位XML文档的编写者和处理者提供了共同遵循的原则，使得与文档相关的各种工作有了统一的标准。

　　基于XML的信息集成方案

　　1、于XML的信息集成总体框图

　　图2给出基于XML的信息集成的总体框图[1]，是把来自供应链节点上的、不同数据源(数据库，构件库，领域知识库)的信息通过包装器(Wrapper)转换成XML数据，存储在虚拟集中存储器中，用户通过DOM/SAX来获取已经转换成XML格式的信息；同样，用户通过DOM/SAX接口提交的查询命令，通过包装器转换成本地数据源能够识别的数据格式进行查询。用户通过XML的封装体实现彼此之间的交互，而不需要了解对方的数据格式。

图2 基于XML的信息集成总体框图

　　2、基于XML的信息集成的层次结构

　　如图3所示，整个信息集成可以分为三个层次：其中最底层为信息抽取层，中间为中介层，最上层为用户接口层。

图3 基于XML的信息集成层次结构

　　信息抽取层

　　信息抽取层处于系统的最低层，是系统的数据提供者，主要功能是提取和集成分布在多个异构数据源(数据库，知识库及构件库)上的信息。这一层采用Wrapper(包装器)技术实现将一个从中介层得到的查询，翻译成能在经过封装的数据源上执行的操作，将查询结果抽取并打包到一个XML文档，最后将该文档返回给中介层。

　　中介层

　　中介层(Mediation Layer)的主要功能有两方面：一方面对上接受用户通过DOM客户端API向系统提交的或应用程序发出的查询，将其转换成对XML的查询，并将查询结果返回给用户或应用程序；另一方面对下将XML查询分发给各个包装器，并将查询结果通过DTD说明再转换成XML格式。

　　用户接口层

　　用户接口层(User Interface Layer)在中介层之上，负责将用户的查询命令提交给中介层，获得并解释查询结果树，并将结果显示给用户。XML DOM(Document Object Model，文档对象模型)是为合法的格式良好的XML文档设计的一套API(Application Programming Interface,应用程序接口)，它同时定义了这些文档的逻辑结构，访问及操作方法。由于数据显示与内容分开，XML定义的数据允许指定不同的显示方式，使数据更合理的表现出来。本地的数据能够以客户配置，使用者选择或其他标准决定的方式动态的表现出来。CSS和XSL为数据的显示提供了公布的机制。

　　整个系统位于异构数据源和应用程序之间，向下协调各种数据源，向上为访问集成数据的应用提供了统一的模式和访问的通用接口。系统为异构数据源提供高层次的检索服务。

　　3、基于XML的信息集成的工作过程

　　下面以用户的一个信息查询为例，简要说明一下信息系统的工作过程：

　　用户通过DOM向系统提交信息查询命令；

　　虚拟集中存储器区分各个XML查询命令,并且将其发送到适当的Wrapper包装器上；

　　Wrapper包装器负责将XML查询转换成本地数据源能识别的语言，并在数据源中进行查询；

　　查询结果根据DTD说明在转换成XML格式并返回给虚拟集中存储器由虚拟集中存储器返回给DOM；

　　通过DOM对XML文档的处理，结合XSL技术将查询结果显示给用户。

　　4、基于XML的信息集成系统的设计

　　根据基于XML的信息集成的层次结构，下面给出包装器Wrapper组件的设计。

　　包装器Wrapper组件的设计

　　信息抽取层的Wrapper组件由两部分组成：Wrapper生成器和Wrapper实例(简称Wrapper)。如图4所示，一个Wrapper位于中介层和一个数据源的中间，它通常为中介层查询异构信息源集合提供一个公共接口。每个Wrapper都要为某个特定的数据源制定相应的接口，这个功能是由Wrapper生成器完成的。

图4 Wrapper生成器和Wrapper

　　Wrapper生成器用于为查询某个确定的站点或站点集合构建Wrapper。Wrapper的输入是用一种Wrapper规范语言书写的规格说明，包括关于将要为之生成的Wrapper的数据源的元信息，该元信息描述了如何从一个数据源请求服务以及如何抽取和解释从数据源返回的信息。规格说明还必须能够表达以下内容：数据源接口、数据模型、从用户到数据源本地操作的查询映射、数据源的查询能力。通常为一个数据源生成一个有效的Wrapper所必须的信息是使用DTD来描述的。Wrapper生成器的输出是一个可以执行的 Wrapper，该Wrapper能够接受由Wrapper规范语言定义的查询。