基于本体的异构数据集成方法研究与应用.pdf

上传人:tbuqq 文档编号:5497382 上传时间:2020-05-24 格式:PDF 页数:4 大小:272.83KB
返回 下载 相关 举报
基于本体的异构数据集成方法研究与应用.pdf_第1页
第1页 / 共4页
基于本体的异构数据集成方法研究与应用.pdf_第2页
第2页 / 共4页
基于本体的异构数据集成方法研究与应用.pdf_第3页
第3页 / 共4页
基于本体的异构数据集成方法研究与应用.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于本体的异构数据集成方法研究与应用.pdf》由会员分享,可在线阅读,更多相关《基于本体的异构数据集成方法研究与应用.pdf(4页珍藏版)》请在三一文库上搜索。

1、文章编号:1008 - 1402(2006) 04 - 0479 - 04 基于本体的异构数据集成方法研究与应用 周 刚, 郭建胜, 石 磊 (空军工程大学 工程学院,陕西 西安710038) 摘 要 : 分析了现有的数据集成方式 ,针对集成中的语义异构问题提出一种基于本体和XML 的集成 系统框架,并进一步阐述了其实现中的关键技术,结合航空装备信息的特点,给出该框架在航空装备信息 集成系统中的具体应用 . 关键词 : 异构数据源;本体 ;XML ;数据集成 中图分类号: TP393 文献标识码: A 目前 ,在企业中,由于开发时间或开发部门的 不同 ,往往有多个异质的、 运行在不同软硬件平台

2、 上的信息系统同时运行,这些系统的数据源彼此独 立且相互封闭,使得数据难以在系统之间交流、 共 享和融合 ,由此形成了 “信息孤岛” 现象 . 随着信息 化应用领域的不断扩充和深入,企业内部部门之间 和企业与外界之间信息交互的需求日益强烈,迫切 需要对原有的信息系统进行整合,连通“信息孤 岛”,共享数据 . 数据集成系统可以把原来孤立于 多个异构数据源中的数据整合起来,为部门的应用 提供一个完整统一的数据视图,从而充分利用现有 数据资源 . 1 异构数据源集成概述 异构数据源集成可以通过多种途径实现,主要 有以下几种 . 定制转换工具:在不同数据源之间定制专用的 转换工具 ,实现数据的交流与共

3、享,例如使用各种 电子数据交换(EDI) 软件进行数据交换. 该方式技 术较为简单,但存在实现成本高,系统扩展性差,数 据存在多个备份,难以保持一致性等不足,正在被 新的数据集成方式逐步取代 1 . 集中复制数据:以建立数据仓库为典型,通过 对异构数据源中的数据进行分析、 转换和装载 ,将 各个数据源中的数据移入数据仓库,实现异构数据 源中数据的集中式管理、 集中式存储,其优点是原 来分散的应用系统仍然独立运作,不会破坏原有的 应用架构 ;可以集成多种数据源和复杂的商业规 则 ,数据集成质量好. 但是通过集中复制数据实现 数据集成,只能定期更新数据,无法实时变化,而且 每当现存的异构数据源的数

4、据库模式发生变化或 一个新的数据源加入到系统中,就必须重新生成一 次全局模式,使得维护全局模式十分困难,系统可 扩展性差 2 . 数据集成中间件:利用中间件集成异构数据 源 .中间件作为一种基于分布式处理的独立软件成 分或服务程序,具有标准的程序接口和协议,可实 现不同软硬件平台上的数据共享和应用互操作. 负责数据集成的中间件系统位于异构数据源(数据 层) 和应用程序(应用层 ) 之间 ,向下协调各数据库 系统 ,向上为访问集成数据的应用系统提供统一的 全局数据模式. 中间件技术由于数据源自治性好、 查询实时 、 配置灵活等优点,自出现以来被广泛应 用 3 . 但这些集成方法都面临如何更好的解

5、决语义 异构的问题,本体是对某一领域中的概念及其之间 关系的显式描述,是语义网络的一项关键技术 ,利 用本体来描述语义层次上的关系,结合结构上的 XML Schema描述 ,能够较好地解决不同的数据模 式在结构上和语义上的异构性问题 4 ,5 . 综合考虑数据集成系统的实现策略, 结合具 体的应用需求,本文将本体和中间件技术相结合, 以 XML 为公共数据模型实现异构数据源的集成. 2 异构数据源集成的性能要求 对异构数据源进行集成,其目的是要实现信息 收稿日期:2006 - 08 - 22 作者简介:周刚(1979 - ) ,男,新疆石河子人,空军工程大学硕士研究生,主要研究方向:信息系统与

6、决策支持系统. 第 24 卷 第 4期 佳木斯大学学 报 ( 自 然科学版 ) Vol. 24 No. 4 2006 年 10 月 Journalof Jiamusi University (Natural ScienceEdition) Oct. 2006 共享 ,解决信息孤岛造成的重复录入、 资源浪费 、 数 据不一致性等问题,同时为综合信息查询和决策支 持服务提供基础数据平台.因此 ,集成系统必须满 足以下要求: (1) 集成性 . 各个异构数据库都存在着自己的 业务逻辑或数据结构,对异构数据源进行整合应该 发掘不同数据库中数据之间的内在关系,使得集成 后的数据成为建立在一定联系上的整体

7、. (2) 完整性 . 为了满足各种应用处理(包括发 布) 数据的条件,集成后的数据必须保证一定的完 整性 ,包括数据完整性和约束完整性两方面. (3) 一致性 . 不同信息源之间可能存在着语义 上的区别,集成后的数据应该根据一定的数据转换 模式和业务规则进行统一数据结构和字段语义编 码转换. (4) 访问安全性.由于数据库资源归属不同的 单位 ,某些数据存在一定的保密性,因此在实现数 据共享的同时必须充分保证原系统的数据安全. 3 基于本体的系统集成架构设计 本系统的架构采用中间件架构,支持虚拟视图 或视图集合 .系统不存储任何异构数据库中的实际 数据 . 为了更好地解决语义异构,在中间件中

8、引入 了一个本体库 . 整个系统架构包括三个层次:应用 层 、 中间件层和数据源层. 图 1 是系统的体系结构 示意图 . (1) 应用层 应用层为终端用户提供访问中间件层的查询 接口 ,用户可以通过应用层的浏览器对中间层实施 调用 . 系统提供统一的查询检索平台. (2) 中间件层 中间件层从更高层次上屏蔽了数据源的分布 性和异构性 .在用户看来,它认为所有的数据都是 本地的 ,处于同一服务域中. 而具体查询请求的处 理 ,结果的返回都由中间层负责.中间件主要由中 介器 、 包装器和本体库三个部分组成,其中中介器 又包括查询生成器、 查询分解引擎、 查询执行引擎 和结果处理器几个功能组件.

9、(3) 数据源层 数据源层是由分布式异构数据源组成,数据源 可以是关系数据库、 Excel表格 ,也可以是半结构化 的 XML 文档 . 每一个数据源都可以位于Web 上不 同的服务站点,采用本地的方式对数据进行管理. 图1 系统体系结构 4 关键模块的设计 4. 1 中介器 中介器为客户端提供一个统一的接口对数据 源进行查询,负责接收来自浏览器的全局查询请 求,再根据相应的集成信息 ,将全局查询请求分解 为多个局部查询请求传递给包装器,最后将包装器 返回的结果进行处理后送回浏览器,同时还要维护 集成信息,保证全局事务执行的正确性和一致性. 中介器主要由查询规划模块和结果合并过滤模块 构成 .

10、 图2 查询模块 4. 1. 1 查询规划模块 查询规划模块负责将客户端提交的标准查询 分解成针对各个异构数据库的子查询并提交到相 应的包装器,涉及到请求的连接、 排队 、 转发等方面 的技术 . 图 2 为本模块的系统结构 (1) 查询生成器. 查询生成器负责接收用户由 浏览器查询界面提交的查询请求 ,并根据本体库中 全局本体定义的概念信息将用户请求实例化为内 部统一的可识别的全局查询语句. (2) 查询分解引擎 查询分解引擎的主要任务是进行查询分解工 作 .它主要负责接收查询生成器传递的全局查询语 句 ,分析局部本体定义信息,确定要查询的局部数 084佳木 斯大学学报 ( 自 然科学版)2

11、006年 据源 ,并调用映射规则中全局本体和局部本体的对 应关系执行分解算法,将全局查询分解为对应各局 部数据源的子查询. (3) 查询执行引擎 查询执行引擎由队列管理和调度策略子模块 组成. 队列设管理对生的 sq1子查询进行数据的 接收 、 排队 ,再经过调度管理子模块发送到相应的 包装器执行 .调度管理模块采用基于FIFO 调度策 略的队列管理机制 6 ,调度线程首先取队列的头元 素 ,然后判断其属性参数,最后发送到相应包装器 执行 . 4. 1. 2 结果合并过滤模块 模块通过包装器实现对各个异构数据库的查 询访问 ,获取结果集. 这此结果集包含了不同数据 库的查询结果,由数据库中的行

12、数据构成. 对于这 此数据必须进行判断,如果是重复的数据,就要进 行合并过滤,返回惟一值 .对于两个行数据的集成, 需要定义每个行数据的关键属性组,这个关键属性 组 (如人的姓名和出生日期) 用于判定二个同类的 行数据是否为同一实体. 当两行数据的关键属性组 的值对应相等时,并不能像标识属性值相等时那样 简单地过滤掉其中一个信息对象,而是将两个信息 对象集成为一个包含更大信息量的信息对象.集成 的方法是 :如果两行数据的同属性取值相等,则集 成信息对象中该属性的值取任一行数据的对应属 性值 ;如果二行数据除关键属性组外的属性取值不 同 ,则删除一行数据的相同属性值,并把剩余的属 性值连接到另一

13、行数据的末尾成为同一行数据输 出. 4. 2 本体库 本体库中存储了利用本体描述语言(OWL) 描 述的全局模式(即全局本体 ) 和局部模式 (即局部本 体) 以及它们之间的映射关系. 它是整个系统解决 语义异构问题的核心 7 . 系统从消除语义冲突的观点实现数据集成时, 希望能够屏蔽数据源局部语义的不一致,提供给用 户一个全局概念的集合,这个集合包含了系统能够 集成的数据,用户将根据这个全局的概念集合产生 查询请求 ,不必考虑局部数据源语义不一致的问 题. 一个全局本体就是这个概念集合的具体表示, 它包括了领域内共享词汇的概念以及这些概念之 间的关系 .全局本体提供了整个系统集成数据信息 的

14、全局视图,用户将根据全局本体所描述的共享概 念提交全局查询.局部本体是描述具体数据源中的 概念和关系 .每一个局部本体概念都将对应到全局 本体的相关概念上,这个对应的结果就是本体库中 存储的映射规则.系统能够根据全局本体与局部本 体之间的映射规则将全局的查询重构为对应每一 个具体数据源的子查询. 例如 ,在数据源D1 中飞机的信息表示为 ,飞 机 1(编号 ,机种 ,单位 ,机械师 ,飞机状况 ) ,而在数 据源 D2 中表示为,飞机 2 (飞机编号,型号 ,团 ,中 队 ,负责人 ,飞机状态 ) .根据对数据源和局部本体 的分析 ,他们都表示了一个共同的关于飞机的信 息 ,因此全局本体中可以

15、抽象出一个代表公有的领 域概念 ,表示为,飞机 (飞机号,飞机型号,所属单 位 ,负责人 ,完好状况 ) ,并在全局视图和局部视图 建立相应的映射关系. 当用户在提交的查询: select飞机编号 ,所属单位from 飞机 根据该全 局本体与局部本体之间的映射规则, 将这个全局 的查询语句可以分解为对应数据源D1 和数据源 D2的子查询 : Select编号 ,所属单位from 飞机 1 Select飞机编号 ,所属团 ,所属中队 from 飞机 2 图3 包装器结构图 4. 3 包装器 (Wrapper ) 对异构数据源来讲,包装器就是关系模式的翻 译器 ,一个包装器主要由查询转换器、 结果

16、转换器 组成 .查询转换器主要从中间层接受查询和生成本 地查询 ,并调用对应的本地数据源执行. 本地数据 源返回它自己固有形式的查询结果(比如关系数据 库返回的是一个记录集) 到结果转换器,结果转换 器根据预先定义用于描述输出格式的Schema 和查 询结果信息到输出XML 格式之间的映射关系 ,转 化成 XML 的格式输出 . 184第 4 期周 刚 ,等 :基于本体的异构数据集成方法研究与应用 5 在航空装备信息集成中的应用 现行航空装备信息系统在操作系统上均采用 微软的 Windows,但在数据库平台和应用程序开发 平台的选择上却不尽相同:有的采用Delphi 与 S QL SERVER

17、2000相结合,有的采用Delphi与Oracle; , 还有些采用VB 与 Paradox相结合或用F oxpro 开发 的. 这些现有的数据源主要存在两方面的异构 : 系统异构,主要是数据库管理系统上的不同; 语 义异构 ,如命名冲突和结构语义冲突. 利用此集成方案对航空装备信息进行集成,取 得了满意的效果,较好的解决了语义问题. 整个平 台为基于中间件的三层体系结构 ,采用B/ S架构, 系统能够灵活集成ORAC LE , MSS QL 等常用关系 数据库和预订格式的XML 文件 .用户可以在一个 统一的查询界面输入查询请求,得到集成数据源的 信息 ,返回结果也在同一界面上显示. 在开发

18、工具 上 ,Java程序采用Borland 公司开发的JBuilderX , XML 编辑工具采用XMLSPY,本体编辑工具采用斯 坦福大学开发的prot g ,它是一个免费的、 开源的 可视化本体编辑工具. 全局本体载入过程中,使用 由 HP 公司的 Brian McBride 开发的 Jena 工具 .Jena 是一个 Java框架 ,它提供了 OWL API ,允许解析 、 创 建和查询OW L 模型 .具体使用Jena API 中提供的 loadclass 和 findproperty 接口实现对全局本体文件 类及属性的解析. 6 结束语 通过对比已有数据集成系统的体系结构,结合 具体

19、的航空装备应用领域,提出了一种基于XML 中间件和本体的数据集成框架.系统将局部数据源 数据转化为 XML数据进行集成,从而屏蔽底层数 据源的异构性,利用本体描述领域概念的优势 ,构 建全局本体,同时定义了全局本体和局部本体的映 射规则 ,较好地解决数据集成中存在的语义异构问 题 . 参考文献 : 1 吴国新,吉逸. EDI技术研究及其实现J .计算机研究与发 展,1998 ,35(2) :108 - 113. 2 姜代红.数据仓库技术在系统集成中的应用研究J .徐州工 程学院学报,2005,20( 5) :59 - 61. 3 乐鑫喜,刘清.异构数据库集成系统的设计与实现J ,计算机 工程与

20、应用,2005,27 (4) :175- 177. 4 Smith MK,Welty C, McGuinness DL.OWL Web OntologyLan2 guageGuide E B/ OL .http:/ / www. w3. org/TR/ 2004/ REC - owl - guide-20040210, (2004- 02 - 10) . 5 H Wache,T. vogele.et al. OntologyBasedIntegrationof Information: A Survey ofExisting Approaches EB/ OL .http:/ /www. in

21、for2 matik. uni - bremen.de/visser/liter. html , (2001 - 08 - 16) . 6 鄂大伟.用多FIFO输入缓冲队列消除HOL阻塞J .计算机 工程与应用. 2001,35( 11) :79 - 84. 7 张英朝,张浩,张维明.给予本体的虚拟组织信息集成视图映 射关系构建方法研究J .小型微型计算机系统,2006;27 (3) : 564- 567. The Research and Applicationof Heterogeneous Data Source IntegrationBased on Ontology ZHOU Gan

22、g, G UO Jian-sheng, SHI Lei ( Engineering Institute , Air Force Engineering University , Xian 710038, China) Abstract : This paper analysesdifferent kinds of data integration method. It bringsforward an ontology and XML basedon dataintegrationframew ork for eliminating the semanticheterogeneity , expatiatesthe pivotal technology of implementationand givesa practical application in the integrateinformation systemof aviation equipment. Key words : heterogenous database ; ontology; XML ; dataintegration 284佳木 斯大学学报 ( 自 然科学版)2006年

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1