《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt

上传人:椰子壳 文档编号:4917957 上传时间:2020-01-10 格式:PPT 页数:51 大小:968KB
返回 下载 相关 举报
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第1页
第1页 / 共51页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第2页
第2页 / 共51页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第3页
第3页 / 共51页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第4页
第4页 / 共51页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt(51页珍藏版)》请在三一文库上搜索。

1、1,第四章 数据仓库系统的体系结构与设计方法,数据仓库系统的体系结构 分布式对象技术 监控器的设计 转换器的设计 集成器的设计 元数据管理器的设计,2,数据仓库系统的结构,最终用户,可视化工具,数据挖掘工具,多维分析工具,多维数据,数 据 仓 库 工 具 层,数 据 仓 库 层,3,数据仓库系统的体系结构,4,数据仓库系统的体系结构,源数据: 数据仓库管理系统: 元数据库及元数据管理部件: 数据转换部件: 数据集成部件: 数据仓库管理部件:,5,(1)系列顺序码 (2)数值化字母顺序码 (3)层次码 (4)特征组合码 (5)矩阵码 (6)复合码,6,条码技术的发展,20世纪20年代,西屋实验室

2、,John ermode 扫描器,边缘定位线圈,译码器 Young 1949, Norm Woodland , Bernard Silver 1970, Iterface Machanisms LED,微处理器,激光二极管:条码工业,7,常用条码简介,(商品)的基础 (超市) 工业,图书,票证 BAR 医疗卫生,图书情报,物资,8,数据仓库系统的体系结构,数据仓库前端工具集 查询/报表工具: OLAP工具: 数据挖掘工具: 前端开发工具: 数据仓库:,9,分布式对象技术,随着Internet的广泛应用,将应用扩展到局域网、广域网甚至Internet上已成为用户的普遍需求,分布式计算成了新的热点

3、。 分布式计算系统又称为中间件。,10,分布式对象概述,程序设计方法经历了多次变革: 在80年代中期,国际标准化组织ISO推出了RPC(Remote Process Call)标准。到1992年,开放软件基金会OSF颁布了DCE(Distributed Computing Environment)标准,是分布式计算技术发展过程中的一个里程碑。 随着应用系统对可扩展性和可重用性的要求不断提高,将面向对象的思想应用到分布式环境中,提出了分布式对象的概念。,11,分布式对象的代表性观点,组件对象是软件的基本量子。 分布式对象是具有特定功能的,能够跨越进程的边界、实现网络、语言、应用程序、开发工具和操

4、作系统的”即插即用”的独立对象。 分布式对象是指任何可被分离出来,具有标准化的,可重用的公开接口的软件。 分布式对象通过接口对外提供服务。,12,分布式对象的工业标准,分布式对象的两种工业标准: COM/DCOM/COM+:Microsoft制定的以Windows为中心的开发环境。 CORBA(Common Object Request Broker Architecture):由700多个厂商共同提倡的,公共对象请求代理体系结构,是平台中立的分布式技术. 根据这两种分布式技术演进而产生的分布式对象技术:例如EJB(Enterprise JavaBean)等。,13,基于分布式对象的程序设计方

5、法,分布式对象设计方法强调真正的软件重用和高度的可操作性。它侧重于分布式对象的产生和装配,这两方面构成了分布式对象程序设计的核心。 可重用的分布式对象库不同于对象库,分布式对象库保存的是一些经过测试的分布式对象。这些分布式对象遵从标准或规范,并且分布式对象库也包括这些分布式对象的细节功能说明文档。,14,基于可重用的分布式对象库的软件开发模式的过程,15,COM/DCOM/COM+COM,COM:即组件对象模型,是一种以组件为发布单元的对象模型,这种模型使各软件可以用一种统一的方式进行交互。 COM的实质是这样一种协议,它负责将一个软件模块同另一个连接起来,而不再参与其余的事务。,16,COM

6、应用的组成部分,COM接口:在COM中,每一个接口都由一个128位的全局唯一标识符(GUID,Global Unique Identifier)来标识。 COM服务器: COM客户:,17,interface Account / 存款 void deposit(in float amount); /取款 boolean withdraw(in float amount); /查询余额 float getBalance(); ; / 帐户管理员 interface AccountManager / 查询指定名字的帐户,查无则新开帐户 Account open(in string name); ;

7、,18,COM的特性,面向对象的特性和客户/服务器的特性。 语言无关性: 进程透明性: 可重用性:,19,DCOM,DCOM(Distribute Component Object Model,分布式组件对象模型):是COM的扩展,它可以支持不同计算机上组件对象与客户程序之间或者组件对象之间的通信。 DCOM在COM基础上增加的主要特征 创建远程对象的能力:客户只需调用OLE32.dll提供的库函数CoCreateInstance透明地创建组件,而不关心组件的位置。 跨网络的数据传送能力: 安全性和访问控制能力。,20,COM+,COM+: COM+倡导了一种新概念,把组件软件模型建立在应用层

8、上,把所有组件的底层细节留给操作系统。,21,分布式组件对象的特性,伸缩性: 可配置性:微软为DCOM提供了一个图形界面的配置工具程序(DCOMCNFG.EXE),可使客户程序和组件程序在不改变代码的情况下适应不同的网络环境。 安全性:,22,分布式组件对象的特性,协议无关性:TCP/IP、UDP、IPX/SPX以及NetBIOS。 平台独立性: Windows、Apple Macintosh以及Unix的一些版本。,23,使用COM技术实现数据仓库的组件,数据仓库是针对支持整个企业范围的主要业务来建立的。 COM/DCOM/COM+技术能适应数据仓库应用的需要,能最大限度地提高灵活性和可扩展

9、能力。 数据仓库的系统设计与开发是一个动态的反馈和循环的过程。将数据仓库系统从功能上分为若干个独立的对象,并使用COM技术实现,可以最大限度地重用这些对象。当用户的需求增加或发生变化时,只需要增加相应的COM对象或更新变化的COM对象。,24,使用COM技术实现数据仓库的组件,通过将用户业务逻辑以DCOM对象的形式集中到中间层,系统就获得了对业务逻辑的独立性。 仓库是一个大规模的工程项目,它开发周期长,而数据仓库的需求又是动态的,不确定的。,25,数据仓库体系结构的设计与实现,设计思想: 客户端通过提交描述要调用的方法和要传递的参数的XML文档进行调用。在应用服务器端实现所需服务的接口,当通信

10、组件接收到XML文档后,创建XMLService组件并由XMLService组件根据XML文档调度服务,并将返回结果或错误信息封装成XML文档传递给客户端。 将数据仓库系统划分为若干个独立的分布式对象。,26,数据仓库系统体系结构的设计,客户端: 可视化的用户界面 客户端通信组件 应用服务器端: 服务器端通信组件 XMLService调度组件 安全组件 元数据管理器 转换器 集成器 数据库服务器端 源数据 元数据库 数据准备区 数据仓库,27,数据仓库系统中的通信XML概述,XML(eXtensible Markup Language)是国际组织W3C制定的在Web上对有格式的数据进行描述、传

11、输、操作的通用语言。 XML 是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。 XML定义了一套元句法,允许各种不同的专业开发与自己的特定领域有关的标记语言。,28,XML通信组件示意图,29,元数据管理器,客户端登录: 元数据管理器 的用户接口: 元数据的存储:,30,元数据管理器的设计与实现,元数据基于Microsoft SQL Server2000的关系模型并存储在数据库服务器上,同时通过MetaManager组件提供了一系列接口使用户可以在所有应用中共享元数据 在客户端提供图形化界面工具。,31,转换器的设计与实现,转换器的功能: 数据结构转换和数据类型转换

12、结构化数据的转换: 非结构化数据的转换: 自动化或半自动化的转换器生成技术: 采用互操作性标准, 定义数据源与翻译器的接口,32,连续文件,王一落 1月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 3月份顾客表 王一落 江南区9街7号 新的连续文件 王一落 1月-2月 五华区1街2号 王一落 3月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 考虑出错情况,33,2005/1,距离近的客户的购买数量占绝大部分,34,2005/7,距离远的客户的购买数量占绝大部分,35,36,主键 新地址 旧地址,37,主

13、键 客户ID 当前标记值 住址状况 日期,主键 客户ID 当前标记值 住址状况 日期,38,转换器的设计与实现,从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目标系统中。以使数据仓库获得新的数据提供决策分析使用。,39,转换器的设计与实现,数据准备区的使用:在将数据从源数据提取到数据准备区的过程中,可借助于Microsoft的数据转换服务(DTS)包来实现。,40,货运通知,海关,进出口许可证,海关申报单,电子发票,定单确认,税务,保险,银行,运输,41,源数据库、数据准备区 和数据仓库之间的关系,42,任务集合的任务对象,

14、任 务 对 象 描 述 ExecuteSQLTask 执行一条或多条SQL语句 DataPumpTask 从源数据拷贝数据并转换成目标数据 ActiveXScriptTask 执行ActiveX脚本 ExecuteProcessTask 执行一段外部程序 BulkInsertTask 执行批量插入操作 SendMailTask 使用SQL Mail发送电子邮件 DataDrivenQueryTask 在数据存储之间执行高级转换 TransferSQLServerObjectsTask 将SQL Server的数据对象转换 为其他对象,43,转换器的实现转换器的流程图,44,选择源数据的窗体,4

15、5,集成器的设计与实现,数据仓库初始化和目录管理 接收监控器的变化通告, 并将变化反映到数据仓库中 数据的存在方式与转换算法复杂 多视图合并和集成产生重复和不一致性 采用时态数据库的历史数据管理技术,46,集成器的设计与实现,统一数据编码:本系统中编码转换主要包括: 日期格式转换:Delphi中的FormatDateTime函数来统一日期格式。 测量单位的转换:数据仓库中对于数值型字段应保持一致的单位。在元数据库中创建表Units和UnitTypes来表示各种单位的换算关系。表UnitTypes记录了数据仓库系统中的单位类型,,47,监控器的设计与实现,数据仓库提供的是离线数据, 与源数据存在时间差。 一致性程度: 完全一致 部分一致 不考虑一致性 数据源自治性程度和开放性程度: 全开放型 半开放型 全封闭型,48,监控器捕捉数据变化的途径,时标方法: DELTA文件: 映象文件: 日志文件:,49,数据仓库的创建,50,创建星形模型向导,51,创建星形模型向导,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1