第3章数据仓库开发应用过程.ppt

上传人:本田雅阁 文档编号:2566370 上传时间:2019-04-09 格式:PPT 页数:48 大小:446.01KB
返回 下载 相关 举报
第3章数据仓库开发应用过程.ppt_第1页
第1页 / 共48页
第3章数据仓库开发应用过程.ppt_第2页
第2页 / 共48页
第3章数据仓库开发应用过程.ppt_第3页
第3页 / 共48页
第3章数据仓库开发应用过程.ppt_第4页
第4页 / 共48页
第3章数据仓库开发应用过程.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《第3章数据仓库开发应用过程.ppt》由会员分享,可在线阅读,更多相关《第3章数据仓库开发应用过程.ppt(48页珍藏版)》请在三一文库上搜索。

1、第3章数据仓库开发应用过程,数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:数据仓库规划分析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三个阶段。 这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。 本章学习目标: (1) 了解数据仓库开发应用的特点 。 (2) 掌握数据仓库的规划 、数据仓库的概念模型设计 、数据仓库的逻辑模型设计 、数据仓库的物理模型设计 和数据仓库的实施 。 (3) 了解数据仓库的应用、支持和增强。

2、,数据仓库开发应用过程,3.1数据仓库开发应用过程 3.2数据仓库的规划 3.3数据仓库的概念模型设计 3.4数据仓库的逻辑模型设计 3.5数据仓库的物理模型设计 3.6数据仓库的实施 3.7数据仓库的应用、支持和增强 练 习,3.1数据仓库开发应用的特点,3.1.1 数据仓库开发应用的阶段性 数据仓库的开发应用过程划分为: 创始阶段 成长阶段 控制阶段 成熟阶段,3.1.2 数据仓库的螺旋式开发方法,规划 分析阶段 数据仓库 开发过程 设计实施 使用维护阶段 阶段,3.2 数据仓库的规划,3.2.1 选择数据仓库实现策略,开发策略主要有: 自顶向下:实际应用比较困难 。 自底向上:用于一个数

3、据集市或一个部门的数据仓库开发 ,容易获得成功 。 两种策略的联合使用 :能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作 。,3.2.2 确定数据仓库的开发目标和实现范围,首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。 另一个重要目标是确定利用哪些方法和工具访问和导航数据? 其它目标是确定数据仓库内部数据的规模 从用户的角度分析 从技术的角度分析,3.2.3 数据仓库的结构,1.数据仓库的应用结构 基于业务处理系统的数据仓库 单纯数据仓库 单纯数据集市 数据仓库和数据集市 2.数据仓库的技

4、术平台结构 单层结构 客户/服务器两层结构 三层客户/服务器 多层式结构,3.2.4 数据仓库使用方案和项目规划预算,实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来 开发方案的预算进行估计 编制数据仓库开发说明书 : 说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。 业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。 计划中需要阐明期望取得的有形和无形利益 业务价值计划最好由目标业务主管来完成 规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。,3.3 数据仓库的概念模型设计,概念模型的设计可以分为以下

5、几个阶段:用户需求调查、模型定义、模型分析和模型设计。 3.3.1 概念模型的需求调查 数据仓库开发的任务书 首先要明确用户的信息需求 了解管理人员在信息需求方面的内容 了解关于信息的来源 组织所使用的系统环境,3.3.2 概念模型的定义,1.数据仓库用户的决策分析 2.支持决策的数据需求分析 3.数据需求分析工具,3.3.2 概念模型的定义,4.CRUD矩阵,C:Create产生、R:Read引用、U:Update更新 D:Delete删除。,3.3.2 概念模型的定义,5.企业业务处理系统数据存储表,3.3.3 概念模型的分析,3.3.4 概念模型的设计,3.3.5 概念模型文档与评审,1

6、.概念模型设计文档 数据仓库开发需求分析报告 概念模型分析报告 概念模型 概念模型的评审报告。 2.概念模型的评审 3.概念模型的评审人员 4.概念模型的评审内容 数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。,3.4 数据仓库的逻辑模型设计,数据仓库的逻辑模型设计任务: 分析主题域,确定要装载到数据仓库的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式的定义和记录系统定义、确定数据抽取模型等。 逻辑模型最终设计成果: 每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中 粒度划分 数据分割策略 表划分和数据来源等。,3.4.1 分析主

7、题域,3.4.2 粒度层次和聚集的确定,3.4.3 确定数据分割策略,数据分割标准 1.数据量 2.数据分析处理的对象 3.粒度分割的策略,3.4.4 关系模型定义,3.4.5 数据仓库的实体定义,实体的逻辑分析 实体所有列的具体特征,3.4.5 数据仓库的实体定义,3.4.6 数据仓库的数据抽取模型,F1 数据抽取规则,P2 清理数据记录,3.4.6 数据仓库的数据抽取模型,2.数据仓库的数据抽取、转换与加载计划 (1)影响数据抽取、转换与加载的因素 数据格式 坏数据 系统的兼容性 数据源的变化 数据抽取的时间 (2)数据抽取、转换与加载对策 全库比较 利用程序日志 利用数据库日志 利用时间

8、戳或利用位图索引,3.4.6 数据仓库的数据抽取模型,3.数据仓库的数据清理转换方法 (1)类型转换 (2)串操作 (3)数学函数 (4)参照完整性 (5)关键字翻译 (6)聚集运算 4.数据仓库的数据抽取、清理与转换模型,3.4.6 数据仓库的数据抽取模型,数据源抽取对象表,3.4.6 数据仓库的数据抽取模型,数据源抽取规则表,3.4.6 数据仓库的数据抽取模型,数据抽取的目标列与源列对应关系表,3.4.6 数据仓库的数据抽取模型,数据抽取过程的排序、概括和导出情况表,3.4.6 数据仓库的数据抽取模型,数据概括表与事实表对应关系,3.4.7 数据仓库的元数据模型建立与应用,3.4.8 逻辑

9、模型的评审,逻辑模型的文档内容:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实体的关系模式和数据抽取模型。 对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。 从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。 为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。 数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。 数据的约束条件和业务规则是否在这些模型中得到了正确的反映。,3.5 数据仓库的物理模型设计,表的数据结构类型、索引策略、数据存放位置以及数据存储分配等等。 物理模型设计因素:

10、I/O存取时间、空间利用率和维护的代价。 工作: 全面了解所选用的数据库管理系统,特别是存储结构和存取方法。 了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。 了解外部存储设备的特征。,3.5.1 数据仓库设计的规范,保证数据仓库的设计、实施和管理保持稳定,不产生混乱,需要对物理数据模型中的实体、表、列等进行规范化处理。使整个数据仓库的物理数据模型能够保持一致。 规范化内容主要有:完整清晰的数据定义、合适的数据格式等。 数据仓库中的每个组件或部件都确定相应的设计标准。,3.5.2 确定数据结构的类型,数据非规范化处理的优点有: 能减少对表联结的需求,提高数据仓库运行性能。

11、能减少编写专门决策支持应用程序的工作量,因为运用一些专门的查询工具,可以更容易访问数据。 可以让用户以直观的易于理解的工具来操作数据,例如,可以利用电子报表来查看数据。,3.5.3 数据仓库索引的创建,1.索引创建策略 建立索引时,按照索引使用的频率,由高到低逐步添加。 按主关键字和大多数外部关键字建立索引 2.事实表索引的创建 事实表中一定要设置主键 3.维表索引的创建 4.数据加载索引的创建,3.5.4 确定数据存放位置,数据的布局原则: 不要把经常需要连接的几张表放在同一存储设备上。 如果几台服务器之间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格。 考虑把整个企业共享的细节

12、数据放在主机或其他集中式服务器上。 别把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,以加快数据的查询速度。,3.5.5 确定存储分配,3.5.6 数据仓库物理模型的评审,理设计评审的目标要确定: 物理模型在满足数据仓库使用的灵活性、性能、数据完整性、系统可用性、数据的当前性和用户的满意度等,具体的评审项目有:表空间、分区、表格、数据压缩、控制表和引用表、索引、数据量、数据分布、线路通信量、数据仓库的更新、概况数据、预期变动和数据的文档化。,3.6 数据仓库的实施,实施过程中需要完成的工作: 建立数据仓库与业务处理系统的接口 数据仓库的体系结

13、构建立 实现数据仓库物理仓库与元数据库 进行数据仓库的数据初次加载 完成数据仓库的中间件设计 进行数据仓库的测试。,3.6.1 数据仓库与业务处理系统接口的设计,接口应该具有这样一些功能: 从面向应用和操作环境生成完整的数据; 数据基于时间的转换; 数据的聚集; 对现有数据系统的有效扫描,以便今后数据仓库的数据追加。,3.6.2 数据仓库的创建,关系型数据库、多维数据库和对象数据库 创建数据仓库的工具: MS SQL Server2000 Oracle9i Sybase Informix Red Brick Decision Server,3.6.3 数据仓库的数据加载、复制与发行,数据加载之

14、前,首先需要对准备加载的数据进行清理 复制技术 复制结构应完成以下的复杂任务: 不会受到系统失败等问题的影响,保证提供可靠的数据复制。 只传送符合数据完整性规则的一致数据。 可以优化传送过程,减少在捕获或修改数据和复制品作为结果传送之间的等待时间。 技术和数据结构应保证数据发行系统完成以下的功能: 保证数据以适时和有效的方式发行。 保证只发送被排序的数据。 建立正确的和所需要的服务水平标准。,3.6.4 数据仓库的中间件设计,1.代码发生器 2.数据复制工具 3.数据泵 4.广义数据获取工具和设备 拷贝中间件还应该能够进行数据清洁工作 可对记录或列重组、去除业务数据、供给已丢失的字段值和检查数

15、据的完整性和一致性 对列值的解码和转换 增加数据的时间戳 数据的概括或者衍生值的计算,3.6.5 数据仓库的测试,1.单元测试 单元测试的目的是寻找出存在于单个程序、存储过程和其它位于一些独立环境中模块的错误。 2.系统集成测试 测试目的是验证每个单元与数据仓库系统和子系统之间的接口是否完好,是否能够正常传递数据与执行系统的整体功能。,3.7 数据仓库的应用、支持和增强,3.7.1 数据仓库的用户培训及支持 1.用户的培训 向用户解释清楚数据仓库的作用与原理 用各种案例向用户说明如何使用数据仓库 2.对数据仓库用户的支持 对数据仓库应用成功案例的推广 初始阶段的支持 技术人员、商业分析人员与用

16、户一起讨论,3.7.2 数据仓库的使用方式,1.信息处理 2.分析处理 3.数据挖掘,3.7.3 数据仓库使用中的数据刷新,1.从已有数据资源中获取更多数据 2.从单位内部获取新的数据源 3.获取新的或更多的行业数据源,3.7.4 数据仓库的增强,1.元数据库的局限性 2.缺乏外部数据源 3.数据仓库数据加载性能不能满足要求 4.数据仓库应用范围的扩大 5.数据仓库整体性能的调整 6.数据仓库重新规划,练 习,1.为什么说数据仓库的开发是一个不断循环、逐步提升的开发过程? 2.数据仓库的生命周期应该包含哪几个阶段?需要完成哪些工作? 3.在数据仓库的需求分析中需要对哪些人员进行需求调查,应该调查哪些内容? 4.数据仓库的设计包含那些内容? 5.怎样通过数据仓库的应用来增强数据仓库的功能与作用?,练 习,6.请为购买商品趋势分析设计一个数据仓库的星型模型,并给出维表的层次结构。 7.请为航空公司的航班分析数据仓库确定其主题的详细描述。 8.为航空公司的航班分析数据仓库设计一种数据抽取和转换方案,并提出选择此方案的理由。 9.在数据仓库的开发过程中需要对哪些模型进行评审,不同模型的评审内容有哪些?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1