第2章数据仓库原理.ppt

上传人:本田雅阁 文档编号:2600038 上传时间:2019-04-15 格式:PPT 页数:99 大小:6.44MB
返回 下载 相关 举报
第2章数据仓库原理.ppt_第1页
第1页 / 共99页
第2章数据仓库原理.ppt_第2页
第2页 / 共99页
第2章数据仓库原理.ppt_第3页
第3页 / 共99页
亲,该文档总共99页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第2章数据仓库原理.ppt》由会员分享,可在线阅读,更多相关《第2章数据仓库原理.ppt(99页珍藏版)》请在三一文库上搜索。

1、Data Warehouse and Data Mining 第2章 数据仓库原理,北京邮电大学 计算机学院 王小茹,内容提要,数据仓库的结构和技术要求 数据仓库中的数据 元数据,2.1 数据仓库的结构与技术要求,数据仓库的总体结构 数据集市 数据仓库的技术要求,1. 数据仓库的概念结构,数据源、数据准备区、数据仓库数据库、数据集市知识挖掘库以及各种管理工具和应用工具,数据仓库的概念结构,数据仓库在创建以后: 首先要从数据源中抽取所需要的数据到数据准备区,在数据准备区中经过数据的净化处理 再加载到数据仓库数据库中 最后根据用户的需求将数据发布到数据集市/知识挖掘库中。 当用户使用数据仓库时,可

2、以通过OLAP等数据仓库应用工具向数据集市知识挖掘库或数据仓库进行决策查询分析或知识挖掘。,2. 数据仓库的总体层次结构,为实现数据仓库的功能,数据仓库的总体层次结构包括: 数据仓库基本功能层 数据库仓库管理层 数据仓库环境支持层,(1)数据仓库的基本功能层 从数据源抽取数据 对所抽取的数据进行筛选、清理,将清理后的数据加载到数据仓库中 根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。 (2)数据仓库的管理层 数据仓库的管理层包含数据管理与元数据管理两部分。 数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理. (3)数据仓

3、库环境支持层 数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。,数据仓库的总体层次结构,3. 数据仓库的结构模式,数据仓库作为数据存储的一种组织形式,它从最初的数据源获得原始数据,按照决策的要求重新组织,形成具有不同粒度的综合数据层,这是数据仓库结构的一个方面。 数据仓库还需要对其中存储的数据进行操纵、管理等,以支持决策,这是数据仓库结构的另一方面。,(1)数据仓库的自顶向下结构,自顶向下结构,这种结构开始于对原始数据的处理。 包括抽取、转换、迁移等处理过程,用于将传统数据库或外部数据源的数据处理后输出到一个集中的数据驻留单元。 随后,数据和元数据装载进入数据仓库。 一旦这些过程完成

4、,就可根据数据仓库所包含的各种数据来建立数据集市。 在数据仓库中不但包含全部的元数据、当前详细数据,同时还存储详尽的历史数据。 数据集市则拥有轻度和高度综合的数据及元数据。,发展状况,在自顶向下的结构中,数据仓库普遍采用实体关系(Entity Relationship,E-R)数据模型,而数据集市则采用星形数据模型来提高性能。 只要能满足数据集市是作为数据仓库子集的这条原则,数据仓库和数据集市间的集成就能自动完成。 这种模式要求首先建立数据仓库,但是由于数据仓库建设规模较大,实施周期长,费用高,初期效果并不明显,甚至最终失败,致使许多企业不愿或无法承受。,2. 数据仓库的自底向上的结构,数据仓

5、库的自底向上的结构,基于上述情况,一种自底向上建设多级数据仓库的思想也就产生了,即建立数据集市的思想。 这种思想的核心是从最关键的部分开始,先以最少的投资,完成企业当前需求,获得最快的回报,然后再不断扩充,不断完善、通过从小做起、从部分做起,走逐步集成、逐步完善的道路,最终建立全局数据仓库。 这种结构有助于部门级管理人员合理安排预算和及时采用新的数据仓库技术来产生合乎自己角色的专门应用。自底向上的结构逐渐为人们所认同。,数据仓库的构建过程,自底向上结构的核心是通过独立开发的数据集市逐渐构建数据仓库。 这种结构的流程从建立数据集市的抽取、转换、转移和装载过程开始,在这些过程中,不需要一个通用的数

6、据驻留单元,因为每个数据集市都可能有自己独立的存储区域,甚至每个数据集市的数据抽取、转换、转移和装载的工具都可能不同。,自底向上 VS 自定向上,从集成的角度来看,自底向上与自顶向下结构的最大差异在于: 前者不需要为创建数据集市而具备通用的元数据部件。,2.1.2 数据集市,数据仓库在管理、决策组织中的作用逐渐为人们认同,但是在全组织范围内构建数据仓库的工作量大、代价很高。 一方面,如何满足组织中不同层次管理决策要求是一个需要解决的复杂问题; 另一方面,在实施过程中由于很难全面了解组织管理决策要求,易造成项目进度拖延,建成的数据仓库起不到应有的作用,因此导致失败的例子也不鲜见。 提出了数据集市

7、(Data Mart)的概念。,什么是数据集市,数据仓库在全组织范围内为各个部门提供管理、决策支持,而数据集市通常在部门级,一般只能为某个局部范围内的管理人员服务, 因此也称之为部门级数据仓库.(Department Data Warehouse) 数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,支持用户利用已有的数据进行管理决策。,数据集市的特点,数据集市除具有数据仓库的基本特征以外,还具有以下特点: 规模较小,灵活,可以按照多种方式来组织,如按特定的应用等。 开发工作一般由业务部门主持定义、设计、实施、管理和维护。 能够快速实现,代价较低,投资回收期短

8、,风险小。 紧密集成。 有利于进一步升级到完整的数据仓库或形成分布式数据仓库。,2. 数据集市的类型,数据集市可以分为两种,一种是独立数据集市,另一种是从属数据集市。 图2-5a表示的是数据仓库的逻辑结构。 其中的数据来自于各个不同数据源,把它们的操作数据按照企业数据仓库物理模型结构的定义转换过来。 采用这种中央数据仓库的做法,可以保证数据的一致性。,图2-5b表示的是从属数据集市的逻辑结构,这种结构仍能保持数据的一致性。 为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。,图2-5c描述了独立数据集市的逻辑结构,它的数据直接来源于各生产系统。 许多

9、企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是这种结构的独立数据集市,用来解决个别部门比较迫切的决策问题。 它和企业数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别(也许这是把数据集市称为部门数据仓库的主要原因)。,3企业级数据集市结构,尽管自底向上结构也存在许多缺点,但它基于数据集市构建数据仓库的由小到大,由部分到整体的思想给后来者很大的启发。 自底向上结构的支持者对原有的技术和方案进行调整,发展成了如图2-6所示的企业级数据集市结构(Enterprise Data Mart Architecture,EDMA)。,2.2 数据仓库中的数据,数据仓库系统

10、通常由数据仓库、管理部分和分析工具三个部分组成.,1数据仓库组成:仓库管理,数据仓库的数据来自多个数据源,包括企业内部数据和市场调查与分析的外部数据。 数据仓库管理部分的组成包括: 定义部件。这一部件用于定义和建立数据仓库系统。 数据建模是建立数据仓库的数据模型。 数据仓库的数据模型不同于数据库的数据模型在于: 数据仓库只为决策分析用,不包含事务处理的数据。 数据仓库的增加了时间属性数据。 数据仓库增加了一些综合数据。 数据仓库的数据建模是适应决策用户使用的逻辑数据模型。,数据仓库组成:数据获取部件,数据获取部件。 依据数据定义部件定义的规则从数据源中将数据抽取到数据仓库中,完成清洗、变换和集

11、成工作,将数据装载到数据仓库中,定期清理数据仓库,消除数据仓库与源数据库的不一致,清除失效数据等。可以通过一些通用工具完成,但是由于数据源中的数据类型、格式非常复杂,因此有些情况下需要编制特定的工具完成数据获取工作。 数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。 数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。,数据仓库组成:管理和元数据管理部件,管理部件。主要包括对数据仓库中数据的维护、安全、备份、恢复、日志等工作。这些工作需要借助数据库管理系统的功能实现。 元数

12、据管理,也可称为信息目录管理。它主要完成元数据的管理、存储以及对整个数据仓库数据的检测和管理。 由以下部分组成: 技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之间的映射组成。 业务目录。业务目录由数据仓库管理员生成,由数据来源、当前值等方面组成,是针对具体应用数据的元数据管理。,元数据管理,也可称为信息目录管理。它主要完成元数据的管理、存储以及对整个数据仓库数据的检测和管理。 由以下部分组成: 技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之间的映射组成。 业务目录。业务目录由数据仓库管理员生成,由数据来源、当前值等方面组成

13、,是针对具体应用数据的元数据管理。,(2)数据仓库工具集 数据仓库工具集主要由一些分析工具组成,主要包括检索查询工具、多维数据的OLAP分析工具、统计分析以及数据挖掘工具。 从数据仓库的角度:数据挖掘工具只是数据仓库支持辅助决策的一种方法,数据挖掘可以从数据仓库中挖掘知识、规律,也可以从数据库中挖掘。,2. 数据仓库组成:工具集,31,(1)查询工具 数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。 一般包含: 可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。,32,(2)多维分析工具(OLAP工具) 通过对信息的多种可能的观察形式进行快速、一致和交互

14、性的存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。,33,(3)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。,3. 数据仓库的运行结构,34,数据仓库应用是一个典型的客户/服务器(C/S)结构形式: 客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。 服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。,C/S工具,数据仓库应用是一个典型的客户机服务器结构形式。 这种方式在提高性能和可靠性、降低数捃传输量以及保证数据的安全性等方面会带来很大的好处。

15、 服务器端一般有OLAP服务器和数据挖掘服务器两种。,36,OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。 这种结构形式工作效率更高。,OLAP的三层C/S结构,2. 数据仓库的数据组织,与数据库不同,通常采用分级的方式对数据进行组织,由元数据统一组织。,38,近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。 历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)

16、和内容(contents)进行综合。 高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。,数据的组织结构,2.2.2 数据仓库的数据模型,数据模型的意义,在创建数据仓库之时,要使用各种数据模型对数据仓库进行描述。 数据仓库的开发人员需要依据这些数据模型,才能开发出一个满足用户需求的数据仓库。 数据仓库的各种数据模型在数据仓库的开发中作用十分明显,主要体现在模型中只含有与设计有关的属性。 模型有好的适应性,易于修改。当用户的需求改变时,仅对模型作出相应的变化就能反映这个改变。,数据仓库模型,数据模型是对现实世界进行抽象的工具,需要将现实世界的事物及其有关特征转换为

17、信息世界的数据,才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。 这种转换经历了从现实到概念模型,从概念模型到逻辑模型,最后从逻辑模型到物理模型的转换。 在数据仓库的开发中同样也要经历概念模型、逻辑模型和物理模型的三级模型开发。,下图显示了现实与不同模型的变化联系,说明了业务处理系统开发中的数据模型变化关系,这种关系在数据仓库的开发过程中也是同样存在的,只是在具体应用方面稍有变化。,现实世界是存在于现实之中的各种客观事物,它反映客观事物及其相互之间的关系。 概念世界是现实情况在人们头脑中的反映,人们需要利用一种模式将现实世界在自己的头脑中表达出来。 逻辑世界是人们为将存在于自

18、己头脑中的概念模型转换到计算机中的实际物理存储过程中的一个计算机逻辑表示模式。通过这个模式,人们可以很容易地将概念模型转换成计算机世界的物理模型。 计算机世界是指现实世界中的事物在计算机系统中的实际存储模式,只有依靠这个物理存储模式,人们才能实现利用计算机对现实世界的信息管理。,数据仓库设计的模型包括: 概念模型、逻辑模型和物理模型、元数据模型和数据粒度模型; 数据仓库的设计也是在概念模型、逻辑模型和物理模型的逐次转换过程中实现的。 作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、成长与使用。,45,数据仓库存储采用多维数据模型。,0. 数据仓库的数据模型,果汁,可乐,牛奶,商品维

19、,奶油,浴巾,香皂,北京,上海,长沙,1 2 3 4 5 6 7,城市维,日期维,从关系表和电子表格到数据立方体,47,维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。 每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。 两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。,1. 数据仓库的概念模型,50,大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。 “事实表”中存放

20、大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。 星型模型数据如下图:,2.2.1星型模型,星型模式实例,维表:就是对维的属性描述 事实表:由每个维表的关键字和事实度量构成,数据量非常大,52,星型模型数据存储情况示意图,54,2.2.2雪花模型 雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。 在上面星型模型的数据中 ,对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。 2.2.3星网模型 星网模型是将多个星型模型连接起来形成

21、网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。,雪花模型,与星型模型的不同就是把维表进行了规范化,消除冗余(把冗余字段用新表表示),56,事实星座模式实例,在实际中,很多事实表具有共享的维(维关键字),则把事实表组合(主题整合),地区键 ,事务键 ,用户键 ,时间键 ,状态键 ,时间键 用户键 事务键 地区键 电话费用,时间键 用户键 状态键 电话余额,电话公司星网模型实例,定义星形、雪花形、事实星座模式的例子,概念分层有利于数据在不同层次的汇总。,多维数据模型的OLAP操作,建立自己的数据仓库模型,汇总,数据减少。形成小立方体,,得到更详细的数据立方体,77,2.3数据抽取、

22、转换和装载,数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。 数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。,78,231 数据抽取,(1)确认数据源 (2)数据抽取技术,79,1.确认数据源,列出对事实表的每一个数据项和事实 列出每一个维度属性 对于每个目标数据项,找出源数据项 一个数据元素有多个来

23、源,选择最好的来源 确认一个目标字段的多个源字段,建立合并规则 确认一个目标字段的多个源字段,建立分离规则 确定默认值 检查缺失值的源数据,80,2.数据抽取技术,当前值。 源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。 周期性的状态。 这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。,81,232 数据转换,1.数据转换的基本功能 2.数据转换类型 3.数据整合和合并 4.如何实施转换,82,1.数据转换的基本功能,选择:从源系统中选择整个记录或者部分记录。 分离/合并:对源系统中的数据

24、进行分离操作或者合并操作。 转化:对源系统进行标准化和可理解化。 汇总:将最低粒度数据进行汇总。 清晰:对单个字段数据进行重新分配和简化 。,83,2.数据转换类型,(1)格式修正 (2)字段的解码 (3)计算值和导出值 (4)单个字段的分离 (5)信息的合并 (6)特征集合转化 (7)度量单位的转化 (8)关键字重新构造 (9)汇总 (10)日期/时间转化,84,3.数据整合和合并,数据整合和合并是将相关的源数据组合 成一致的数据结构,装入数据仓库。 (1)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。 (2)多数据源相同属性不同值的

25、问题 不同系统中得到的值存在一些差别 ,需要给出合理的值。,85,4.如何实施转换,自己编写程序实现数据转换 使用转换工具,86,233 数据装载,(1)数据装载方式 (2)数据装载类型,87,1.数据装载方式,基本装载 按照装载的目标表,将转换过的数据输入到目标表中去。 追加 如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。 破坏性合并 用新输入数据更新目标记录数据。 建设性合并 保留已有的记录,增加输入的记录,并标记为旧记录的替代。,88,2.数据装载类型,最初装载 这是第一次对整个数据仓库进行装载。 增量装载 由于源系统的变化,数据仓库需要装载变化的数据。 完全刷新

26、 这种类型的数据装载用于周期性重写数据仓库。,89,2.3.4 ETL工具,数据转换引擎 代码生成器 通过复制捕获数据,90,24 元数据,241 元数据的重要性 242 关于数据源的元数据 243 关于数据模型的元数据 244 关于数据仓库映射的元数据 245 关于数据仓库使用的元数据,91,241 元数据的重要性,最基本的元数据相当于数据库系统中的数据字典。 元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。,92,这类元数据是对不同平台上的数据源的物理结构和含义的描述。

27、具体为: (1)数据源中所有物理数据结构,包括所有的数据项及数据类型。 (2)所有数据项的业务定义。 (3)每个数据项更新的频率,以及由谁或那个过程更新的说明。 (4)每个数据项的有效值。,2.4.2关于数据源的元数据,93,这组元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础。 这种的元数据可以支持用户从数据仓库中获取数据。,2.4.3关于数据模型的元数据,94,例如,雇员与技能之间的关系如图2.13表示。,95,元数据描述如下:,96,这类元数据是数据源与数据仓库数据间的映射。 当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任

28、何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。,2.4.4关于数据仓库映射的元数据,97,1抽取工作之间的复杂关系,一个数据的抽取要经过许多步骤。如图所示:,98,2源数据与目标数据之间的映射,(1)抽取工作 (2)抽取工作步骤 (3)抽取表映射 (4)抽取属性映射 (5)记录筛选规则,99,这类元数据是数据仓库中信息的使用情况描述。 数据仓库的用户最关心的是两类元数据: (1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。 (2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。 关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。,2.4.5关于数据仓库使用的元数据,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1