第2章数据仓库开发模型.ppt

上传人:本田雅阁 文档编号:2566132 上传时间:2019-04-09 格式:PPT 页数:47 大小:424.51KB
返回 下载 相关 举报
第2章数据仓库开发模型.ppt_第1页
第1页 / 共47页
第2章数据仓库开发模型.ppt_第2页
第2页 / 共47页
第2章数据仓库开发模型.ppt_第3页
第3页 / 共47页
第2章数据仓库开发模型.ppt_第4页
第4页 / 共47页
第2章数据仓库开发模型.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《第2章数据仓库开发模型.ppt》由会员分享,可在线阅读,更多相关《第2章数据仓库开发模型.ppt(47页珍藏版)》请在三一文库上搜索。

1、第2章数据仓库开发模型,在创建数据仓库之时,需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。使开发人员能够将注意力集中在数据仓库开发的主要部分。模型有更好的适应性,更易于修改。当用户的需求改变时,仅对模型做出相应的变化就能反映这个改变。,数据仓库开发模型,2.1数据仓库开发模型 2.2数据仓库概念模型 2.3数据仓库逻辑模型 2.4数据仓库的物理模型 2.5数据仓库的元数据模型 2.6数据仓库的粒度和聚集模型 练 习,2.1 数据仓库开发模型,模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息

2、世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历: 从现实到概念模型, 从概念模型到逻辑模型, 从逻辑模型到物理模型,数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。,2.2 数据仓库概念模型,2.2.1 概念数据模型,数据仓库可以采用ER图作为概念设计框架,但是与具体的业务处理系统设计还是有所区别。 数据仓库的数据模型中不包含操作型的数据,数据仓库的数据模型只包含用户所

3、感兴趣的分析数据、描述数据和细节数据。 数据仓库的数据模型扩充了关键字结构,增加了时间属性作为关键字的一部分 数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析,指标实体(事实实体),维度实体,详细类别实体(引用实体),为表述数据仓库所需的分析数据、描述数据和细节数据,反映时间属性,表现数据导出关系。将原ERD的实体分解为“事实实体、维实体和详细类别实体。,5个基本特征,2.2.2 规范的数据模型,第一范式、第二范式、第三范式数据仓库的反规范化处理,2.2.3 星型模型,星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一

4、个集成系统,为用户提供分析服务对象。,核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。,例1 某公司销售数据的星型模型,time_key day day_of_the_week month quarter year,time 维表,location_key street city state_or_province country,location 维表,Sales 事实表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,度量,item

5、_key item_name brand type supplier_type,item 维表,branch_key branch_name branch_type,branch 维表,概念分层,例2超市营销数据仓库,2012年2月22,2.2.4 雪花模型,雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。,雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。,例:销售数据雪花模型,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,

6、avg_sales,Measures,补充:事实星座模型,事实星座(Fact constellations): 复杂应用可能需要多个事实表共享维表, 这种模式可以看作星型模式的汇集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation),Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_l

7、ocation,to_location,dollars_cost,units_shipped,2.3 数据仓库逻辑模型,2.3.1 事实表模型设计,1.事实表 (1)客户事实表 客户基本情况表(账号Integer9,姓名Character12,出生地Character20,初次交易时间Date,)。 2事实表中的事实特性 事实表中一般包含两部分,一是由主键和外键所组成的键部分,另一是用户希望在数据仓库中所了解的数值指标。 派生事实主要有两种,一是可以用同一事实表中其他事实计算得到,还有一类派生事实是非加法性事实。,2.3.1 事实表模型设计,3.设计原则 通过调查确定所有可能的事实,派生事实

8、按功能排序,删除重复事实 基于不同准则但是有相同性质的派生事实 确认计算派生事实的基本事实包含在模型中 事实表尽可能小!,2.3.2 维模型设计,客户主题维度表模型 时间维度表(年Date,月Date,日Date)。 地点维度表(省Character20,市Character20,县Character20,街道Character20)。,2.4 数据仓库的物理模型,2.4.1 数据仓库物理模型的存储结构 确定数据的存储结构 并行存储结构RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。 RAID RAID1级。 RAID2级。 RAID3级。

9、 RAID4级。 RAID5级。,2.4.2 数据仓库物理模型的索引构建,位图索引,2.4.2 数据仓库物理模型的索引构建,2.4.2 数据仓库物理模型的索引构建,2广义索引的构建 3连接索引,连接索引A,agelevel_id,time_id year_id month_id,geo_id prov_id city_id county_id,produ_id,agelevel_id time_id geo_id produ_id amou_mone,agelevel_id time_id year_id month_id geo_id prov_id city_id county_id pr

10、odu_id amou_mone,agelevel_id time_id geo_id produ_id,全连接结果,time_id geo_id,连接索引B,2.4.3 数据仓库物理模型的优化问题,1.合并表:几个表的记录分散存放在几个物理块中时,多个表的存取和连接操作的代价会很大。 2.建立数据序列:按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中,形成数据序列。 3.引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。 4.表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率

11、分成两个或多个表,将具有相似访问频率的数据组织在一起。 5.生成派出数据:在原始数据的基础上进行总结或计算,生成派出数据,可以在应用中直接使用这些派出数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。,2.5 数据仓库的元数据模型,2.5.1 元数据的类型与组成,元数据描述了数据的结构、内容、键、索引等项内容。在数据仓库中,元数据定义了数据仓库中的许多对象表、列、查询、商业规则或是数据仓库内部的数据转移。元数据是数据仓库的重要构件,是数据仓库的指示图(roadmap)。 1.数据仓库的元数据重要性 为数据仓库服务与DSS分析员及高层决

12、策人员服务提供便利 解决操作型环境和数据仓库的复杂关系 数据仓库中数据的管理 2.元数据在数据仓库开发期间的使用 确认数据质量 、同步化和刷新 、映射 3.元数据在数据源抽取中的作用 资源领域的确定 、跟踪历史数据结构变化的过程 、属性到属性的映射 、属性转换 4.元数据在数据求精与重构工程上的作用 数据的分割 、概括与聚集 、预算与推导 、转换与再映像,2.5.2 元数据在数据仓库中的作用,2.5.3 元数据的收集,1.数据源的元数据 2.数据模型的元数据 3.数据源与数据仓库映射的元数据 4.数据仓库应用的元数据,2.6 数据仓库的粒度和聚集模型,粒度可定义成数据仓库中数据细节的最低层次,

13、如事务层次。这种数据层次是高度细节化的,这样就能使用户按所需的任何层次进行汇总。 根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。,2.6.1 数据粒度的划分,第一步,是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数。 每一个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。,2.6.2 确定粒度的级别,考虑因素: 要接受的分析类型、可接受的数据最低粒度和能存储的数据量。 粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。 在同一模式中使用多重粒度。 如果存储资源有一定的

14、限制,就只能采用较高粒度的数据粒度划分策略。 粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。 数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。,2.6.3 数据仓库的聚集模型确定,聚集数据主要是为了使用户获得更好的查询性能 聚集模型设计时应该注意将聚集数据存储在其事实表中,并与其底层数据相区别。 设计聚集模型时,首先需要考虑用户的使用要求。 其次要考虑数据仓库的粒度模型和数据的统计分布情况。 数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关 建立聚集模型时还需要考虑作为聚集属性的数量因素,2.6.4 聚集

15、模型的处理,聚集事实表已经独立存在并且可以与基本事实表一同保存 通过将当前加载数据添加到系统中的累积“桶”中 将数据的聚集与数据仓库的加载过程组合为同一处理过程 在将数据仓库数据加载以后,再进行聚集处理 每次在加载数据仓库数据时,都需要对各种聚集进行计算和增加,及时保持聚集与基本数据的同步性,2.6.5 聚集模型的管理,要根据使用情况删除不经常使用的聚集 需要减少层次过于接近的聚集生成 注意将聚集独立存储在自己的事实表中,数据仓库示例,SQL开发套件介绍 数据仓库建立-AdventureWorksDW 示例数据仓库介绍 数据转换工具ETL介绍 多维数据模型建立,SQL开发套件介绍,Micros

16、oft SQL Server Management Studio 数据仓库的物理实现 SQL Business Intelligence Development Studio 数据的预处理、转换 ETL项目 多维数据集的建立、OLAP操作和数据挖掘 Analysis Service 项目 SQL2005或2008 开发版。,AdventureWorksDW 示例数据仓库介绍,http:/ 员工主题 财务主题 宏观环境,逻辑细分,数据仓库的建立,采用关系型数据库作为物理存储 不需要建立数据表之间的联系 在做OLAP和DM时用 analysis service项目建立多维数据模型,数据转换与清理,

17、建一个简单 ETL 包,该包可以从单个平面文件源提取数据,使用两个查找转换组件转换该数据,然后将该数据写入 AdventureWorksDW 中的FactCurrencyRate 事实数据表。 了解包要求 查看源 查看目标 将源数据映射为与目标兼容,数据转换与清理,创建新的 Integration Services 项目 添加和配置平面文件连接管理器 添加和配置 OLE DB 连接管理器 添加一个数据流任务 添加平面文件源组件 添加并配置 CurrencyKey 查找转换 添加和配置示例 OLE DB 目标 运行 回顾,多维数据集建立,在 Microsoft SQL Server 2005 A

18、nalysis Services (SSAS) 中,可以方便地创建复杂的联机分析处理 (OLAP) 和数据挖掘解决方案。Analysis Services 工具提供了设计、创建和管理来自数据仓库的多维数据集和数据挖掘模型的功能,还提供对 OLAP 数据和数据挖掘数据的客户端访问。 参考书目:Analysis Services 教程,第 1 课:在 Analysis Services 项目中定义数据源视图 1.1创建analysis service项目 1.2定义数据源 1.3定义一个新的数据源视图 1.4修改表的默认名称 第 2 课:定义和部署多维数据集 2.1定义多维数据集 2.2了解多维数据集设计器选项卡 2.3浏览已部署的多维数据集 回顾,多维数据集建立,多维数据集建立,第 3 课:修改度量值、属性和层次结构在定义、部署和处理初始多维数据集 3.1修改多维数据集的度量值 3.2修改维度 删除未使用的属性 修改用户层次结构和特性属性 添加命名计算 将命名计算用于成员名称 添加属性并定义显示文件夹 部署更改、处理对象以及查看更改 3.3修改”时间”层次结构 提供唯一的维度成员名称 指定组合键值 修改组合键成员顺序 3.4修改“产品”维度 删除不需要的属性 定义命名计算,修改名称属性值,定义用户层次结构 指定文件夹名称和成员名称 检查“产品”维度更改,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1