数据仓库的数据模型与数据组织(40P).ppt

上传人:土8路 文档编号:11782999 上传时间:2021-09-08 格式:PPT 页数:40 大小:680KB
返回 下载 相关 举报
数据仓库的数据模型与数据组织(40P).ppt_第1页
第1页 / 共40页
数据仓库的数据模型与数据组织(40P).ppt_第2页
第2页 / 共40页
数据仓库的数据模型与数据组织(40P).ppt_第3页
第3页 / 共40页
数据仓库的数据模型与数据组织(40P).ppt_第4页
第4页 / 共40页
数据仓库的数据模型与数据组织(40P).ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《数据仓库的数据模型与数据组织(40P).ppt》由会员分享,可在线阅读,更多相关《数据仓库的数据模型与数据组织(40P).ppt(40页珍藏版)》请在三一文库上搜索。

1、2021年9月8日星期三,Data Mining: Concepts and Techniques,1,第二章数据仓库的数据模型与数据组织,本章要点 数据仓库的数据模型 概念模型 逻辑模型 物理模型 数据仓库数据组织的基本概念 粒度 维度 元数据 数据分割 数据仓库的数据组织 数据仓库的数据组织方式 数据仓库的数据存储组织,2021年9月8日星期三,Data Mining: Concepts and Techniques,2,数据仓库中的数据组织,高度综合级,轻度综合级,当前综合级,早期细节级,多级数据,2021年9月8日星期三,Data Mining: Concepts and Techni

2、ques,3,Cube: A Lattice of Cuboids,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time, item, location, supplier,0-D(apex) cuboid,1-D cuboids,2-D cu

3、boids,3-D cuboids,4-D(base) cuboid,2021年9月8日星期三,Data Mining: Concepts and Techniques,4,数据仓库的数据模型与数据库系统数据模型的区别,数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。,2021年9月8日星期三,Data Mining: Concepts and Techniques,5,星型图模型 物理数据模型,概念模型,逻辑模型,物理模型,面向用户的需求,细 化层次,更详细的 技术细节,数据仓库的数据

4、模型,信息包图,2021年9月8日星期三,Data Mining: Concepts and Techniques,6,信息包图(概念模型),信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。 工作: 确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键码、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细

5、类别 确定指标和事实:用于进行分析的数值化信息,2021年9月8日星期三,Data Mining: Concepts and Techniques,7,信息包图,信息包: 维度 类别 空白信息包图样式,2021年9月8日星期三,Data Mining: Concepts and Techniques,8,信息包图,例试画出销售分析的信息包图。 解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出

6、各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,2021年9月8日星期三,Data Mining: Concepts and Techniques,9,销售分析的信息包图,信息包: 销售分析 维度,类别,2021年9月8日星期三,Data Mining: Concepts and Techniques,10,A Concept Hierarchy:

7、 Dimension (location),all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,2021年9月8日星期三,Data Mining: Concepts and Techniques,11,星型图模型(逻辑模型),星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策

8、的角度去定义数据实体,更适合大量复杂查询。 星形图包括了三种逻辑实体: 指标 维度 详细类别,2021年9月8日星期三,Data Mining: Concepts and Techniques,12,星型图模型(逻辑模型) 例销售分析的星型图模型。,时间维,产品维,地区维,组别维,其他维,销售分析: 实际销售 预测销售 预测偏差,2021年9月8日星期三,Data Mining: Concepts and Techniques,13,Example of Star Schema,Sales Fact Table,time_key,item_key,branch_key,location_key

9、,units_sold,dollars_sold,avg_sales,Measures,2021年9月8日星期三,Data Mining: Concepts and Techniques,14,Defining a Star Schema in DMQL,define cube sales_star time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as

10、 (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country),2021年9月8日星期三,Data Min

11、ing: Concepts and Techniques,15,Example of Snowflake Schema,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2021年9月8日星期三,Data Mining: Concepts and Techniques,16,Defining a Snowflake Schema in DMQL,define cube sales_snowflake time, item, branch, l

12、ocation: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type) define dimension branc

13、h as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country),2021年9月8日星期三,Data Mining: Concepts and Techniques,17,Example of Fact Constellation,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_

14、sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,2021年9月8日星期三,Data Mining: Concepts and Techniques,18,Defining a Fact Constellation in DMQL,define cube sales time, item, branch, location: dollars_sold = sum(sales_in_dollar

15、s), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension locat

16、ion as (location_key, street, city, province_or_state, country) define cube shipping time, item, shipper, from_location, to_location: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension s

17、hipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales,2021年9月8日星期三,Data Mining: Concepts and Techniques,19,View of Warehouses and Hierarchies,Specificatio

18、n of hierarchies Schema hierarchy day month quarter; week year Set_grouping hierarchy 1.10 inexpensive,2021年9月8日星期三,Data Mining: Concepts and Techniques,20,物理数据模型,物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速

19、存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,2021年9月8日星期三,Data Mining: Concepts and Techniques,21,粒度第一种形式,粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。 粒度越小,综合程度越低,回答查询的种类越多; 粒度越高,综合程度越高,查询的效率也越高。 在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。,2021年9月8日星期三,Data Mining: Concepts and Techniques,2

20、2,Multidimensional Data,Sales volume as a function of product, month, and region,Product,Region,Month,Dimensions: Product, Location, Time Hierarchical summarization paths,Industry Region Year Category Country Quarter Product City Month Week Office Day,2021年9月8日星期三,Data Mining: Concepts and Technique

21、s,23,A Sample Data Cube,Total annual sales of TV in U.S.A.,2021年9月8日星期三,Data Mining: Concepts and Techniques,24,Cuboids Corresponding to the Cube,all,product,date,country,product,date,product,country,date, country,product, date, country,0-D(apex) cuboid,1-D cuboids,2-D cuboids,3-D(base) cuboid,2021年

22、9月8日星期三,Data Mining: Concepts and Techniques,25,Browsing a Data Cube,Visualization OLAP capabilities Interactive manipulation,2021年9月8日星期三,Data Mining: Concepts and Techniques,26,粒度第二种形式:样本数据库,样本数据库:在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。 样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可

23、以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,2021年9月8日星期三,Data Mining: Concepts and Techniques,27,维度,维度:是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。 例如: 一个销售系统中的数据可分为时间维、产品维和地理位置维等;

24、 一个财务系统中的数据可分为时间维、支出维和收入维等; 一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。,2021年9月8日星期三,Data Mining: Concepts and Techniques,28,聚合,在数据仓库技术中,每一维可包括多个层次,这些层次反过来可以向用户提供某一层次的数据。例如,在地理位置维中,由所有的街区组成了地区,由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据,从而构成维内不同层次的数据集,使用户不仅能够在一个维度内观察数据,而且能够在维度内的不同层次上观察数据。,2021年9月8日星期三,Data Mining:

25、Concepts and Techniques,29,分解与合成,分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如,当以地理位置维观察数据时,用户可以首先以国家(如中国)为单位观察数据,然后可以选择观察某一个地区(如华东地区)的数据,接下来可以选择观察某一个省或城市(如上海)的数据,这就是数据分解的过程。而合成则是分解的逆过程,例如用户开始以省市为观察对象,接着再以地区、国家等为观察对象,就是一个数据合成的过程。,2021年9月8日星期三,Data Mining: Concepts and Techniques,30,分割及其标准,分割:将数据分散到各自的物理单元中去

26、以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。 数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。 数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描,2021年9月8日星期三,Data Mining: Concepts and Techniques,31,数据分割的方法,垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。 水平分割:水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。 图解分割:经由多个分布系统把一个

27、图分解成两部分。可以从指定的服务器或在多个服务器之间建立连接而得到一个表所需要的全部数据。这种类型的分割被用来把小的、静止的表从不稳定的、越变越大的表中分割出来。,2021年9月8日星期三,Data Mining: Concepts and Techniques,32,元数据,元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。 要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。,2021年9月8日星期三,Data Mining: Concepts and Tech

28、niques,33,元数据的种类,转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。 DSS元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,这种元数据常称为DSS元数据,常用来开发更先进的决策支持工具。,2021年9月8日星期三,Data Mining: Concepts and Techniques,34,数据仓库中的元数据的内容,关于源数据的元数据:数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁

29、或哪个过程更新的说明;每个数据项的有效值;其它系统中具有相同业务含义的数据项的清单。 关于数据仓库映射的元数据。 关于系统安全的元数据。,2021年9月8日星期三,Data Mining: Concepts and Techniques,35,元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是企业级数据仓库构建过程中十分重要的一环。所谓元数据即数据的数据,好象在一座图书馆中,如果认为每一本书的内容都是数据,用来查找每一本书的索引就是元数据。在数据仓库的构建过程中,会产生三种元数据即业务元数据、技术元数据、操作元数据,分别决定企业的业务模型、数据仓库的规划及物理设计、数据仓库的维护及数据

30、更新策略等。庞大的企业级数据仓库涉及企业运行的众多业务处理系统和整个企业运行的各个环节,只有有效的元数据管理才能保证数据仓库与企业业务的运作保持同步并且根据市场和业务需求的变化随时作出调整,一旦业务需求发生改变,用户可以通过对元数据的维护使数据仓库的运行作出快速的响应。,2021年9月8日星期三,Data Mining: Concepts and Techniques,36,与传统数据库系统的数据字典中相似的内容。 数据仓库的主题描述。 外部数据和非结构化数据的描述。 记录系统定义。 逻辑模型的定义。 数据进入数据仓库的转换规则。 数据的提取历史。 粒度的定义。 数据分割的定义。 广义索引。

31、有关存储路径和结构的描述。,2021年9月8日星期三,Data Mining: Concepts and Techniques,37,数据仓库的数据组织,数据仓库是构建这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。,2021年9月8日星期三,Data Mining: Concepts and Techniques,38,数据仓库的数据组织方式,基于关系表的存储方式:这种方式的

32、主要问题是在多维数据模型定义好后,从数据库中提取数据往往需要编制独立、复杂的程序,因此,通用性较差,且很难维护。 多维数据库存储方式:多维数据库的组织方式是直接面向OLAP分析操作的数据组织形式。这种数据库产品也比较多,实现方法也不尽相同。其数据组织采用多维数据结构文件进行存储,并有维索引及相应的元数据与其对应。,2021年9月8日星期三,Data Mining: Concepts and Techniques,39,数据仓库中文件的存储方式,简单堆积文件: 轮转综合文件:,2021年9月8日星期三,Data Mining: Concepts and Techniques,40,数据仓库的数据组织形式,简化直接文件:简单直接文件是按一定时间操作型数据库的一个快照,即按一定所时间间隔对数据库的采样。 连续文件:它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1