第3章 数据仓库系统的设计与开发.ppt

上传人:爱问知识人 文档编号:5030174 上传时间:2020-01-29 格式:PPT 页数:55 大小:389KB
返回 下载 相关 举报
第3章 数据仓库系统的设计与开发.ppt_第1页
第1页 / 共55页
第3章 数据仓库系统的设计与开发.ppt_第2页
第2页 / 共55页
第3章 数据仓库系统的设计与开发.ppt_第3页
第3页 / 共55页
第3章 数据仓库系统的设计与开发.ppt_第4页
第4页 / 共55页
第3章 数据仓库系统的设计与开发.ppt_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《第3章 数据仓库系统的设计与开发.ppt》由会员分享,可在线阅读,更多相关《第3章 数据仓库系统的设计与开发.ppt(55页珍藏版)》请在三一文库上搜索。

1、2020/1/29,数据仓库与数据挖掘,1,第3章 数据仓库系统的设计与开发,2020/1/29,数据仓库与数据挖掘,2,3.1 数据仓库系统的设计与开发概述,建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期 创建数据仓库系统的两种思维模式 数据仓库数据库的设计步骤,2020/1/29,数据仓库与数据挖掘,3,3.1.1建立一个数据仓库系统的参考步骤,收集和分析业务需求步骤 建立数据模型和数据仓库的物理设计 定义数据源 选择数据仓库技术和平台 数据的抽取、清洗和转换 各种辅助工具和软件的选择 更新数据仓库,2020/1/29,数据仓库与数据挖掘,4,(1)收集和分析业务需求,访问项目经理

2、 访问客户高层管理部门 访问用户 访问信息技术人员,2020/1/29,数据仓库与数据挖掘,5,访问项目经理,2020/1/29,数据仓库与数据挖掘,6,访问客户高层管理部门,2020/1/29,数据仓库与数据挖掘,7,访问用户,2020/1/29,数据仓库与数据挖掘,8,访问信息技术人员,2020/1/29,数据仓库与数据挖掘,9,(2)建立数据模型和数据仓库的物理设计,建立数据仓库的数据模型 设计数据仓库的概念模型 设计数据仓库的逻辑模型 设计数据仓库的物理模型,2020/1/29,数据仓库与数据挖掘,10,建立数据仓库的数据模型,面向主题(对象) 为多个面向应用的数据源的集成提供标准,2

3、020/1/29,数据仓库与数据挖掘,11,设计数据仓库的概念模型,继承建立数据模型面向主题的思想 采用信息包图法设计,全面描述信息包图的5个组成部分(名称、维度、类别、层次和度量),2020/1/29,数据仓库与数据挖掘,12,设计数据仓库的逻辑模型,通常采用星型图法设计 完整描述星型图的5类逻辑实体,2020/1/29,数据仓库与数据挖掘,13,设计数据仓库的物理模型,采用物理数据模型法设计 将物理数据模型的5类表详细描述出来,2020/1/29,数据仓库与数据挖掘,14,(3)定义数据源,在已有系统中定义记录系统。,2020/1/29,数据仓库与数据挖掘,15,(4)选择数据仓库技术和平

4、台,2020/1/29,数据仓库与数据挖掘,16,(5)数据的抽取、清洗和转换,从操作型数据库中抽取、清洗及转换数据到数据仓库,2020/1/29,数据仓库与数据挖掘,17,(6)各种辅助工具和软件的选择,选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件,2020/1/29,数据仓库与数据挖掘,18,(7)更新数据仓库,2020/1/29,数据仓库与数据挖掘,19,3.1.2数据仓库系统的生命开发周期,2020/1/29,数据仓库与数据挖掘,20,3.1.3创建数据仓库系统的两种思维模式,自顶向下(Top-down) 自底向上(Bottom-Up),2020/1/29,数据仓

5、库与数据挖掘,21,3.1.4数据仓库数据库的设计步骤,2020/1/29,数据仓库与数据挖掘,22,3.2 基于SQL Server的数据仓库数据库设计,分析组织的业务状况及数据源结构 组织需求调研,收集业务需求 采用信息包图法进行数据仓库的概念模型设计 利用星形图进行数据仓库的逻辑模型设计 数据仓库的物理模型设计,2020/1/29,数据仓库与数据挖掘,23,MS SQL Server 2005的数据仓库架构,2020/1/29,数据仓库与数据挖掘,24,3.2.1分析组织的业务状况及数据源结构,开发的第一步是要了解和理解组织的业务状况,对于企业来说,也就是要熟悉企业的生产经营流程,同时初

6、步获取在这些流程中的分析需求,为最终确定用户需求做好准备 ; 对数据源结构的分析与理解,2020/1/29,数据仓库与数据挖掘,25,Adventure Works 示例数据仓库,1.公司简介,2020/1/29,数据仓库与数据挖掘,26,Adventure Works 示例数据仓库,2.原材料采购、生产和销售等环节的业务流程介绍,2020/1/29,数据仓库与数据挖掘,27,(1)原材料与仓储业务流程,采购部,经理,采购员,供应商,原材料,1/m,n/o,1/o,经理,管理员,原材料,仓库,1/m,n/o,m/1,仓库管理部门,员工信息,原材料信息,管理员信息,库存信息,供应商信息,2020

7、/1/29,数据仓库与数据挖掘,28,(2)产品销售业务流程,销售经理,销售员,顾客,商品,1/n,商品信息,销售员信息,顾客信息,商品信息,2020/1/29,数据仓库与数据挖掘,29,Adventure Works 示例数据仓库,3.对数据源结构的分析与理解 个人客户相关数据 产品相关数据 原材料采购相关数据,2020/1/29,数据仓库与数据挖掘,30,3.2.2组织需求调研,收集业务需求,关于用户需求的调研 对用户需求调研结果的分析,2020/1/29,数据仓库与数据挖掘,31,3.2.3采用信息包图法进行数据仓库的概念模型,信息包图法简介 信息包图的建立 设计基于主题域的概念模型,2

8、020/1/29,数据仓库与数据挖掘,32,3.2.4利用星形图进行数据仓库的逻辑模型设计,根据分析需求与信息包图制作星形图或雪花图 确定主题的属性组 事实表及其特征 事实表的类型与设计 粒度的选择与设计步骤 关于数据仓库的聚合模型 关于数据的分割处理 星形图中的维度表简介 关于缓慢变化维的处理 常用维度的设计模式,2020/1/29,数据仓库与数据挖掘,33,1. 制作星形图或雪花图,将信息包图转化为星型图,2020/1/29,数据仓库与数据挖掘,34,1. 制作星形图或雪花图,销售分析,客户,区域,广告,时间,产品,(指标),(维度、类别),产品类别,(类别),2020/1/29,数据仓库

9、与数据挖掘,35,2. 确定主题的属性组,通过对业务流程的分析后设计出概念模型,根据概念模型定义的主题、主题域确定主题的属性组,2020/1/29,数据仓库与数据挖掘,36,采购部,经理,采购员,供应商,原材料,1/m,n/o,1/o,经理,管理员,原材料,仓库,1/m,n/o,m/1,仓库管理部门,员工信息,原材料信息,管理员信息,库存信息,供应商信息,销售经理,销售员,顾客,商品,1/n,商品信息,销售员信息,顾客信息,商品信息,1/m,产品信息,2020/1/29,数据仓库与数据挖掘,37,经理,管理员,原材料,仓库,1/m,n/o,m/1,仓库管理部门,原材料信息,管理员信息,采购部,

10、经理,采购员,供应商,原材料,1/m,n/o,1/o,员工信息,库存信息,供应商信息,销售经理,销售员,顾客,商品,1/n,商品信息,销售员信息,顾客信息,商品信息,2020/1/29,数据仓库与数据挖掘,38,供应商主题,顾客主题,商品主题,仓库主题,供应商,供应商ID,顾客ID,有关信息,商品ID,有关信息,商品信息,仓库信息,仓库ID,顾客,商品,仓库,储存,购买,供应,2020/1/29,数据仓库与数据挖掘,39,对概念模型(图3.7)中各主题定义相关属性,以商品主题为例,除基本信息外还有采购和库存信息,销售分析指标主要是和客户发生的业务,这就产生了销售,从而定义了如下属性组:,202

11、0/1/29,数据仓库与数据挖掘,40,3. 事实表及其特征,度量:事件或动作的事实记录。通常用度量变量来表示,通过度量变量的取值来记录并可以统计事实。 事实表:用来记录业务事实并作相应指标统计的表。 事实表的特征: 1)记录量大 2)度量变量与关键字 3)与维度相关联,2020/1/29,数据仓库与数据挖掘,41,4. 事实表的类型与设计,构成事实表的两个部分:键,度量指标 事实表的4种类型:事务事实,快照事实,线性项目事实,事件事实 加法性、半加法性、非加法性 设计事实表:分析事实特性,对所有事实排序,删除重复事实,确认某些派生事实,确定事实表模型。 事实表要尽可能小,同时要考虑数据的精度

12、和粒度问题,2020/1/29,数据仓库与数据挖掘,42,5. 粒度的选择与设计步骤,粒度:数据单元的详细程度和级别 粒度选择对逻辑模型的影响 粒度选择对存储容量的影响 粒度的设计步骤: 粒度设计示例:,2020/1/29,数据仓库与数据挖掘,43,6.关于数据仓库的聚合模型,聚合的含义: 聚合模型的意义:提高数据仓库的使用性能 聚合模型设计应注意的问题,2020/1/29,数据仓库与数据挖掘,44,7.关于数据的分割处理,数据分割: 数据分割的意义,2020/1/29,数据仓库与数据挖掘,45,8.星型图中的维度表简介,维度表的数据特征: 维度表的分类: 维度的层次与级别:,2020/1/2

13、9,数据仓库与数据挖掘,46,9.关于缓慢变化维的处理,维度的变化问题:无变化、缓慢变化、剧烈变化,2020/1/29,数据仓库与数据挖掘,47,10.常用维度的设计模式,时间维度 地理维度 机构维度 客户维度,2020/1/29,数据仓库与数据挖掘,48,3.2.5数据仓库的物理模型设计,物理模型设计的主要工作 物理存储结构设计的原则 数据仓库索引设计的特殊性 存储优化与存储策略,2020/1/29,数据仓库与数据挖掘,49,1.物理存储结构的主要工作,(1)定义数据标准,规范数据仓库中的数据 (2)选择数据库架构 (3)根据DBMS进行数据库表结构设计 (4)确定外部存储设备等物理环境 (

14、5)物理文件设计 (6)索引的使用与选择 (7)RAID(RAID:Redundant Array of Independent Disk,独立冗余磁盘阵列),2020/1/29,数据仓库与数据挖掘,50,2.物理存储结构设计的原则,提高数据访问速度的基本原则: (1)可并行操作的数据应存储在不同的设备上 (2)共享数据集中存储 (3)快速索引一般存储 (4)使用RAID,2020/1/29,数据仓库与数据挖掘,51,3.数据仓库索引设计的特殊性,(1)数据量大更新少 (2)索引多 (3)只读性,2020/1/29,数据仓库与数据挖掘,52,4. 存储优化与存储策略,(1)表的归并与簇文件 (

15、2)反向规划,引入冗余 (3)表的物理分割(分区),2020/1/29,数据仓库与数据挖掘,53,3.3 使用SQL Server 2005建立多维数据模型,SQL Server 2005示例数据仓库环境的配置与使用 基于SQL Server 2005示例数据库的多维数据模型的建立与应用 。,2020/1/29,数据仓库与数据挖掘,54,3.3.1 SQL Server 2005示例数据仓库环境的配置与使用,1.组件、示例和工具的选择与安装 2.权限设置 基于SQL Server 2005示例数据库的多维数据模型的建立与应用 3.示例数据库的安装 4.利用数据仓库及帮助系统学习,2020/1/29,数据仓库与数据挖掘,55,3.3 .2基于SQL Server 2005示例数据库的多维数据模型的建立与应用,1.创建一个新的数据仓库分析项目 2.定义数据源 3.定义数据源视图 4.定义多维数据集 5.部署“销售分析示例”项目 6.浏览已部署的多维数据集 7.提高多维数据集的可用性和易用性,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 研究报告 > 商业贸易


经营许可证编号:宁ICP备18001539号-1