数据仓库与数据挖掘PPT课件.ppt

资源描述

《数据仓库与数据挖掘PPT课件.ppt》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘PPT课件.ppt（24页珍藏版）》请在三一文库上搜索。

1、,数据仓库 -SQL server 2000 Analysis Services,数据库与数据仓库数据库数据管理事务处理获取数据 OLTP银行的存款和取款数据仓库管理技术决策支持分析数据 OLAP规律趋势决策预测,数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合，它用于支持管理中的决策制定过程。数据仓库不是产品。数据库技术存储数据和管理资源统计分析技术分析和提取信息人工智能技术挖掘知识和发现规律,1.面向主题：按主题进行组织，为按主题进行决策的过程提供信息 2.集成：经过系统加工、汇总和整理 3.稳定：长期保留，插入和查询 4.

2、包含历史数据：过去某一时点到目前的信息，发展历程和未来趋势,利用数据仓库解决四种类型的问题: 1. 2005年10月25日肝脏外科的住院人次数是多少? 2. 呼吸内科明年的就诊情况如何？(科室应作何相应调整？) 3. 2005年110月份经消化内科某医师诊治的十二指肠球部溃疡患者的平均住院天数及药品费用构成比是多少？ 4. 影响患者住院费用高低的因素是哪些？其中哪个是最关键因素？,数据仓库设计与开发的一般过程： 1 任务和环境的评估 2 需求的收集和分析 3 设计数据仓库 4 创建数据准备区 5 创建数据仓库数据库 6 从联机事务处理系统中析取数据 7 清理和转换数据 8. 向数据仓库数据库中

3、加载数据 9. 向数据集市发布数据 10创建多维数据集 11进行数据挖掘 12设计并实现终端用户的应用程序 13将数据仓库和基于它的应用投入使用, 数据仓库的数据模型结构 1星型模型星型模型由一个事实表和维表组成，事实表是星型模型的核心表，包含两种类型的列，第一种列是维度表的索引列，这些列中存储了各维表的主键值，它们组合成事实表的主键；而其他非主属性的列则称为事实列，其中包含了用于计算的信息，即多维数据集中的度量值。事实表中的每个事实指向每个维表中的一个元组。 2雪花模型雪花模型是对星型模型的一个扩展，每个维表都可以向外连接多个维表。雪花模型是对星型模型的维表进一步标准化，维表分解成与事实

4、表直接关联的主维表和与主维表关联的次维表。它的优点是通过最大限度的减少存储量以及将较小的标准化表而不是较大的非标准化表联合在一起来改善查询性能。由于采用标准化及维的较低粒度，雪花模型增加了应用程序的灵活性，但由于雪花模型增加了连接操作的次数，因而也增加了查询的复杂性。,多维数据集：事实表与维表多维数据集是联机分析处理的主要对象，是分析数据的基础，是一项可对数据仓库的中的数据进行快速访问的技术。维度：维度是人们观察数据的特定角度，是数据的视图，如可以从时间、科室、病种等不同的角度观察有关住院情况的数据。在实际中最常用的维度是时间维度，维也可以有细节程度不同的描述，这些不同的描述称为维的层次

5、（级别或粒度）。数据仓库中的数据按照不同的维组织起来形成了一个多维的立方体，也即多维数据集。星型架构：单个维表；雪花架构：多个相关联的维表,级别、粒度、成员属性粒度是数据仓库中数据单元的详细程度和级别。粒度越小，级别越低，细节程度越高；反之，数据综合程度越高，粒度越大，级别就越高。数据的粒度越高，所需要存储的数据量越少，但对决策者的重要性却随之增加。成员属性一般为某一级别的具体属性，通过为某一级别创建成员属性，可以进行数据挖掘。时间、病种、患者、；区域、产品、时间维度：年、月、日病种维度：ICD主类、ICD次类、ICD子类、疾病名称患者维度：所属科室、经诊医师、患者（成员属性：

6、性别、年龄、身份、费用类别、手术情况、入院方式、入院病情、出院方式、治疗结果、就诊次数、所患疾病等）治疗结果：只有一个级别,度量值：主要是数值型字段，如：费用金额、住院天数等衍生度量值：就诊人次数等计算成员：均值、百分比、率等,时间代码科室代码病种代码性别代码年龄代码身份代码转归代码住院天数术前住院天数住院总费用药品费用 ,性别维表,年龄维表,身份维表,时间维表,科室维表,病种维表,转归维表,住院事实表,星型模型,时间代码患者代码病种代码性别代码年龄代码身份代码转归代码住院天数术前住院天数住院总费用药品费用 ,性别维表,年龄维表,身份维表,时

7、间维表,患者代码住院科室代码,病种维表,转归维表,住院事实表,雪花模型,科室维表,患者维表,SQL server 2000 数据挖掘,2005年11月10日,分析问题,数据,数据,数据,数据仓库,多维数据集,创建和训练模型,校验数据,数据挖掘模型维护,数据挖掘,数据清洗和转换,查询数据,客户端数据查询,OLAP,数据挖掘过程,数据挖掘结果解释,查询数据,数据挖掘（data mining，DM）就是通过对大型数据库和数据仓库中大量似乎无关的数据进行分析，以便发现并提取隐藏在数据深处的、人们事先不知道的、但是潜在有用的信息、知识和规律的过程。数据挖掘是一种基于发现的方法，它

8、能够自动分析数据并进行归纳性的推理，从中挖掘出潜在的规律或模式，以帮助管理决策者建立新的模型。,目前应用比较广泛的数据挖掘模型和方法主要有基于规则的系统（决策树）、统计方法（聚类）、神经网络、基于事例的推理、机器学习等。在Analysis Services中系统内置了决策树和聚类分析两种挖掘模型。决策树模型是通过一系列的数据细分来实现最终的数据分析，适合于商业预测；而聚类分析模型常用于对比较类似的数据进行集成，适合于商业中的市场划分。,决策树模型 Analysis Services中的决策树模型是一种基于条件和概率的决策方法。它首先选择数据中的显著特征，然后根据这些特征不断的对数据进行分

9、类，缩小数据集，把数据逐步组织成树的形式，直到建立起清晰的相关性，它能够准确的预测事务的发展趋势。,10000名循环系统疾病患者,男性 80,女性20,年龄48 95,年龄=48 5,男性 52,女性 48,司机 33,医生 31,律师 28,其他 8,子女数 =2 85,子女数 2 15,其他 12,医生 43,律师 45,居住地为省会城市或直辖市 82%,居住地非省会城市或直辖市 18%,决策树分析模型,聚类模型聚类分析是一种间接的数据挖掘方法，它是用来查找多维空间中的自然分组，通过提取数据之间的共同点来发现隐藏在数据中的规律。,女,男,15 25 35 45 55

10、65,司机,医生,律师,其他,聚类分析模型,SQL server 2000中并不是只能使用上述两种模型，分析人员还可以通过SQL server 2000提供的编程接口将其他算法引入到系统中，比如神经网络算法和遗传算法。,使用挖掘向导创建数据挖掘模型的过程如下：选择数据源的类型两种数据源：（1）关系数据源：基于关系型数据源的挖掘模型（2）OLAP数据源：基于多维数据集的挖掘模型选择实例表或数据挖掘模型表选择数据挖掘模型选择实例的关键列选择输入（和预测列）系统自动分析数据产生挖掘模型,聚类分析模型和决策树分析模型在建立过程中最大的不同就是聚类分析只需要选择输入列，而不需要指定预测列。相关性网络是微软决策树算法创建的模型视图，聚类挖掘模型没有相关性网络。,

展开阅读全文