第二章信息系统的技术基础26数字存储与分析技术.ppt

上传人:本田雅阁 文档编号:2996382 上传时间:2019-06-21 格式:PPT 页数:113 大小:7.82MB
返回 下载 相关 举报
第二章信息系统的技术基础26数字存储与分析技术.ppt_第1页
第1页 / 共113页
第二章信息系统的技术基础26数字存储与分析技术.ppt_第2页
第2页 / 共113页
第二章信息系统的技术基础26数字存储与分析技术.ppt_第3页
第3页 / 共113页
第二章信息系统的技术基础26数字存储与分析技术.ppt_第4页
第4页 / 共113页
第二章信息系统的技术基础26数字存储与分析技术.ppt_第5页
第5页 / 共113页
点击查看更多>>
资源描述

《第二章信息系统的技术基础26数字存储与分析技术.ppt》由会员分享,可在线阅读,更多相关《第二章信息系统的技术基础26数字存储与分析技术.ppt(113页珍藏版)》请在三一文库上搜索。

1、第二章: 2.6 数据存储与分析技术,本节主要内容,2.6.1引言 2.6.2 数据管理技术的发展 2.6.3 数据库环境下的数据管理 2.6.4数据库设计 2.6.4.1 数据库设计的步骤 2.6.4.2 实体联系模型(ER模型) 2.6.4.3数据模型 2.6.4.4关系数据库的规范化 2.6.4.5数据库操作 2.6.4.6常见关系型数据库系统介绍 2.6.5 数据库技术的发展 2.6.5.1数据仓库 2.6.5.2数据集市 2.6.5.3数据挖掘,了解传统的文件组织和管理技术 了解传统文件管理环境下存在的问题 了解数据库管理系统中数据的组织方法 理解三种不同的数据库组织模型 掌握E-R

2、模型和E-R图的画法 掌握三范式理论 掌握基本的数据库操作方法 了解数据库技术的发展,本章学习目的,国际著名调查机构Gartner Group在高级技术调查报告中,将数据分析和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系和数据分析列为未来五年内投资焦点的十大新兴技术前两位。Gartner的调查报告预计:到2010年,数据分析在相关市场的应用将从目前少于5%增加到超过80%。在国外,数据分析已在金融、证券、电信、制造、统计、零售业等数据密集型行业实施,并取得巨大的效益。,2.6.1引言,数据管理技术 数据分析技术 数据加密技术 数据压缩技术 数据恢复技术

3、,一、数据处理技术,2.6.1引言,数据存储技术,数据检索技术,数据挖掘技术,二、数据管理技术,数据仓库技术,2.6.1引言,内容管理产生于20世纪80年代中后期,其需求主要来自于非结构化数据管理的需要 。目前,在大多数情况下,内容管理特指用于非结构化数据管理的技术。 内容管理是借助信息技术,通过收集、创建、管理和发布内容,实现内容在企业内部以及企业之间的传播和共享的过程。,数据管理技术的重要方向内容管理,2.6.1引言,位 字符 数据元(字段) 记录 文件 数据库,2.6.1引言,三、数据的组织层次,数据库,文件,记录,字段,字符,2.6.1引言,计算机系统是按层次组织数据的,首先由位组成字

4、节,字节组成字段(数据元),向上依次组成记录、文件和数据库。位(Bit)是计算机中最小的数据单位,其值为0或1。计算机只能检测到电脉冲信号的有无。电脉冲信号出现高电平表示1, 电脉冲信号为低电平表示0。一个位表示二进制数据0或1,多个位组成字节(Byte),一个字节代表一个字符,字符可以是字母、数字或其他符号;多个字符组成一个词或一个完整的数字,称为字段、数据项或域(Field);若干个相关的字段组成一个记录(Record);若干同类型的记录组成一个文件(File);若干相关文件的集合组成一个数据库(Database)。如下图所示,比特、字符、字段、记录、文件和数据库构成了数据层次,数据库中不

5、仅包括了所有这些数据层次,还包括了它们之间的关系。,2.6.1引言,数据实体、属性和键,数据管理技术的发展经过了三个阶段: 人工管理:50年代中期以前 文件管理:50年代后期到60年代中期 数据库管理:60年代后期开始、DBMS广泛应用,2.6.2数据管理技术的发展,数据访问应用模型,数据访问的发展史,2.6.2数据管理技术的发展,2.6.2数据管理技术的发展,数据库 数据库(DB-Database)是以一定的组织方式存储在一起的互相关联的数据的集合(逻辑相关的记录和文件的集合)。 数据库管理系统 数据库管理系统(DBMS-Database Management System)是对数据库进行管

6、理的特定软件。通常所说的数据库管理系统是指DBMS,而不是指具体的数据库Database。,一、数据库、数据库管理系统和数据库系统,2.6.3 数据库环境下的数据管理,数据库系统 口语中常说的“数据库系统”在大多数时候都是指DBMS。但是严格来说,数据库系统(DBS-Database System是指在计算机系统中引入数据库之后的系统,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员(DBA-Database Administrator)和用户构成。即: DBS= DB + DBMS + APPLICATION + DBA + USER,2.6.3 数据库环境下的数据管理,

7、数据库管理系统的目的:就是为了解决前面提到的在文件处理系统中存在的一些问题: 数据冗余和不一致 数据访问困难 数据孤立 灵活性差 并发访问异常 安全性问题 由于这些问题,数据库管理系统提出了很多新的概念和算法,加速了DBMS的发展。,二、数据库管理系统(DBMS),2.6.3 数据库环境下的数据管理,数据库管理系统的功能就是:,2.6.3 数据库环境下的数据管理,创建和修改数据库。 存储和检索数据。 操纵数据和生成报表。 保证所存储数据的安全性。 数据被多用户共享时,要 避免可能产生的异常结果(并发控制)。,数据共享 减少数据冗余 提高了数据的一致性 数据与应用程序之间的独立性 提高了数据的安

8、全性,三、数据库管理的优点,2.6.3 数据库环境下的数据管理,数据库设计是建立数据库及其应用系统的技术,是信息系统开发和建设中的核心技术。具体说,数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之能够有效地存储数据,满足各种用户的应用需求(信息要求和处理要求)。 数据库合理的结构和组织是信息系统分析、设计时需要考虑的一个重要方面。,2.6.4数据库设计,一、什么是数据库设计,2.6.4数据库设计,1,现实 世界,认 识 抽 象,二、人们对客观事物的认识和描述过程,现实世界的自行车,2.6.4数据库设计,观念世界的自行车,信息模型(概念模型),2.6.4数

9、据库设计,数据世界的自行车,中国铁路网络图,信息模型(概念模型),2.6.4数据库设计,按规范的设计方法,一个完整的数据库设计一般分为以下六个阶段:,2.6.4数据库设计,三、数据库设计的步骤,需求收集和分析,设计概念结构,设计逻辑结构,数据模型优化,设计物理结构,评价设计,性能预测,物理实现,试验性运行,使用、维护数据库,四、数据库设计的流程,2.6.4数据库设计,需求信息收集 初步调查 详细调查(目的、内容、方法) 需求信息的分析整理 业务流程 数据流程、数据字典,1.需求分析,2.6.4数据库设计,五、数据库设计各阶段的任务:需求分析,目标 是把现实世界中的客观对象抽象为某种信息结构,设

10、计出反映某个组织部门信息需求的数据库系统概念模式,它独立于数据库系统的逻辑结构、独立于数据库管理系统(DBMS)、独立于计算机系统。 设计方法 是在需求分析的基础上,用概念数据模型(例如E-R模型)表示数据及数据之间的相互联系,设计出反映用户信息需求和处理需求的数据库系统概念模式。,2.概念结构设计,2.6.4数据库设计,五、数据库设计各阶段的任务:概念结构设计,(1)实体联系模型(E-R模型:EntityRelationship ) E-R模型是这样认识现实世界的:现实世界是由一组称作实体的基本对象以及这些对象间的联系构成的。 实体(Entity):“实体”是观念世界中描述客观事物的概念。实

11、体可以是人,也可以是物或事件;可以指事物本身,也可指事物之间的联系,例如一个人、一件物品、一个部门、一个银行帐户等都是一个实体。实体可以通过属性集合来描述。 属性:“属性”是指实体具有的某种特性。如人有身高、体重、年龄、性别等属性。 联系:“联系”是事物间的相互关联。在信息世界中,事物之间的联系可分为两类:一是实体内部的联系,一是实体之间的联系.,2.6.4数据库设计,(2)实体之间的联系,一对一联系(1:1) 对于实体集A中的每一实体,实体集B中至多有一 个实体与之联系。反之亦然。 一对多联系(1:N) 对于实体集A中的每一实体,实体集B中有N个实体 与之联系。反之,对于实体集B中每一实体,

12、实体 集A中至多只有一个实体与之联系。 多对多联系(M:N) 对于实体集A中的每一实体,实体集B中有N个实体 与之联系,对于实体集B中每一个实体,实体集A 中有M个实体与之联系。,2.6.4数据库设计,(3)实体联系方法(EntityRelation Approach),概念模型最常用的表示方法是实体联系方法(Entity Relation Approach,简称ER方法)。ER方法通过ER图 来描述某一组织的信息模型。E-R图由以下元素构成: 矩形:代表实体集(具有相同属性或特征的实体集合); 椭圆:代表实体属性; 菱形:代表实体间的联系集(同一类型的所有联系的集合); 线段:将属性与实体集

13、相连或将实体集与联系集相连。,2.6.4数据库设计,E-R图示例,客户,帐户,2.6.4数据库设计,(4)实体之间联系类型的E-R表示,2.6.4数据库设计,管理,厂长,工厂,1,1,2.6.4数据库设计,存放,1,n,2.6.4数据库设计,如对于学生、课程和教师这三个实体,若规定每个学生可以选择多门课程,每门课程可以被多个学生选修,每门课程惟一对应一个任课教师,一个教师可以讲授多门课程。则学生、课程和教师这三个实体之间的E-R图可表示为:,m,n,p,1,(5)三个或更多实体相互联系的情况,2.6.4数据库设计,(6)设计E-R图的过程,E-R图设计过程实际是对数据进行归纳、分析、抽象的过程

14、,首先把企业的有关数据综合组织, 然后根据不同用户对数据的使用需求进行分组,再从局部入手,建立局部E-R模型,再综合成总体E-R模型。 确定实体集 确定联系和联系类型(1:1或1:n) 设计局部及整体的E-R图 确定属性 将E-R图优化,2.6.4数据库设计,2.6.4数据库设计,在数据分析的基础上,就可以着手设计概念结构。设计初步E-R图的步骤 先设计局部E-R图,也称用户视图 综合各局部E-R图,形成总的E-R图,即用户视图的集成。也称基本E-R图(全局E-R图) 在设计初步E-R图时,要尽量能充分地把组织中各部门对信息的要求集中起来,而不需要考虑数据的冗余问题。,局部概念模型设计是从用户

15、的观点出发,设计符合用户需求的概念结构。局部概念模型设计的就是组织、分类收集到的数据项,确定哪些数据项作为实体,哪些数据项作为属性,哪些数据项是同一实体的属性等。确定实体与属性的原则: 能作为属性的尽量作为属性而不要划为实体; 作为属性的数据项不能再用其他属性加以描述, 也不能与其他实体或属性发生联系。,设计局部E-R图,2.6.4数据库设计,仓库,存放,物资,1,n,存放仓库,物资,a. 仓库作为属性,b. 仓库作为实体,2.6.4数据库设计,学 生,选 课,课程,学 生,选 课,课程,教务处学生管理的E-R模型图,研究生院学生管理的局部E-R模型图,2.6.4数据库设计,设计全局E-R图

16、局部E-R图的设计从局部的需求出发,比一开始就设计全局E-R图要简单得多、单纯得多。有了各个局部E-R图,就可通过局部E-R图的集成设计全局E-R图。在进行局部E-R图集成时,需按照下面三个步骤来进行: 确认局部E-R模型图中的对应关系和冲突 对应关系是指局部E-R图中语义都相同的概念,也就是它们的共同部分;冲突指相互之间有矛盾的概念。常见的冲突有下列4种:,2.6.4数据库设计,命名冲突 命名冲突有同名异义和同义异名两种。例如,在例1给出的图中,“学生”和“课程”这两个实体集在教务处的局部E-R图和研究生院的局部E-R图中含义是不同的:在教务处的局部E-R图中学生是指大学生、大学生的课程,在

17、研究生院的局部E-R图中是指研究生和研究生课程,这属于同名异义;在教务处的局部E-R图中学生实体集有“何时入学”这一个属性,在研究生院的局部E-R图中有“入学日期”这一属性,两者是同义异名。,2.6.4数据库设计,概念冲突 同一个概念在一个局部E-R图中可能作为实体集,在另一局部E-R图中可能作为属性或联系。例如,在上面给出的图中,如果用户要求,选课也可以作为实体集,而不作为联系。 域冲突 相同的属性在不同的局部E-R图中有不同的域,例如,学号在一个局部E-R图中可能当作字符串,在另一个局部E-R图中可能当作整数。相同的属性采用不同的度量单位,称为域冲突。,2.6.4数据库设计,约束冲突 不同

18、局部E-R图可能有不同的约束;例如,对于“选课”这个联系,大学生和研究生对选课的最少门数和最多门数的限定可能不一样。,2.6.4数据库设计,对局部E-R图进行某些修改,解决部门冲突 解决部门的冲突是对各个部门中存在的命名冲突、概念冲突、域冲突、约束冲突按照统一的规范定义。如在例1的图中,“入学日期”和“何时人学”两个属性名可以统一成“入学日期”,学号统一用字符串表示,学生分为大学生和研究生两类,课程也分为本科生课程和研究生课程两类等。 合并局部E-R图,形成全局模式,2.6.4数据库设计,学 生,选 课,课 程,学号,姓名,性别,系别,出生 日期,入学 时间,学生 类别,成绩,课程号,学分,教

19、师,课程名,课程 类别,2.6.4数据库设计,产品,零件,组成,产品号,产品名,性能参数,零件数,零件号,材料名,耗用量,产 品,使用,材 料,存放,仓 库,技术部门E-R图,供应部门E-R图,2.6.4数据库设计,消耗,产品,零件,材料,仓库,消耗,产品号,产品名,性能参数,零件号,材料名,价格,耗用量2,存放量,材料号,材料名,价格,仓库号,仓库名,地点,耗用量1,数量,合并后的E-R模型图,存放,组成,2.6.4数据库设计,综合后的E-R模型图,2.6.4数据库设计,n,1,物料需 求计划,报价,采购订单,供应商,请购单,采购订单明细,物料代码,检验单,入库单,供应商评估表,收货单,生成

20、,送货,合并,参照2,入库,参照1,收货,检验,评估,组成,采购系统E-R图,2.6.4数据库设计,设计某工厂物资管理的概念模型(画出E-R图)。 物资管理涉及的实体有: 仓库(仓库号,仓库面积,仓库地点) 材料(材料编号,名称,规格,单价) 供应商(供应商编号,联系人,地址,电话,帐号) 采购员(编号,姓名,电话,邮箱) 实体间的联系: 一个仓库可以存放多种材料,一种材料可以存放在多个仓库中。 一种材料只能一个采购员采购,一个采购员可以采购多种材料。 一个供应商只能供应一种材料,一种材料可由多个供应商供应。,作业题,实体及其属性图,供应商,材料,采购员,供应,供应量,采购量,采购,1,1,n

21、,m,存放,仓库,p,m,实体联系图,(1)数据模型 数据模型是描述计算机世界中数据及数据之间的关系及存储、处理特征的模型,它依赖于具体的计算机。在数据库系统,对现实世界中数据的抽象、描述以及处理等都是通过数据模型来实现的,数据模型是数据库系统实现的基础。目前,在实际数据库系统中支持的数据模型主要有三种:关系模型、网状模型和层次模型。,2.6.4数据库设计,五、数据库设计各阶段的任务,:逻辑结构设计,4.逻辑结构设计,关系模型: 关系模型是用表的集合来表示数据和数据间的联系。每 个表有多个列,每列有唯一的列名。在关系模型下,数 据的逻辑结构是一张二维表。 关系模型中的有关术语:,关系:一个关系

22、对应一张二维表 元组:表中一行称为一个元组; 属性:表中一列称为一个属性,列名即为属性名; 主码:表中的某个属性组,它的值惟一地标识一个元组。 域:属性的取值范围; 分量:元组中的一个属性值。 关系模式:对关系的描述,用关系名(属性1,属性2,属性n)来表示。,2.6.4数据库设计,Primary Key,EmployeeID,学号,课程代码,Primary Key,Product_quantity,元组,Product_quantity (productid,orderid, total_quantity),Primary Key,2.6.4数据库设计,层次模型,用树型结构表示实体集之间的联

23、系(描述数据)。IBM的IMS(Information Management System)就是采用层次数据模型的数据库管理系统。层次数据模型的主要特征是一棵有向树,树的节点是记录类型,最上层的节点叫根节点,根节点只有一个,上下层的节点之间的关系为父-子关系,一个父节点可以有多个子节点,而一个子节点有且只有一个父结点。,2.6.4数据库设计,树是应用最广泛,也是最重要的一类数据结构,层次模型描述的是一种一对多的逻辑关系,企业的组织结构 产品结构 商品的分类 图书的分类 文件管理 挡案管理,2.6.4数据库设计,2.6.4数据库设计,网状模型,网状模型是层次数据模型的变形。事实上,为了使处理速度

24、更快、处理更方便,可根据需要将层次数据库转换成网状数据库,或将网状数据库转换成层次数据库。层次数据模型主要用来描述一对多的数据逻辑关系,而网状模型能够更好地描述多对多的数据逻辑关系,也就是说父节点可以有多个子节点,子节点也可以有多个父节点。,2.6.4数据库设计,学生1,学生2,学生3,学生4,学生5,学生6,课程1,课程2,课程3,2.6.4数据库设计,(2)三类数据模型的优缺点 三类数据模型在企业中都有应用,它们各有自己的优缺点。层次模型的主要优点在于其处理效率。因为层次模型中的数据关系比较简单,因此层次数据库系统较其他数据模型花费更少的处理时间。当数据自然形成层次时,就很适合采用层次模型

25、。但层次模型在数据组织上缺乏灵活性,修改困难,且不易安装。一些组织中由于已采用的层次数据库系统的高效率或巨额投资而在继续使用层次模型。,2.6.4数据库设计,网状模型在数据组织上较层次模型有更大的灵活性,但由于数据关系的复杂性,网状模型更难开发和使用。这种模型的数据库管理系统在企业中应用已不多。 关系数据模型是应用最广泛的数据模型。数据组织直观,查询方便,能够在数据之间建立各种关系满足一些特殊的查询,并且设计、维护简单。,2.6.4数据库设计,(3)ER图转换成关系模式,学生(学号,姓名,性别,班级),课程(课号,课名,学分),选课(学号,课号,成绩),选课,学生,课程,M N,成绩,2.6.

26、4数据库设计,一个实体型转换为一个关系模型,实体的属性就是关系的属性,实体的键就是关系的键; 一个联系转换为一个关系模式,与该联系相连的每个实体型的键以及联系的属性都转换为关系的属性。这个关系的键分为以下三种不同的情况:,转换原则,2.6.4数据库设计,若联系为1:1,则相连的每个实体型的键均 是该关系模式的侯选键。 若联系为1:n,则联系对应的关系模式的键 取n端实体型的键。 若联系为m:n,则联系对应的关系模式的键 为参加联系的诸实体型的键的组合。,2.6.4数据库设计,1,1,零件编号,名称,规格,名称,规格,材料编号,单价,重量,零件(零件编号,名称,规格),消耗(零件编号,材料编号,

27、重量),材料(材料编号,名称,规格,单价),概念模型,关系模型,转换,1 : 1,2.6.4数据库设计,概念模型,关系模型,转换,1 : n,2.6.4数据库设计,n,m,学号,姓名,班级,名称,学分,课程编号,成绩,时间,概念模型,关系模型,转换,n : m,2.6.4数据库设计,数据库物理设计的内容主要包括: 确定数据的存储结构,选择DBMS 为数据选择和调整存取路径,即索引的设计 调整和优化数据库的性能,如调整DBMS的某 些系统参数。,4.数据库的物理设计,五、数据库设计各阶段的任务:物理设计,2.6.4数据库设计,商业数据库管理系统,我们常用的大型商业数据库管理系统有: Oracle

28、:目前的版本是Oracle 10i;在全球和中国的销量都是第一;我国的主要用户是公安系统、金融系统和大的企业;系统非常复杂,可以按照用户的要求进行组装。支持Web功能,支持在数据库中存储大对象的数据,如图象和图形、视频和音频数据等等。,2.6.4数据库设计,我们常用的大型商业数据库管理系统有: Sybase:主打产品有两种: Sybase Adaptive Server Enterprise Sybase Adaptive Server Anywhere 在中国的销量是第二,其主要用户有铁道部、金融系统和大型企业;成功的案例有“98世界杯网站系统”,“全国铁路售票系统”(与民航售票系统完全不同

29、)。这些系统主要采用Sybase公司的数据复制技术和主键冲突解决方案。,2.6.4数据库设计,我们常用的大型商业数据库管理系统有: Microsof SQL Server:它最早是从Sybase公司买的核心技术,目前的版本是2005;在全球的销量处于第三位,处于第四位的是IBM的DB2,它主要用于IBM大型机,用于并行存储与计算;Microsoft公司的SQL Server在我国的主要用户是中小型企业和教育机构。,2.6.4数据库设计,在关系数据库中,所有的数据文件都以二维表的形式存在,这些二维表之间通常会产生数据冗余,这样容易造成数据的不一致或不完整,从而使数据的检索、插入、删除和更新和等操

30、作可能会出现错误。解决这种问题的一个办法就是将这些关系进一步的分解。这种分解的过程就叫做规范化。,5.关系的规范化,2.6.4数据库设计,五、数据库设计各阶段的任务:关系的规范化,规范化是可逆的转换处理过程。在此过程中,数据之间非规范化的关系逐步转换成规范化的关系。由于这样一个过程是可逆的,因此转换的过程中并没有丢失信息。规范化可以使任何一个关系数据库的操作都变得十分简单方便。规范化的主要目标就是能够让用户使用简单的操作检索出有用的信息,并且使数据的不规则、不连贯的程度达到最小。 规范化的程度可用范式来表示,如满足最低要求,则称为第一范式,依次还有第二、三、四、五范式,在五种范式中,通常只使用

31、前三种。,属于第一范式的关系应满足的基本条件是元组中的每一个分量都必须是不可分割的数据项。,(一)第一范式,如下面的职工工资关系就不符合第一范式,下面的职工电话关系不符合第一范式,下面的职工工资和电话关系符合第一范式,张三,张三,张三,李四,李四,李四,王五,王五,王五,18,18,18,18,18,18,17,17,17,男,男,男,男,男,男,男,男,男,课程名称,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,学分,3,2,2,3,2,2,3,2,2,成绩,98,90,92,92,96,92,93,95,90,主属性,学号,课程编号,不满足第二范

32、式,(二)第二范式,这种关系不仅满足第一范式,而且所有非主属性完全依赖于其主键。,数据冗余啦!,第二范式数据冗余,数据冗余啦!,学生资格审查单,学生成绩单,学号,100001,100002,100003,张三,李四,王五,18,18,17,男,男,男,课程编号,XG0001,XG0002,XG0003,课程名称,高等数学,电子商务,企业管理,学分,3,2,2,成绩,98,96,90,学号,课程编号,学号,100001,100002,100003,张三,李四,王五,18,18,17,男,男,男,应修学分,实修学分,四级,毕设,学号,230,230,230,235,245,230,70,76,82

33、,98,96,90,第二范式数据冗余,第二范式插入异常,学号,100001,100001,100001,100002,100002,100002,100003,100003,100003,张三,张三,张三,李四,李四,李四,王五,王五,王五,18,18,18,18,18,18,17,17,17,男,男,男,男,男,男,男,男,男,课程编号,XG0001,XG0002,XG0003,XG0001,XG0002,XG0003,XG0001,XG0002,XG0003,课程名称,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,学分,3,2,2,3,2,2,3

34、,2,2,成绩,98,90,92,92,96,92,93,95,90,Primary Key,学号,性别,姓名,年龄,课程编号,新来了一位叫赵玲的女同学,今年18岁了。,100004,赵玲,18,女,?,她的课程编号是多少?,插入异常啦!,第二范式插入异常,学号,100001,100001,100001,100002,100002,100002,100003,100003,100003,张三,张三,张三,李四,李四,李四,王五,王五,王五,18,18,18,18,18,18,17,17,17,男,男,男,男,男,男,男,男,男,课程编号,XG0001,XG0002,XG0003,XG0001,

35、XG0002,XG0003,XG0001,XG0002,XG0003,课程名称,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,学分,3,2,2,3,2,2,3,2,2,成绩,98,90,92,92,96,92,93,95,90,Primary Key,学号,性别,姓名,年龄,课程编号,有一门新课管理信息系统,3学分。,?,它的学号是多少?,插入异常啦!,第二范式删除异常,学号,100001,100001,100001,100002,100002,100002,100003,100003,张三,张三,张三,李四,李四,李四,王五,王五,18,18,18

36、,18,18,18,17,17,男,男,男,男,男,男,男,男,课程编号,XG0001,XG0002,XG0003,XG0001,XG0002,XG0003,XG0001,XG0002,课程名称,高等数学,电子商务,企业管理,高等数学,电子商务,企业管理,高等数学,电子商务,学分,3,2,2,3,2,2,3,2,成绩,98,90,92,92,96,92,93,95,Primary Key,学号,性别,姓名,年龄,课程编号,赵六出国了,请把他的信息删除,删除异常啦!,管理信息系统课程的信息哪去啦?,Primary Key,Primary Key,Primary Key,学号,课程编号,第二范式关

37、系分解,(三)第三范式,这种关系不仅满足第二范式,而且它的任何一个非主属性都不传递依赖于任何主关键字。,学号,100001,100002,100003,张三,李四,王五,18,18,17,男,男,女,学校名称,印刷学院,印刷学院,印刷学院,学校地址,大兴黄村,大兴黄村,大兴黄村,邮政编码,102600,102600,102600,学号,学校名称,工作单位,准考证号,数据冗余啦!,(三)第三范式,这种关系不仅满足第二范式,而且它的任何一个非主属性都不传递依赖于任何主关键字。,学号,100001,100002,100003,张三,李四,王五,18,18,17,男,男,女,学校名称,印刷学院,印刷学

38、院,印刷学院,学校地址,大兴黄村,大兴黄村,大兴黄村,邮政编码,102600,102600,102600,学号,学校名称,工作单位,准考证号,数据冗余啦!,学校名称,印刷学院,邮政编码,102600,联系电话,65391188,65391188,65391188,工作单位,IBM,IBM,IBM,工作单位,IBM,联系电话,65391188,学生关系,学校关系,考生关系,单位关系,数据仓库( Data warehouse ),数据集市(DataMart),数据挖掘(Data Mining),数据库技术的发展,2.6.5 数据库技术的发展,数据仓库是一个面向主题的、集成的、随 时间而变化的、不容

39、易丢失的数据集合,支持 管理部门的决策过程. W. H. Inmon,什么是数据仓库,A data warehouse is a subject-oriented,integrated,time- variant,and nonvolatile collection of data in support of managements decision making process,2.6.5.1 数据仓库,什么是数据仓库,建立数据仓库看起来是一项很大的挑战,事实也确实如此。实际上数据仓库非常庞大,所以有些专家建议采取折中的策略实施数据集市(datamart)。数据集市是一个数据库,它所包含的数

40、据仅仅描述一部分的公司运营情况。例如,一个公司可以有销售数据集市、人力资源数据集市等。,数据集市,2.6.5.2 数据集市,SAP数据仓库体系结构示意图,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,数据仓库的 建设过程,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,建立多维数据模型,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,多维数据模型的应用,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,北京印刷学院出版传播与管理学院,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,多维

41、数据的展示,产品销售状况地域分析,北京印刷学院出版传播与管理学院,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,营业收入预测分析,北京印刷学院出版传播与管理学院,信息管理与信息系统专业实践教学改革汇报,Copyright 2010,一、数据挖掘的发展,数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的”现象。 自80年代后期以来,联机分析处理(OLAP)和数据挖掘技术应运而生。 1989年在美国召开的国

42、际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。,2.6.5.4 数据挖掘,2.6.5.4 数据挖掘,历届KDD学术会议,数据挖掘(Data Mining,简记为DM) (从数据中发现知识) 从大量的数据中(关系数据库、数据仓库、WEB数据库以及其他文件系统等)挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database, 简记为KDD),它是OLAP的高级阶段。 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)

43、 数据挖掘的替换词 数据库中的知识挖掘(KDD)、知识提炼、 数据/模式分析、数据考古、数据捕捞、信息收获等等。 并非所有东西都是“数据挖掘” 查询处理. 专家系统或是小型的数学计算/统计程序,二、什么是数据挖掘?,2.6.5.4 数据挖掘,数据分析和决策支持 市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析,三、数据挖掘的应用,2.6.5.4 数据挖掘,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1