1、大大 学学 I T 普通高等学校普通高等学校“十一五十一五”国家级规划教国家级规划教材材山东省教育厅组编山东省教育厅组编第第7 7章章 数据管理数据管理 第第7 7章章 数据管理数据管理7.1 数据管理概述数据管理概述7.2 数据分析与建模数据分析与建模7.3 数据管理技术数据管理技术7.4 信息管理系统的开发与设计信息管理系统的开发与设计7.5 常用的数据库管理系统常用的数据库管理系统7/10/20253大学IT 7.1 7.1 数据管理概述数据管理概述7.1.1 数据数据7.1.2 数据的组织数据的组织7.1.3 数据管理技术的发展数据管理技术的发展7/10/20254大学IT7.1.1
2、数据数据 数据(数据(Data)不仅指狭义的数值数据,还是描述事不仅指狭义的数值数据,还是描述事物的一种符号,它是信息的载体,是信息的具体表现形物的一种符号,它是信息的载体,是信息的具体表现形式。在信息处理中,信息载体上反映信息内容且可被接式。在信息处理中,信息载体上反映信息内容且可被接收者(人或机器)识别的物理符号称为数据。收者(人或机器)识别的物理符号称为数据。7/10/20255大学IT7.1.2 数据的组织数据的组织1.数据项数据项数据项是具有确定逻辑意义(即可描述信息内容)的数据数据项是具有确定逻辑意义(即可描述信息内容)的数据的最小单位。它是不可再分的数据单位。一般数据项用于的最小
3、单位。它是不可再分的数据单位。一般数据项用于说明事物的某方面性质。说明事物的某方面性质。2.记录记录将描述某事物有关性质的数据项按一定的方式组织起来就将描述某事物有关性质的数据项按一定的方式组织起来就形成了记录,常用于说明一个客观存在的事物(或事物之形成了记录,常用于说明一个客观存在的事物(或事物之间的联系)。间的联系)。3.文件文件文件是同类记录的有序集合。文件是同类记录的有序集合。4.数据库数据库数据库是存贮起来的相关数据的集合。数据库是存贮起来的相关数据的集合。7/10/20256大学IT 7.1.3 数据管理技术的发展数据管理技术的发展第一阶段为手工管理,如图书目录的手工编制和手工第一
4、阶段为手工管理,如图书目录的手工编制和手工统计处理。统计处理。第二阶段为用机械管理,如使用穿孔卡片和机械式卡第二阶段为用机械管理,如使用穿孔卡片和机械式卡片处理机进行人口统计处理。片处理机进行人口统计处理。第三阶段为用电子设备管理,如使用穿孔卡片和光电第三阶段为用电子设备管理,如使用穿孔卡片和光电式卡片处理机进行人口统计处理。式卡片处理机进行人口统计处理。7/10/20257大学IT1.人工管理人工管理特点:特点:(1)计算机系统不提供对用户数据的管理功能。)计算机系统不提供对用户数据的管理功能。(2)数据不能共享。)数据不能共享。(3)不单独保存数据。)不单独保存数据。7/10/20258大
5、学IT2.计算机文件管理计算机文件管理特点特点(1)数据以)数据以“文件文件”形式可长期保存在外部存储器的磁盘上,形式可长期保存在外部存储器的磁盘上,对文件可进行大量的查询、修改和插入等操作。对文件可进行大量的查询、修改和插入等操作。(2)数据的逻辑结构与物理结构有了区别,但比较简单。程序)数据的逻辑结构与物理结构有了区别,但比较简单。程序与数据之间具有与数据之间具有“设备独立性设备独立性”,即程序只需用文件名就可与,即程序只需用文件名就可与数据打交道,不必关心数据的物理位置,由操作系统的文件系数据打交道,不必关心数据的物理位置,由操作系统的文件系统提供存取方法(读写)。统提供存取方法(读写)
6、3)文件组织已多样化,有索引文件、链接文件和直接存取文)文件组织已多样化,有索引文件、链接文件和直接存取文件等。但文件之间相互独立缺乏联系,数据之间的联系要通过件等。但文件之间相互独立缺乏联系,数据之间的联系要通过程序去构造。程序去构造。7/10/20259大学IT(4)数据不再属于某个特定的程序,可以重复使用,)数据不再属于某个特定的程序,可以重复使用,即数据面向应用。但是文件结构的设计仍然是基于特即数据面向应用。但是文件结构的设计仍然是基于特定的用途,程序基于特定的物理结构和存取方法,因定的用途,程序基于特定的物理结构和存取方法,因此程序与数据结构之间的依赖关系并未根本改变。此程序与数
7、据结构之间的依赖关系并未根本改变。(5)对数据的操作以记录为单位。这是由于文件中只)对数据的操作以记录为单位。这是由于文件中只存储数据,不存储文件记录的结构描述信息。文件的存储数据,不存储文件记录的结构描述信息。文件的建立、存取、查询、插入、删除、修改等所有操作,建立、存取、查询、插入、删除、修改等所有操作,都要用程序来实现。都要用程序来实现。2.计算机文件管理计算机文件管理7/10/202510大学IT文件系统显露出一些缺陷(1)数据冗余。由于文件之间缺乏联系,造成每个应)数据冗余。由于文件之间缺乏联系,造成每个应用程序都有对应的文件,有可能同样的数据在多个文用程序都有对应的文件,有可能同样
8、的数据在多个文件中重复存储。件中重复存储。(2)不一致性。这往往是由数据冗余造成的,在进行)不一致性。这往往是由数据冗余造成的,在进行更新操作时,稍不谨慎,就可能使同样的数据在不同更新操作时,稍不谨慎,就可能使同样的数据在不同的文件中不一样。的文件中不一样。(3)数据联系弱。这是由于文件之间相互独立,缺乏)数据联系弱。这是由于文件之间相互独立,缺乏联系造成的。联系造成的。7/10/202511大学IT3.数据库管理数据库管理 以统一管理数据和共享数据为主要特征的系统,这就以统一管理数据和共享数据为主要特征的系统,这就是数据库系统。是数据库系统。60年代后期,数据管理技术进入数据库系统年代后期,
9、数据管理技术进入数据库系统阶段。数据库系统克服了文件系统的缺陷,提供了对数据更阶段。数据库系统克服了文件系统的缺陷,提供了对数据更高级、更有效的管理。这个阶段的程序和数据的联系通过数高级、更有效的管理。这个阶段的程序和数据的联系通过数据库管理系统(据库管理系统(DBMS)来实现。来实现。7/10/202512大学IT数据库系统阶段的数据数据库系统阶段的数据管理具有的特点:管理具有的特点:(1)采用数据模型表示复杂的数据结构。)采用数据模型表示复杂的数据结构。数据不再面向特定的某个或多个应用,而是面向整个应数据不再面向特定的某个或多个应用,而是面向整个应用系统。数据冗余明显减少,实现了数据共享。
10、用系统。数据冗余明显减少,实现了数据共享。(2)有较高的数据独立性。)有较高的数据独立性。数据库的结构分成用户的局部逻辑结构、数据库的整体数据库的结构分成用户的局部逻辑结构、数据库的整体逻辑结构和物理结构三级。用户(应用程序或终端用户)的逻辑结构和物理结构三级。用户(应用程序或终端用户)的数据和外存中的数据之间转换由数据库管理系统实现。数据和外存中的数据之间转换由数据库管理系统实现。(3)数据库系统为用户提供了方便的用户接口。)数据库系统为用户提供了方便的用户接口。(4)数据库系统提供了数据控制功能。)数据库系统提供了数据控制功能。(5)增加了系统的灵活性。)增加了系统的灵活性。对数据的操作不
11、一定以记录为单位,可以以数据项为单对数据的操作不一定以记录为单位,可以以数据项为单位。位。7/10/202513大学IT7.2 数据分析与建模数据分析与建模7.2.1 数据模型的概念数据模型的概念7.2.2 概念数据模型概念数据模型7.2.3 结构数据模型结构数据模型7/10/202514大学IT 7.2.1 数据模型的概念数据模型的概念 数据模型描述了数据库中数据的组织形式,它不仅要数据模型描述了数据库中数据的组织形式,它不仅要表示存储了哪些数据,更重要的是要以一定的结构形式表表示存储了哪些数据,更重要的是要以一定的结构形式表示出各种不同数据之间的联系。利用这种联系可以很快地示出各种不同数据
12、之间的联系。利用这种联系可以很快地找到相关联的一串数据,从而可以利用这种联系进行各种找到相关联的一串数据,从而可以利用这种联系进行各种运算处理。运算处理。数据模型是客观事物及联系的数据描述,是定义数据数据模型是客观事物及联系的数据描述,是定义数据库的依据。库的依据。7/10/202515大学IT 从客观存在的事物到最后在计算机内的数据表示,从客观存在的事物到最后在计算机内的数据表示,经历了两个不同的抽象过程,相应的也有了不同的数经历了两个不同的抽象过程,相应的也有了不同的数据模型,这就是概念数据模型、结构数据模型。据模型,这就是概念数据模型、结构数据模型。(1)概念数据模型:它不涉及信息在系统
13、中的表示,)概念数据模型:它不涉及信息在系统中的表示,只是用来描述某个特定组织所关心的信息结构。概念只是用来描述某个特定组织所关心的信息结构。概念模型强调语义表达功能,它是现实世界的第一层抽象。模型强调语义表达功能,它是现实世界的第一层抽象。最常见的概念模型是实体联系(最常见的概念模型是实体联系(E-R)模型。模型。(2)结构数据模型:它是直接面向数据库的逻辑结)结构数据模型:它是直接面向数据库的逻辑结构,是现实世界的第二层抽象。这类模型涉及到计算构,是现实世界的第二层抽象。这类模型涉及到计算机系统和数据库管理系统,所以称为机系统和数据库管理系统,所以称为“结构数据模型结构数据模型”。7/10
14、/202516大学IT数据模型的种类数据模型的种类 数据模型有三种:层次模型、网络模型和关系模型。数据模型有三种:层次模型、网络模型和关系模型。60年代末期提出的关系模型具有数据结构简单灵年代末期提出的关系模型具有数据结构简单灵活、易学易懂而且具有雄厚的数学基础等特点活、易学易懂而且具有雄厚的数学基础等特点,从,从70年代开始流行,发展到现在已成为数据库的标准。目年代开始流行,发展到现在已成为数据库的标准。目前广泛使用的数据库软件都是基于关系模型的关系数前广泛使用的数据库软件都是基于关系模型的关系数据库管理系统。据库管理系统。7/10/202517大学IT 7.2.2 概念数据模型概念数据模型
15、1.概念数据模型中常用的术语概念数据模型中常用的术语概念数据模型定义概念数据模型定义:对真实世界中的概念的描述。对真实世界中的概念的描述。在表达形式上,它一般是由一组静态的结构图来表在表达形式上,它一般是由一组静态的结构图来表示。示。(1)实体()实体(Entity)实体是客观存在并可相互区别的事物。可以是实体是客观存在并可相互区别的事物。可以是具体的人、事、物,也可以是抽象的概念或联系,具体的人、事、物,也可以是抽象的概念或联系,相当于一个结构变量。相当于一个结构变量。7/10/202518大学IT(2)属性()属性(Attribute)属性是指实体所具有的某一特性。一个实体可以由若干个属性
16、是指实体所具有的某一特性。一个实体可以由若干个属性值来描述,相当于结构中的字段值属性值来描述,相当于结构中的字段值.(3)码()码(Key)码是标识实体的属性。任意两个同类的实体不可能有相同码是标识实体的属性。任意两个同类的实体不可能有相同的码,相当于结构中的关键字段的码,相当于结构中的关键字段 (4)域()域(Domain)域是指属性的取值范围。域是指属性的取值范围。(5)实体型()实体型(Entity Type)实体型指具有相同属性的实体所具有的共同特性。用实体实体型指具有相同属性的实体所具有的共同特性。用实体名及其属性名集合来表示名及其属性名集合来表示 7/10/202519大学IT(6
17、实体集()实体集(Entity Set)实体集是指同一个实体型的实体集合。实体集是指同一个实体型的实体集合。(7)联系()联系(Relationship)联系包括实体内部的联系和实体之间的联系两联系包括实体内部的联系和实体之间的联系两种。实体内部的联系指实体的各属性之间的联系,种。实体内部的联系指实体的各属性之间的联系,实体之间的联系指不同实体集之间的联系。实体之间的联系指不同实体集之间的联系。7/10/202520大学IT 实体间的联系分为一对一联系(实体间的联系分为一对一联系(1:1)、一对多)、一对多联系(联系(1:n)和多对多联系(和多对多联系(m:n)一对一联系(一对一联系(1:1
18、是指对于实体集)是指对于实体集A中的每一个实体,实体集中的每一个实体,实体集B中有中有0个或个或1个实体与之联系,反之亦然,则称实体集个实体与之联系,反之亦然,则称实体集A与实体与实体集集B具有一对一的联系。如:一个人只有一个身份证号,一个身具有一对一的联系。如:一个人只有一个身份证号,一个身份证号对着一个人,则人和身份证号为一对一的联系。份证号对着一个人,则人和身份证号为一对一的联系。一对多联系(一对多联系(1:n)是指对于实体集是指对于实体集A中的每一个实体,实体集中的每一个实体,实体集B中有中有0个或多个实体与之联系,反之,对于实体集个或多个实体与之联系,反之,对于实体集B中的每一个中
19、的每一个实体,实体集实体,实体集A中有中有0个或个或1个实体与之联系,则称实体集个实体与之联系,则称实体集A与实与实体集体集B具有一对多的联系。如:一个人只能有一个性别,而同一具有一对多的联系。如:一个人只能有一个性别,而同一性别可能对着很多人,则性别和人之间具有一对多联系。性别可能对着很多人,则性别和人之间具有一对多联系。7/10/202521大学IT-多对多联系(多对多联系(m:n)是指对于实体集是指对于实体集A中的每一个实中的每一个实体,实体集体,实体集B中有中有0个或多个实体与之联系,反之,对于个或多个实体与之联系,反之,对于实体集实体集B中的每一个实体,实体集中的每一个实体,实体集A
20、中有中有0个或多个实体个或多个实体与之联系,则称实体集与之联系,则称实体集A与实体集与实体集B具有多对多的联系。具有多对多的联系。如:一门课程同时有若干个学生选修,而一个学生同时如:一门课程同时有若干个学生选修,而一个学生同时选修多门课程,则课程与学生之间具有多对多联系。选修多门课程,则课程与学生之间具有多对多联系。7/10/202522大学IT 2.概念数据模型的表示方法概念数据模型的表示方法 最常用的表示方法就是最常用的表示方法就是“实体实体联系联系”方法,简称方法,简称E-R方方法,该方法提供了表示实体型、属性和联系的途径,并通过法,该方法提供了表示实体型、属性和联系的途径,并通过E-R
21、图来描述。图来描述。(1)实体型:用矩形表示,矩形框内写明实体名;)实体型:用矩形表示,矩形框内写明实体名;(2)属性:用椭圆形表示,并用无向边将其与相应的实体连接起)属性:用椭圆形表示,并用无向边将其与相应的实体连接起 来;来;(3)联系:用菱形表示,菱形框内写明联系名。联系本身也是一种)联系:用菱形表示,菱形框内写明联系名。联系本身也是一种实体型,也可以有属性;实体型,也可以有属性;(4)连线:连接实体和各个属性以及实体和联系,连接联系时,注)连线:连接实体和各个属性以及实体和联系,连接联系时,注明联系类型,即明联系类型,即1:1、1:n或或n:m。如果一个联系具有属性,则如果一个联系具有
22、属性,则这些属性也要用连线与该联系连接起来。这些属性也要用连线与该联系连接起来。7/10/202523大学IT图1 E-R图示例 两个实体集学生两个实体集学生、课程、课程 如图如图1所示所示7/10/202524大学IT图2 学生实体集和课程实体集之间关系的E-R图 7/10/202525大学IT 7.2.3 结构数据模型结构数据模型 结构数据模型包含数据结构、数据操作、数据完整性结构数据模型包含数据结构、数据操作、数据完整性约束三部分。约束三部分。数据结构是所研究的对象类型的结合,主要描述数据的数据结构是所研究的对象类型的结合,主要描述数据的静态特征,包括对数据结构和数据间联系的描述,它将确
23、定静态特征,包括对数据结构和数据间联系的描述,它将确定数据库的逻辑结构;数据操作是指对数据库各种对象允许执数据库的逻辑结构;数据操作是指对数据库各种对象允许执行的操作(查询、修改等)的集合,并定义这些操作的确切行的操作(查询、修改等)的集合,并定义这些操作的确切含义、操作规则以及实现操作的语言;数据完整性约束是验含义、操作规则以及实现操作的语言;数据完整性约束是验定数据模型中的数据及其联系所必须遵循的制约和依存关系,定数据模型中的数据及其联系所必须遵循的制约和依存关系,以保证数据的正确、有效和相容,是完整性规则的集合。以保证数据的正确、有效和相容,是完整性规则的集合。7/10/202526大学
24、IT结构数据模型主要有层次、网状、关系三种模型。结构数据模型主要有层次、网状、关系三种模型。1.层次模型层次模型图3 层次模型7/10/202527大学IT 层次模型是满足以下两个条件的基本层次联系的集合:层次模型是满足以下两个条件的基本层次联系的集合:(1)有且只有一个节点没有双亲节点(这个节点叫根节点);)有且只有一个节点没有双亲节点(这个节点叫根节点);(2)除根节点外的其他节点有且只有一个双亲节点。层次模型是将)除根节点外的其他节点有且只有一个双亲节点。层次模型是将数据元素分为若干层,最高层只有一个元素,称为树根,每个数数据元素分为若干层,最高层只有一个元素,称为树根,每个数据元素都和
25、下一层的一个或多个数据元素相连接;除了树根元素据元素都和下一层的一个或多个数据元素相连接;除了树根元素之外,其他数据元素都和上一层的一个数据元素相连接。所有元之外,其他数据元素都和上一层的一个数据元素相连接。所有元素按这种方式组成以树根元素为起点逐层辐射的树形结构。素按这种方式组成以树根元素为起点逐层辐射的树形结构。层层次模型是三大经典数据模型中出现最早的一个。次模型是三大经典数据模型中出现最早的一个。7/10/202528大学IT2.网状模型网状模型 网状模型是满足以下两个条件的基本层次联系的网状模型是满足以下两个条件的基本层次联系的集合:集合:(1)允许一个以上的节点没有双亲节点;)允许一
26、个以上的节点没有双亲节点;(2)一个节点可以有多个双亲节点。)一个节点可以有多个双亲节点。图4 网状模型学学 生生课课 程程选选 修修7/10/202529大学IT3.关系模型关系模型关系模型中实体通常是以表的形式来表示的,每关系模型中实体通常是以表的形式来表示的,每一张二维表称为一个关系,表的每一行描述实体的一一张二维表称为一个关系,表的每一行描述实体的一个实例,表的每一列描述实体的一个特征或属性。在个实例,表的每一列描述实体的一个特征或属性。在关系模型中是对关系结构的描述,可表示为:关系名关系模型中是对关系结构的描述,可表示为:关系名(属性(属性1,属性,属性2,属性,属性n),如图),如
27、图5所示。所示。7/10/202530大学IT图5 关系模型示例 7/10/202531大学IT关系模型的特点关系模型的特点(1)每一列不可再分;)每一列不可再分;(2)同一个关系中不能出现相同的属性名,即不允)同一个关系中不能出现相同的属性名,即不允 许许有相同的字段名;有相同的字段名;(3)关系中不允许有完全相同的元组(记录);)关系中不允许有完全相同的元组(记录);(4)关系中任意交换两行位置不影响数据的实际含义;)关系中任意交换两行位置不影响数据的实际含义;(5)关系中任意交换两列位置不影响数据的实际含义。)关系中任意交换两列位置不影响数据的实际含义。7/10/202532大学IT 关
28、系的基本运算包括选择、投影和联接。关系的基本运算包括选择、投影和联接。选择:从指定的关系中选择满足给定条件的元组选择:从指定的关系中选择满足给定条件的元组组成新的关系。如下图从关系成绩中选择计算机大于组成新的关系。如下图从关系成绩中选择计算机大于90的元组组成关系的元组组成关系S1。如图。如图6所示。所示。图6 选择运算7/10/202533大学IT 投影:从指定关系的属性集合中选取若干个属性投影:从指定关系的属性集合中选取若干个属性组成新的关系。如从关系成绩中选择组成新的关系。如从关系成绩中选择“学号学号”、“姓名姓名”、“英语英语”组成新的关系组成新的关系S2。如图。如图7所示。所示。图7
29、 投影运算7/10/202534大学IT 联接:将两个关系中的元组按指定条件组合,联接:将两个关系中的元组按指定条件组合,生成新的关系。如将成绩生成新的关系。如将成绩1和成绩和成绩2按相同学号合并组按相同学号合并组成新的关系成新的关系S3,如图如图 8所示。所示。图8 连接运算7/10/202535大学IT7.3 数据管理技术数据管理技术7.3.1 数据库数据库7.3.2 数据仓库数据仓库7.3.3 数据挖掘数据挖掘7/10/202536大学IT7.3.1 数据库数据库1.数据库(数据库(DB)数据库(数据库(Data Base,简称,简称DB)可以直观地理解为存放数据的仓库,只)可以直观地理
30、解为存放数据的仓库,只不过这个仓库是在计算机的大容量存储器上,如硬盘就是一类最常见的计算不过这个仓库是在计算机的大容量存储器上,如硬盘就是一类最常见的计算机大容量存储设备。数据必须按一定格式存放,因为它不仅需要存放,而且机大容量存储设备。数据必须按一定格式存放,因为它不仅需要存放,而且要便于查找。数据库技术使数据能按一定格式组织、描述和存储,如图要便于查找。数据库技术使数据能按一定格式组织、描述和存储,如图9所示。所示。图9 数据库 7/10/202537大学IT 2.数据库管理系统(数据库管理系统(DBMS)数据库管理系统(数据库管理系统(DataBase Management System
31、简称简称DBMS)是为了保证存储在数据库中数据的安全和一致是为了保证存储在数据库中数据的安全和一致。它对数据。它对数据库中的资源进行管理、控制,连接着用户程序和数据库,用户对数库中的资源进行管理、控制,连接着用户程序和数据库,用户对数据库的一切操作都通过据库的一切操作都通过DBMS完成。完成。数据库管理系统管理着应用程序与数据库之间的接口:当某应数据库管理系统管理着应用程序与数据库之间的接口:当某应用程序需要数据时,就向数据库管理系统提出要求,数据库管理系用程序需要数据时,就向数据库管理系统提出要求,数据库管理系统按要求给出所需数据。数据库管理系统也管理着用户与数据库之统按要求给出所需数据。
32、数据库管理系统也管理着用户与数据库之间的接口,用户与应用程序使用数据库的方式有所不同。间的接口,用户与应用程序使用数据库的方式有所不同。选择数据库管理系统主要考虑系统的性能、集成度和成本等。选择数据库管理系统主要考虑系统的性能、集成度和成本等。7/10/202538大学IT 3.数据库系统(数据库系统(DBS)数据库系统(数据库系统(Database System,简称简称DBS)是由计算机系是由计算机系统、数据库、数据库管理系统、数据库管理人员(统、数据库、数据库管理系统、数据库管理人员(DBA)以及以及用户组成的具有高度组织性的总和。图用户组成的具有高度组织性的总和。图10描述了数据库系统
33、与描述了数据库系统与数据库管理系统、应用程序、用户之间的关系。数据库管理系统、应用程序、用户之间的关系。图10 数据库系统与数据库管理系统、应用程序、用户之间的关系7/10/202539大学IT数据库系统体系结构分为三层:数据库系统体系结构分为三层:内模式、外模式和概念模式内模式、外模式和概念模式。内模式内模式也称为存储模式,它是数据物理结构和存储结构的描也称为存储模式,它是数据物理结构和存储结构的描述,是数据在数据库内部的表示方式,一个数据库只有一个内模式。述,是数据在数据库内部的表示方式,一个数据库只有一个内模式。外模式外模式也称为子模式或用户模式,它是数据库用户使用的局也称为子模式或用户
34、模式,它是数据库用户使用的局部数据的逻辑结构和特征的描述,是数据库用户看到的数据视图,部数据的逻辑结构和特征的描述,是数据库用户看到的数据视图,即与某一应用有关的数据的逻辑表示,一个数据库可以有多个外模即与某一应用有关的数据的逻辑表示,一个数据库可以有多个外模式。式。概念模式概念模式表示了数据的全部信息内容,它接近实际数据。表示了数据的全部信息内容,它接近实际数据。7/10/202540大学IT 图11 数据库系统体系结构 7/10/202541大学IT 4.新一代数据库技术新一代数据库技术(1)面向对象数据库面向对象数据库(2)分布式数据库分布式数据库(3)数据库技术的其他应用数据库技术的其
35、他应用 7/10/202542大学IT(1)面向对象数据库)面向对象数据库 20世纪世纪80年代出现的面向对象的方法和技术对计年代出现的面向对象的方法和技术对计算机各个领域,包括程序设计语言、软件工程、信息算机各个领域,包括程序设计语言、软件工程、信息系统设计,以及计算机硬件设计等都产生了深远的影系统设计,以及计算机硬件设计等都产生了深远的影响,也给数据库技术带来了机会和希望。响,也给数据库技术带来了机会和希望。数据库研究人员借鉴和吸收了面向对象的方法和数据库研究人员借鉴和吸收了面向对象的方法和技术,提出了面向对象数据模型(简称对象模型)。技术,提出了面向对象数据模型(简称对象模型)。面向对象
36、数据库(面向对象数据库(OODB)引入了面向对象的数据模)引入了面向对象的数据模型和方法,增加了管理数据内在动态联系的能力,对型和方法,增加了管理数据内在动态联系的能力,对复杂数据对象的表达能力更强,能够支持多种非常规复杂数据对象的表达能力更强,能够支持多种非常规数据库的应用,而且建模能力和运行性能都显示出比数据库的应用,而且建模能力和运行性能都显示出比关系数据库更大的优越性和潜力。关系数据库更大的优越性和潜力。7/10/202543大学IT图12 分布式数据库 分布式数据库(分布式数据库(DDB)是相对于集中式数据库而)是相对于集中式数据库而言的,它是一组数据集,它们逻辑上属于同一系统,但言
37、的,它是一组数据集,它们逻辑上属于同一系统,但是物理上分散在网络中的多台计算机上,如图是物理上分散在网络中的多台计算机上,如图12所示。所示。(2 2)分布式数据库)分布式数据库7/10/202544大学IT 数据库技术与人工智能相结合,出现了演绎数据库、知数据库技术与人工智能相结合,出现了演绎数据库、知识库和主动数据库(识库和主动数据库(ADB);在多媒体领域,出现了多媒体);在多媒体领域,出现了多媒体数据库;在工程领域,出现了工程数据库;数据库与数据库;在工程领域,出现了工程数据库;数据库与Internet/Intranet的连接,出现了的连接,出现了Web数据库;在统计领域,数据库;在统
38、计领域,出现了统计数据库;在地理领域,出现了空间数据库等等。出现了统计数据库;在地理领域,出现了空间数据库等等。近年来,数据仓库和数据挖掘技术已成为数据库技术的发展近年来,数据仓库和数据挖掘技术已成为数据库技术的发展趋势。趋势。(3 3)数据库技术的其他应用)数据库技术的其他应用7/10/202545大学IT7.3.2 数据仓库数据仓库1.数据仓库的概念数据仓库的概念数据仓库之父数据仓库之父W.H.Inmon给出的定义是:数据仓库给出的定义是:数据仓库(Data Warehouse)是一个面向主题的(是一个面向主题的(Subject Oriented)、)、集成的(集成的(Integrate)
39、相对稳定的(相对稳定的(Non-Volatile)、)、反映历史反映历史变化(变化(Time Variant)的数据集合,用于支持管理决策。的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解:首先,对于数据仓库的概念我们可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而有效集成,集成后按照主题进行了重组,并包含历史数据
40、而且存放在数据仓库中的数据一般不再修改。且存放在数据仓库中的数据一般不再修改。7/10/202546大学IT图13 仓库数据系统 7/10/202547大学IT数据仓库系统看作由数据源、数据准备区、关系型数据仓库系统看作由数据源、数据准备区、关系型数据库、查询和分析工具组成。数据库、查询和分析工具组成。数据仓库的信息源可以是层次、关系、网状等类型数据仓库的信息源可以是层次、关系、网状等类型的数据库,也可以是各种电子表格或数据文件。的数据库,也可以是各种电子表格或数据文件。7/10/202548大学IT2.数据仓库的特性数据仓库的特性 面向主题面向主题传统的数据库的数据组织面向事务处理任务,各
41、个业务传统的数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关作型信息系统相关 集成集成面向事务处理传统的数据库通常与某些特定的应用相关,面向事务处理传统的数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据库之间相互独立,并且往往是异构的。而
42、数据仓库中的数据是在对原有分散的数据库数据提取、清理的基础上经过数据是在对原有分散的数据库数据提取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局性,以保证数据仓库内的信息是关于整个企业的一致的全局信息,这是数据仓库最重要的特性。信息,这是数据仓库最重要的特性。7/10/202549大学IT2.数据仓库的特性数据仓库的特性 相对稳定相对稳定 图14 数据操作 7/10/202550大学IT 反映历史变化反映历史变化数据仓库中的数据时间期限要远远长于普通数数据仓库中的数据
43、时间期限要远远长于普通数据库中的数据时间期限。普通数据库中的数据时据库中的数据时间期限。普通数据库中的数据时间期限一般是间期限一般是60到到90天,而数据仓库中的数据时天,而数据仓库中的数据时间期限通常为间期限通常为5到到7年。年。7/10/202551大学IT3.数据仓库系统的结构数据仓库系统的结构数据仓库系统通常包含数据源、数据存储与管理、数据仓库系统通常包含数据源、数据存储与管理、OLAP服服务器以及前端工具与应用四个部分,如图务器以及前端工具与应用四个部分,如图15所示。所示。数据源是数据仓库系统的基础,是整个系统的数据源数据源是数据仓库系统的基础,是整个系统的数据源泉。泉。数据的存储
44、与管理是整个数据仓库系统的核心。数据的存储与管理是整个数据仓库系统的核心。OLAP服务器对分析需要的数据按照多维数据模型进服务器对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。据趋势。7/10/202552大学IT 图15 数据仓库系统的结构 7/10/202553大学IT4.数据仓库的基本需求数据仓库的基本需求对于数据仓库的第一个,也是最重要的要求是能够管对于数据仓库的第一个,也是最重要的要求是能够管理大量数据。如何有效地管理,而且管理好数据,理大量数据。如何有效地管理,而且管理好数据,是最重要的要
45、求。是最重要的要求。数据仓库存有大量数据,就需要快捷的数据检索。数据仓库存有大量数据,就需要快捷的数据检索。数据仓库也必须有多种接口。数据仓库也必须有多种接口。数据仓库能够高效地装入数据。数据仓库能够高效地装入数据。要有多种语言接口,能并行管理数据等等。要有多种语言接口,能并行管理数据等等。7/10/202554大学IT7.3.3 数据挖掘数据挖掘1.从数据仓库到数据挖掘从数据仓库到数据挖掘数据仓库剔除矛盾的数据和对决策无用的数据,数据仓库剔除矛盾的数据和对决策无用的数据,汇总数据,支持决策对数据的需求。但是数据仓库汇总数据,支持决策对数据的需求。但是数据仓库也仅仅是数据的汇总,数据量依然庞大
46、数据资源也仅仅是数据的汇总,数据量依然庞大。数据资源无法有效利用。无法有效利用。7/10/202555大学IT 2.数据挖掘的概念数据挖掘的概念数据挖掘(数据挖掘(Data Mining,简称简称DM)是从大量的、是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。式的非平凡过程。7/10/202556大学IT 数据挖掘可粗略地理解为三部曲:数据准备(数据挖掘可粗略地理解为三部曲:数据准备(data preparation)、)、数据
47、挖掘,以及结果的解释评估数据挖掘,以及结果的解释评估(interpretation and evaluation)图16 数据挖掘三部曲 7/10/202557大学IT3.数据挖掘的应用数据挖掘的应用(1)商品销售。)商品销售。(2)电子商务网站)电子商务网站(3)金融服务)金融服务/信用卡。信用卡。(4)远程通讯。)远程通讯。7/10/202558大学IT 7.4 信息管理系统的开发与设计信息管理系统的开发与设计信息管理系统将数据收集、组织和管理,经过信息管理系统将数据收集、组织和管理,经过处理、转换和分析变为对生产、管理和决策具有重处理、转换和分析变为对生产、管理和决策具有重要意义的有用信
48、息。信息管理系统以数据库技术为要意义的有用信息。信息管理系统以数据库技术为基础。基础。7.4.1 调查分析与可行性研究调查分析与可行性研究7.4.2 管理信息系统的系统分析管理信息系统的系统分析7.4.3 系统设计系统设计7.4.4 系统实施系统实施7.4.5 系统运行和维护系统运行和维护7/10/202559大学IT 7.4.1 调查分析与可行性研究调查分析与可行性研究分析阶段的任务是在对用户的组织机构、业务规则、分析阶段的任务是在对用户的组织机构、业务规则、数据需求、完整性约束条件、事务处理和安全性要求等详数据需求、完整性约束条件、事务处理和安全性要求等详细地调查研究并充分了解的基础上,画
49、出组织机构图、业细地调查研究并充分了解的基础上,画出组织机构图、业务流程图,然后详细描述用户应用环境的业务流程、数据务流程图,然后详细描述用户应用环境的业务流程、数据需求,为系统设计奠定基础。需求,为系统设计奠定基础。1.总体规划的任务总体规划的任务 2.可行性分析可行性分析 3.成立项目组成立项目组7/10/202560大学IT1.总体规划的任务总体规划的任务(1)系统的目标、约束和总体结构)系统的目标、约束和总体结构 包括企业的战略目标、外部环境、内部环境、包括企业的战略目标、外部环境、内部环境、内部约束条件,管理信息系统的总体目标和衡量标内部约束条件,管理信息系统的总体目标和衡量标准等。
50、准等。(2)企业能力状况)企业能力状况 包括企业当前的硬件情况、软件情况、应用系包括企业当前的硬件情况、软件情况、应用系统情况及人员情况等。统情况及人员情况等。(3)信息技术发展预测)信息技术发展预测 管理信息系统的规划自然受到当前和未来信息技管理信息系统的规划自然受到当前和未来信息技术发展的影响,如计算机硬件技术、网络技术、数术发展的影响,如计算机硬件技术、网络技术、数据库技术和办公自动化技术的发展变化对管理信息据库技术和办公自动化技术的发展变化对管理信息系统都有很大的影响,应认真考虑,在系统规划中系统都有很大的影响,应认真考虑,在系统规划中有所反映。有所反映。7/10/202561大学IT