数据结构课程讲义ppt课件.ppt

上传人:本田雅阁 文档编号:3185822 上传时间:2019-07-22 格式:PPT 页数:63 大小:281.01KB
返回 下载 相关 举报
数据结构课程讲义ppt课件.ppt_第1页
第1页 / 共63页
数据结构课程讲义ppt课件.ppt_第2页
第2页 / 共63页
数据结构课程讲义ppt课件.ppt_第3页
第3页 / 共63页
数据结构课程讲义ppt课件.ppt_第4页
第4页 / 共63页
数据结构课程讲义ppt课件.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《数据结构课程讲义ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据结构课程讲义ppt课件.ppt(63页珍藏版)》请在三一文库上搜索。

1、Chapter 10 文 件,10.2 有关文件的基本概念,10.3 顺 序 文 件,10.4 索 引 文 件,10.5 索 引 顺 序 文 件,10.6 直 接 存 取 文 件,10.7 多 关 键 字 文 件,10.1基本概念,10.1基本概念,10.1常用外存:,磁带:由磁带介质、读、写磁头、驱动器、接收盘和原始盘组成。 便宜、可反复使用、是一种顺序存取设备。查找费时、速度慢(尤其是查找末 端记录时)。,.,.,读出头,写入头,原始盘,接收盘,IBG(Inter Block Gap)块间间隙,块 1,块 3,块 2,带文件的读写 时间:T i/o = ta + n tw ta :延迟时间

2、 tw:传输时间/ 字符 n 字符数。,10.1基本概念,磁盘:由存取装置、读、写磁头、活动臂、盘片(磁道、扇区)、旋转主轴构成。 速度快、容量大、直接存取设备。 种类:固定头磁盘、活动头磁盘 固定头磁盘:每个磁道都有一个磁头(速度快) 活动头磁盘:每个盘面共用一个磁头, 增加了找道的时间,应用广泛。,柱面:各盘面的直径相同的磁道的总和。,物理位置:盘组号、 柱面号、 磁道号、 块(扇区号),盘文件的读写时间:T i/o = tseck + tla + ntwm tseck :找道时间 tla :等待时间 twm :传输时间/ 字符,n 字符数。,10.1基本概念,数据域(数据场):记录中的每

3、个数据项,称之为域或场(Field) 关键字:唯一标识记录的域,称之为关键字。辅助关键字,称之为次关键字。 记录(Record):若干相关的数据项的集合。如果存之于外存,则叫做记录。 文件:记录的集合。 记录的物理结构和逻辑结构: 逻辑结构:记录在用户或程序员面前呈现的形式。 物理结构:记录在在物理存储器上的存储方式,是数据的物理表示和组织。 物理记录和逻辑记录: 物理记录:计算机用一条 I/O 指令进行读写外存的基本单位。通常,对一定 的设备和操作系统,大小是固定不变的。 逻辑记录:程序员加以定义,用户要求使用的。 关系: 物理记录 - 逻辑记录,2、基本术语:,10.1基本概念,记录B,记

4、录C,记录D,记录A,记录A,记录B,记录C,10.1基本概念,检索: 顺序存取:存取下一个逻辑记录 直接存取:存取第 i 个逻辑记录 按关键字值存取相应的记录: 简单询问:查单个记录 区域询问:查多个记录 函数询问:满足某种条件的记录 布尔询问:满足布尔运算组合的询问 修改:插入、修改、更新 更新方式:实时、批量两种方式,3、检索和修改,一、文件即为记录的集合,和“查找 表”的差别在于,“文件”指的是存 储在外存储器中的记录的集合。 记录是文件中可以存取的数据的 基本单位。,10.2 有关文件的基本概念,二、文件可按其中记录的类型不同而 分成两类:,其一为操作系统的文件,文件中的记 录仅是一

5、个字符组。由于操作系 统中的文件仅是一维的连续字符 序列,为了用户存取和加工的方 便,将文件中的信息划分为若干 组,其中每一组信息称作一个记 录;,其二为数据库文件,文件中的记录带 有结构,是数据项的集合。记录 是文件中可以存取的数据基本单 位,数据项是文件中可以使用的 数据最小单位。,三、记录中能识别不同记录的数据项 被称为关键字,若该数据项能唯 一识别一个记录,则称为主关键 字,若能识别多个记录则称为次 关键字。,四、文件的逻辑结构指的是呈现在用 户面前的文件中记录之间的逻辑 关系;文件的物理结构指的是文 件中的逻辑记录在存储器中的组 织方式。,1检索,顺序存取:存取“当前记录的”下一个记

6、录; 直接存取:存取第i个记录; 按关键字存取:存取其关键字等于给定值的记录。,五、文件的操作:,2修改,往文件中插入一个或一批记录;,更新文件中某个记录的属性。,从文件中删除一个或一批记录;,文件的操作方式可以实时处理或 批量处理。,3排序,主要讨论文件的几种常见的 物理结构:,顺序文件,索引文件,索引顺序文件,直接存取文件,多关键字文件,结 构 特 点:,记录在文件中的排列顺序是由记 录进入存储介质的次序决定的, 即文 件物理结构中记录的排列顺序和文件 的逻辑结构中记录的排列顺序一致。,10.3 顺 序 文 件,顺序文件的具体组织形式有两种:,串联文件:物理记录之间的顺序由指 针相链。,连

7、续文件:次序相继的两个物理记录 其存储位置相邻;,操作特点:,1便于进行顺序存取; 2不便于进行直接存取,为取第i个记录,必须先读出前i-1个记录,对于磁盘上的等长记录的连续文件可以进行折半查找;,3插入新的记录只能加在文件的末尾; 4删除记录时,只作标记; 5更新记录必须生成新的文件。,顺序文件的插入、删除和更新操 作在多数情况下都采用批处理方式。 此时,为处理方便,通常将顺序文件 作成有序文件,称作“主文件”,同时 将所有的操作作成一个“事务文件” (经过排序也成为有序文件),所谓 “批处理”,就是将这两个文件“合”为 一个新的主文件。具体操作相当于 “归并两个有序表”。,(1)对于事务文

8、件中的每个操作 首先要判别其“合法性”,(2)事务文件中可能存在多个操 作是对主文件中同一个记录 进行的,但有两点不同:,假设主文件中含有n个记录,事 务文件中含有m个记录,则对事务文 件进行排序的时间复杂度为O(mlogm), 内部归并的时间复杂度为O(m+n), 则总的内部处理的时间为O(mlogm+n)。,批处理的时间分析:,假设对外存进行一次读/取为s个 记录,则整个批处理过程中读/写外存 的次数为2(m/s+(m+n)/s),(其中s为对外存进行一次读/取的记录数)。,一、结构特点:,1索引文件由“主文件”和多级“索引”组成; 2索引中的每个记录由“关键字”和“指针”组成; 3通常,

9、索引文件中的主文件是无序文件,索引是 (按关键字有序)的有序文件; 4“索引”是在输入数据建立文件时自动生成。初建时的“静态索引”为无序文件,经过排序后成为有序文件。,10.4 索 引 文 件,二、操作的特点:,检索方式为:直接存取和按关键字存取。“按关键字检索”将分两步进行:先查索引,然后根据索引中指针所指索取记录; 插入记录时,“记录”插入在主文件的末尾,而相应的“索引项”必须插入在索引的合适位置上。因此,最好在建索引表时留有一定“空位”;,删除记录时,仅需删除索引表中相应的索引项即可; 更新记录时,应将更新后的记录插入在主文件的末尾,同时修改相应的索引项。,主 文 件,索 引 表,查 找

10、 表,第 二 查 找表,第三查找表, ., ., ., .,此时的索引文件结构:,多级静态索引,对主文件中每个记录建立一个索引项:,主关键字 记录在主文件中的存储位置,称作稠密索引,由这些索引项构成 索引表。,从索引表建立的索引称查找表,其中 每个索引项为:,最大关键字 其所在数据块的存储位置,称这类索引为非稠密索引。,类似地,由查找表建立的索引为第二 查找表;由第二查找表建立的索引为第 三查找表。,按关键字进行检索时,从第三查找表 开始,至多访问外存五次。,索引表采用查找树表或哈希表。 优点:,1)不需要建立多级索引; 2)初建索引不需要进行排序; 3)插入或删除记录时,修改索引方便。,动态

11、索引,用查找树表作索引时,查找索引所 需访问外存次数的最大值恰为查找 树的深度。,稠密索引的优点是,可以实现“预查找” 缺点是,索引表占用的存储空间大。,可以作索引的树表有:二叉排序树、 B-树和键树。,10.5 索 引 顺 序 文 件,主文件按主关键字有序,对一组记 录建立一个索引项(建立非稠密索引)。,结构特点:,一、ISAM文件 ISAM(Index Sequential Access Method) (索引顺序存取方法)是一种专为磁 盘存取设计的文件组织方法。,有两种典型的索引顺序文件:,文件的组织方式:,主文件按柱面集中存放,同时建立 三级索引:磁道索引、柱面索引和 主索引。,关键字

12、 指针 关键字 指针,磁道索引结构,基本索引项,溢出索引项,210,1024,主 索 引,r(14) r(21) r(38) r(41) r(57) r(63) r(72) r(85) r(99),溢 出 区,磁 道 索 引,r(514) ,溢 出 区,磁道索引, r(1024),一 个 柱 面,.,柱 面 索 引,99,210,1024,T0 T1 T2 T3 T4 T5,操作的特点:,检 索,插入,删除,检索: 可有两种方式:,按关键字存取 从主索引开始,到 柱面索引,到磁道索引,最后取 得记录,先后访问四次外存。,顺序存取 依关键字最小至大顺序 存取。,插入:,修改本磁道的索引项(包括基

13、本索 引项和溢出索引项)。,将该磁道上关键字最大的记录移出 到本柱面的溢出区中;,将记录插入在某个磁道的合适位置上;,删除:,在被删记录当前存储位置上 作“删除标记”。,文件重组,在经过多次的插入和删除操作之 后,大量的记录进入文件的“溢出区”, 而“基本存储区”中出现很多已被删去 的记录空间,此时的文件结构很不合 理。因此,对ISAM文件, 需要周期 地进行重整。,柱面索引的位置,ISAM文件占有多个柱面,其柱 面索引本身占有一个柱面,为使“磁头”的平均移动距离最小,柱面索引应设在数据文件所占全部柱面的中间位置上。,二、VSAM文件 VSAM(Vistual Storage Access M

14、ethod),文件是利用操作系统中提供的虚拟存储器的功能组织的文件,免除了用户为读/写记录时直接对外存进行的操作,对用户而言,文件只有控制区间和控制区域等逻辑存储单位。, .,.,.,.,索引集 B+树 顺序集,控制区域,控制区间,数据集,1文件的结构,2. 控制区间是用户进行一次存取的 逻辑单位,可看成是一个逻辑磁道。 但它的实际大小和物理磁道无关。,VSAM文件初建时,每个控制区 间内的记录数不足额定数,并且有的 控制区间内的记录数为零。,控制区域由若干控制区间和它们 的索引项组成,可看成是一个逻辑柱面。,顺序集本身是一个单链表,它 包含文件的全部索引项,同时,顺 序集中的每个结点即为B+

15、树的叶子 结点,索引集中的结点即为B+树的 非叶结点。,文件的操作,检索:可进行顺序存取和按关键字存取; 插入:按关键字大小插入在某个适当的控制区间中,当控制区间中的记录数超过文件规定的大小时,要“分裂”控制区间,必要时,还需要“分裂”控制区域; 删除:必须“真实地”删除记录,因此要在控制区间内“移动”记录。,VSAM文件通常被作为大型索引 顺序文件的标准组织方式。,其缺点是:占有较多的存储空间,一般只 能保持约75%的存储空间利用 率。(因此,一般情况下,极少 产生需要分裂控制区域的情况),其优点是:动态地分配和释放空间, 不需 要重组文件;能较快地实现对 “后插入”的记录的检索;,10.6

16、 直 接 存 取 文 件,和前几节讨论的文件组织方法 不同,直接存取文件的特点是,由 记录的关键字“直接”得到记录在外 存上的映象地址。,类似于哈希表的构造方法,根 据文件中关键字的特点设计一种“哈 希函数”和“处理冲突的方法”将记录 散列到外存储设备上,又称“散列文件”。,哈希文件的结构,由于记录在外存上是成组存放的, 因此允许多个记录映象到同一个地址 上。在此,称外存储器中存放多个记 录的“数据块”为“桶”。 因此由哈希函 数得到的映象地址为“桶地址”。,例如:有一组关键字如下所列 589,063,269,505,764,182,166,330 假设哈希函数为 key MOD 7,每个桶可

17、以容纳 3个记录(称桶的容量为3),则哈希文件如下:,基桶,063 182,589 505 764,269,166,330,溢出桶,在哈希文件中,“冲突”和“溢出” 是不同的概念。一般情况下,假设桶 的大小为m,则允许哈希地址产生m-1 次的冲突,当发生第m次冲突时,才 需要进行“冲突处理”,对散列文件而 言,通常采用链地址法出路冲突。为 区别起见,称直接“散列”的数据块为 “基桶”,而因“溢出”存放的数据块为 “溢出桶”。,文件的操作,检索:只能进行按关键字的查找,不能进行顺序查找。检索时,先在基桶内进行查找,若不存在,则再到溢出桶中进行查找; 插入:当查找不成功时,将记录插入在相应的基桶或

18、溢出桶内; 删除:对被删记录作特殊标记。, 优点:记录随机存放,不需要进行排 序;插入、删除方便,存取速 度快;节省存储空间,不需要 索引区。,缺点:不能进行顺序存取;在经过多 次插入和删除操作之后,需进 行“重组文件”的操作。,10.7 多 关 键 字 文 件,一、多关键字文件的特点 除需要对主关键字建立“主索引” 外, 尚需对各个次关键字建立“次索引”。,次索引项: 次关键字 (指向记录的)指针,二、次索引的组织方法,1多重链表文件 特点:将所有具有相同次关键字的记录链接在同一链表中,该链表的头指针即为次索引项中“指针域”的值;,2倒排文件 特点:将所有具有相同次关键字的记录构成一个次索引顺序表,此时的次索引顺序表中仅存放记录的“主关键字”或记录的“物理记录号”。次索引项中的“指针”指向相应的次索引顺序表;,3次关键字索引表本身的结构 可以是顺序表,也可以是树表或哈希表,视具体的次关键字的特性而定。,本章学习要求: 熟悉各类文件的特点,构造方法以及如何实现检索,插入和删除等操作。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1