基于网格的数字图书馆资源存储研究.pdf

上传人:小小飞 文档编号:3581515 上传时间:2019-09-13 格式:PDF 页数:61 大小:1.86MB
返回 下载 相关 举报
基于网格的数字图书馆资源存储研究.pdf_第1页
第1页 / 共61页
基于网格的数字图书馆资源存储研究.pdf_第2页
第2页 / 共61页
基于网格的数字图书馆资源存储研究.pdf_第3页
第3页 / 共61页
基于网格的数字图书馆资源存储研究.pdf_第4页
第4页 / 共61页
基于网格的数字图书馆资源存储研究.pdf_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《基于网格的数字图书馆资源存储研究.pdf》由会员分享,可在线阅读,更多相关《基于网格的数字图书馆资源存储研究.pdf(61页珍藏版)》请在三一文库上搜索。

1、华中师范大学 硕士学位论文 基于网格的数字图书馆资源存储研究 姓名:余玲 申请学位级别:硕士 专业:情报学 指导教师:李玉海 20071001 摘要 数字图书馆是建立在大量可读取和利用的数字化信息资源之上的,优质的数 字资源是数字图书馆提供优质服务的基础。如何安全地存储数字资源、快速便捷地 获取数据、在系统崩溃时恢复数据,这些都是数字图书馆存储系统需要解决的问题。 因而数字资源的存储是数字图书馆建设过程中的核心任务之一。 随着数字图书馆建设进程的加快和存储技术的发展,在资源存储方面取得了长 足的进步,存储容量、数据传输速度、扩展性和共享性等方面得到了很大的改善。 但是由于现代数字图书馆信息资源

2、呈现出数据量大、数据类型复杂、服务器平台种 类多、读者需求复杂等新特点,传统的集中服务系统( 如硬盘存储、光盘塔存储、 磁带库存储) 或者现有的网络存储系统( 如N A S 、S A N ) 都无法从根本上满足数字信 息迅猛增长的存储需求。而网格技术擅长解决数据密集型、吞吐量密集型的应用阎 题,基于网格的存储技术擅长解决海量、分布的存储问题。鉴于此,本文提出了基 于网格的数字图书馆资源存储方案,并对其理论和技术进行了较系统的研究。 比较了目前广泛使用的D A S 、N A S 、S A N 和I S C S I 四种存储方案的优缺点,指出 了这些存储方案都不能全面地解决数字图书馆存储问题,因而

3、将网格存储技术引入 到数字图书馆存储建设中。 分析和研究网格存储的基础理论,总结了网格存储技术的优势,并且针对数字 图书馆存储面临的三个主要问题,即海量、异构和动态存储问题探讨了相关的关键 技术。 构建数字图书馆网格存储模型,从模型体系结构、总体结构和软件功能模块这 几个方面进行了设计。 根据已经构建的数字图书馆网格存储模型,给出了应用方案,具体阐述了应用 服务的四个过程( 存储描述、存储组织、存储监控与发现、存储调度) ,并且就存储 质量和存储安全两个方面提出了管理策略。 关键词:网格存储数字图书馆资源存储存储服务 硕士学位论文 M A S f E R S T H E S I S A b s

4、 t r a c t D i g i t a ll i b r a r yi sc o n s t r u c t e do nt h eb a s i so ft h ee n o r m o u sq u a n t i t yo fd i g i t a l i n f o r m a t i o nr e s o u r c e sw h i c hc a nb er e a da n du s e d ,a n dq u a i l t ys e r v i c ef r o md i g i t a l l i b r a r yi sb a s e do nq u a l i t

5、 yd i g i t a lr e s o u r c e s D i g i t a ll i b r a r yn e e d st or e s o l v et h ep r o b l e m o fh o wt os t o r ed i g i t a lr e s o u r c e ss a f e l y , h o wt og e td a t aq u i c k l ya n de a s i l y , a n dh o wt o r e t r i e v ed a t aw h e ns y s t e mb r e a k i n gd o w n T h

6、e r e f o r e ,t h es t o r a g eo fd i g i t a lr e s o u r c e si s t h ec o r em i s s i o nd u r i n gt h ec o n s t r u c t i o no fd i 画t a ll i b r a r y A st h ec o n s t r u c t i o no fd i g i t a ll i b r a r y q u i c k e n sa n dt h et e c h n o l o g yo fs t o r a g e d e v e l o p s ,

7、t h es t o r a g eo fr e s o u r c e si n c l u d i n gc a p a c i t yf o rs t o r i n gi n f o r m a t i o n ,s p e e do f d a t at r a n s m i s s i o n ,e x p a n s i b i l i t ya n ds h a r i n ge t c i sp r o g r e s s i n gr a p i d l y H o w e v e r , s i n c e m o d e md i g i t a ll i b r a

8、 r ys h o w sS o m en e wf e a t u r e s - - e n o r m o n sq u a n t i t yo fi n f o r m a t i o n r e s o u r c e ,c o m p l e xt y p eo fd a t a , m a n yk i n d so fs e r v e rp l a t f o r m s ,v a r i o u s d e m a n d so f r e a d e r se t c ,b o t ht r a d i t i o n a lc e n t r a l i z e d

9、- s e r v i c es y s t e m ( h a r dd i s ks t o r a g e ,c o m p a c td i s k t o w e rs t o r a g e ,m a g n e t i ct a p ea r c h i v e ss t o r a g e ,f o re x a m p l e ) a n dc u r r e n tn e t w o r ks t o r a g e s y s t e m ( N A S 。S A N ,f o re x a m p l e ) c a n t m e e t 州t I lt h es t

10、 o r a g ed e m a n do fd i g i t a l i n f o r m a t i o nw h i c hi so nt h ei n c r e a s e O nt h ec o n t r a r y , g r i dt e c h n o l o g yi sg o o da ts o l v i n g a p p l i c a t i o np r o b l e m ss u c ha st h ed e n s i t yo fd a t aa n dt h ed e n s i t yo ft h r o u g h p u t , a n

11、d s t o r a g et e c h n o l o g yb a s e do ng r i di sg o o da ts o l v i n gt h ep r o b l e m ss u c ha sm a & 5s t o r a g e a n dd i s t r i b u t e ds t o r a g e T h e r e f o r e ,t h i sa r t i c l ep u t sf o r w a r das t o r a g ea p p r o a c ho fd i g i t a l l i b r a r yo nt h eb a

12、s i so fg r i d ,a n da l s os y s t e m a t i c a l l ys t u d i e si t st h e o r ya n dt e c h n o l o g y C o m p a r i n gf o u rs t o r a g ea p p r o a c h e s ( D A S ,N A S ,S A Na n dI S C S I ) w h i c ha r ew i d e l y u s e dn o w , t h i sa r t i c l ed e s c r i b e st h e i rs t r e

13、n g t ha n dw e a k n e s s ,a n dt h e np o i n t so u tt h a tt h e f o u rs t o r a g ea p p r o a c h e sC a n t c o m p l e t e l ys o l v et h ep r o b l e mo ns t o r a g eo fd i g i t a l l i b r a r ya n d 鲥ds t o r a g et e c h n o l o g ys h o u l db ei n t r o d u c e di n t ot h ec o n

14、s t r u c t i o no fd i g i t a l l i b r a r y A n a l y z i n ga n dr e s e a r c h i n gt h eb a s i ct h e o r yo f 鲥ds t o r a g e ,t h i sa r t i c l es u m su p 鲥d s t o r a g e Sa d v a n t a g e s ,a n dd i s c u s s e sr e l e v a n tk e yt e c h n o l o g yr e g a r d i n gt h et h r e em

15、 a i n p r o b l e m s ( m a s ss t o r a g e ,h e t e r o g e n e o u ss t o r a g ea n dd y n a m i cs t o r a g e ) d i g i t a ll i b r a r yi s f a c e dw i t h T h i sa r t i c l ec o n s t r u c t sam o d e lo fd i g i t a ll i b r a r yg r i ds t o r a g e ,a n di td e s i g n st h e n 、 硕士擘

16、位论更 M A S _ r E R SIH t S l S a r c h i t e c t u r eo f m o d e l ,g r o s ss t r u c t u r ea n ds o f t w a r ef u n c t i o n a lm o d u l e B a s e do nt h ec o n s t r u c t e dm o d e lo f d i g i t a ll i b r a r yg r i ds t o r a g e ,t h i sa r t i c l el a y so u t as c h e m ea b o u ta

17、p p l i c a t i o no ft h i sm o d e l ,d e t a i l sf o u rp r o c e s s e so f a p p l i c a t i o ns e r v i c e i n c l u d i n gs t o r a g ed e s c r i p t i o n ,s t o r a g eo r g a n i z a t i o n ,s t o r a g em o n i t o r i n ga n dd i s c o v e r y , s t o r a g es c h e d u l i n g ,a

18、n dp r e s e n t sm a n a g e m e n ts t r a t e g yt og u a r a n t e eq u a l i t ya n ds e c u r i t y o f s t o r a g e K e y w o r d s :G r i dS t o r a g e ;D i g i t a lL i b r a r y ;R e s o u r c eS t o r a g e ;S t o r a g eS e r v i c e I 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导

19、师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:石声洽日期:加9 年偿月,2 一日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信

20、息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 斧l 作槲:铋椭名:彩仍侈 日期:知刁年I 乙月J z 日日期秒7 年,矿月l p 日 本人已经认真阅读“C A L I S 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“C A L I S 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。回垂途塞堡窑卮澄卮! 旦主生;旦= 生;旦三生叁查! 作者签名秘 日期:卿年J z 月I 乙日 轴孝啦 导师签名:“ 。 日期纱叼年,月 硕士幸住论 M A S lb RSl H E S I S 1 1 选题背景和研究意义 1 绪

21、论 2 0 世纪9 0 年代兴起的“数字图书馆”,起源于1 9 9 3 年由美国国家科学基金会 ( N S F ) 、美国国际部尖端研究项目机构( D A R P A ) 、国家航空与太空总署( N A S A ) 联合发起的数字图书馆创始工程( D L I ) 。随着数字图书馆的发展,它已经“不仅 仅是一个有着信息管理工具的数字收藏的等价词,更是一个环境,它将收藏、服务 和人综合到一起以支持数据、信息乃至知识的全部流程,包括从创造、传播、使用到 保存的全过程”。特别是在美国国家科学基金会2 0 0 3 年的( K n o w l e d g el o s ti n i n f o r m a

22、 t i o n 报告提出之后,数字图书馆作为未来社会“普遍知识环境( U b i q u i t o u s K n o w l e d g eE n v i r o n m e n t ) ”的核心已经逐渐成为人们的共识I I J 。 信息技术的发展推动了数字图书馆的进步,其信息资源在组织、集成和服务等 方面都取得了长足的发展,但是由于用户日益变化的需求和爆炸性增长的数据信息 量导致存储系统的规模变得越来越庞大,管理越来越复杂,信息资源的快速增长和管 理能力的相对不足之间的矛盾日益尖锐。同时,这种信息资源的高速增长也对存储 系统的可靠性、扩展性、互操作性、安全性、容错性和低成本提出了挑战,

23、而传统 的存储技术如硬盘存储、光盘塔存储、光盘库存储等和现有的网络存储技术如N A S 、 S A N 等都已无法全面有效的满足这些需求,所以迫切需要寻找新的解决方案。 网格( G r i d ) 被誉为继I n t e m e t 之后又一次网络革命,具有与I n o c n l e t 一样改变整 个世界的运行方式的能力【2 I 。网格的实质是要实现互联网上所有资源的全面连通, 让全球资源共享成为可能。网格技术的核心是资源的共享与集成因此数字图书馆 是网格技术最直接的应用领域之一。实际上,基于网格技术的数字图书馆并不是一 种全新的概念,它是近年来数字图书馆研究的集成与发展,代表了数字图书馆

24、发展 的趋势。数字图书馆与网格及其相关技术的结合在近年来的数字图书馆研究领域中 已经受到愈来愈多的关注。 网格是构建数字图书馆的新的思维方式和新的概念,由计算网格层、信息网格 层以及知识网格层构成的三层网格框架结构,从下到上逐层解决了新型数字图书馆 面l 临的3 个难题p J ,而网格存储技术是解决这些难题的基础。基于网格的存储技术有 三大优点:更高的容错与冗余度、在负载波动的情况下有更好的性能和更低的成本 一1 。显然,构建基于网格的数字图书馆存储环境不仅能全面有效地解决其资源存储 硕士擘位论文 M A Sf E R Sr H E S I S 问题,而且为其网格用户方便、快速、高效地访问数据

25、提供了支持和保障。 1 2 研究内容 本论文共分七部分: 第一部分是绪论。主要说明了选题背景、研究意义、研究内容、和国内外研究 现状。 第二部分是数字图书馆资源现状。界定了数字图书馆资源的概念,分析了数字 图书馆资源存储特点和需求,比较了目前广泛使用的D A S 、N A S 、S A N 和I S C S I 四 种存储方案,指出了数字图书馆资源存储问题。 第三部分是网格存储概述。首先介绍了网格和存储网格概念、特点以及存储网 格和其它网格的关系。在此基础上引出了网格存储的概念、特点,并且给出了网格 存储架构,总结了网格存储的优势。 第四部分是数字图书馆网格存储关键技术。分别从海量存储技术、异

26、构存储技 术和动态存储技术三个方面进行了详细的探讨和分析。 第五部分是数字图书馆网格存储模型。构建了数字图书馆网格存储模型体系结 构,给出了模型总体设计和软件功能模块设计。 第六部分是数字图书馆网格存储模型的应用。分析了数字图书馆网格存储模型 的应用层次结构,详细地探讨了其存储服务的四个主要步骤,并且就存储质量和存 储安全两个方面提出了管理策略。 第七部分是总结和展望。对全文进行总结归纳,并提出进一步的设想和展望。 1 3 国内外研究现状 1 3 1 国外研究现状 目前,网格的研究已经从美国和欧洲推广到世界各地,许多国家和地区已经投入 了大量的资金进行网格技术研究和网格基础设施建设。许多人参与

27、了网格环境下数 据存储的研究,并取得了一定的成果【5 】【6 1 :英国的分布式飞行器维护环境项目 ( D A M E ) ,利用飞机引擎产生的大量的原始数据生成归档数据,并存储在远程专用系 统。美国的A r g o n n e 国家实验室和南加州大学在研制开发网格系统工具G l o b u s 的基础 上,积极探讨数据网格的系统框架和关键技术,重点研究数据存储、元数据管理和 副本管理等方面。美国的m y G r i d 项目,支持构造、管理和共享生物信息学中的数 据密集型的I n S i l i o a 实验,强调了分布式数据缓存的必要性。美国的地震工程和模拟 2 硕士章位论文 M A SJ

28、 RSH E S l S 学基础设施I q N E E S g r i d ,通过集中和分布式仓库,包括试验设施和远程节点上的存 储设施来共享数据和元数据。美国的黑洞模拟仿真项目,利用A P I 函数进行文件迁移 和文件存档。在国外,基于网格的存储不仅仅是一种未来存储的发展趋势和理念, 而已经成为了实实在在的产品和服务,很多存储行业的大企业陆续推出了支持存储 网格实现的产品。2 0 0 4 年1 2 月2 1 日,美国E M C 公司携手D E L L 、I n t e l 和O r a c l e ,共同 打造了M e g a G r i d ( 兆级网格) 项目 7 1 。惠普也早就从2

29、0 0 1 年开始了存储网格的研发, 它的基于存储网格技术的参考信息存储系统在欧美等国家有了成功的应用。 N e t w o r kA p p l i a n c e ( N e t A p p ) 为公司美国知名的电影特效制作公司I L M ( I n d u s t r i a l L i g l l ta n dM a g i c ,工业光魔) 提供的1 5 台存储服务器组成的容量为数以万兆计的存 储网格p 】。在推进存储网格进入商用领域的过程中,E M C 、H P 、英特尔、O r a c l e 、 V E R I T A S 和S u n ,以及N e t A p p 在内的众多

30、软硬件厂商形成了一个“企业网格联盟”, 共同推动网格应用走向成熟【9 1 。他们的基于网格存储解决方案提高了存储实施的灵 活性可以满足不同用户不断增长的存储需求。日立数据系统公司与2 0 0 5 年5 月推 出了L i 曲m i n g N A S 刀片解决方案【”I ,用户采用了日立高扩展性、高可靠的存储设备, 可以把S A N 和N A S 的数据放在同一存储池中,将S A N 和N A S 整合在一起。 在国外网格研究和应用领域中,数字图书馆都起着举足轻重的作用,它是网格 应用中用于组织、利用和管理网格中数字资源的主体,是构成网格高层应用的信息 基础设施。因而国外多个网格研究项目都将数字

31、图书馆作为一个网格研究中的重点 研究课题】。目前,国外基于网格技术的数字图书馆研究项目主要有:欧盟的 D E L O S t l 2 1 ( N e t w o r ko fE x c e l l e n c eo nD i g i t a lL i b r a r i e s ) 、D I L I G E N T 1 3 J ( AD i g i t a l L i b r a r yI n f r a s t r u c t u r eo nG r i dE n a b l e dT e c h n o l o g y ) ,美国的D i g i t a lL i b r a r yG r

32、 i d 【I 、 F r e e L i b 0 5 l ,葡萄牙的A R C O t l 6 1 ,国际合作研究项目G R A C E ( G R i ds e A r c ha n d C a t e g o r i z a t i o n E n g i n e ) 1 1 7 1G r i d l R 工作组( G r i d I n f o r m a t i o n R e t r i e v a l W o r k i n g G r o u p ) I t S l 等。这些项目在结构体系、研究内容和方法、应用与特点上各不相同。D E L O S 侧重于理论应用体系的构建。D

33、i g i t a lL i b r a r yG r i d 与F r e e L i b 分别对网格结构与P 2 P 结构应用于数字图书馆的不同研究内容与应用特点进行探索。A R C O 主要对数字资 源应用网格的存储进行研究。D I L I G E N T 项目致力于整合网格和数字图书馆技术。 G R A C E 从语义层面入手研究数字图书馆。G r i d l R 则是要建立网格环境下的分布式 检索的标准。由于基于网格的数字图书馆研究范围非常广泛,所以以上项目研究角 度、层次和侧重点都不同,只有A R C O 和D I L I G E N T 项目对存储问题进行了重点研 究。A R C

34、 O 主要研究网格环境下海量数字资源的存储结构,目标在于为数字图书馆 的海量资源提供透明的、可管理的接口。D I L I G E N T 提出了解决数字图书馆信息存 硕士肇位论乏 M A S IE RSI H E SJ S 储和获取的方案。 1 3 2 国内研究现状 在国类非常重视网格的研究,“8 6 3 计划”中的织女星网格【J9 1 、教育网格,其系 统中都有针对多个分布异构的存储资源数据的管理。国防科技大学研究组已经开发 G f i d d a e n 数据网格原型系统【2 0 J ,并在局域环境下进行了测试,该系统集成各种数 据文件存储系统,提供一个分布数据的统一无缝访问方式。华中科技

35、大学集群与网 格计算湖北省重点实验室国家杰出青年基金“基于数据网格的高性能存储环境及其 关键技术研究”项目和“基于数据网格的高性能存储系统研究”项目都是对基于网 格的存储系统的研究。 国内也展开了基于网格技术的数字图书馆应用研究【2 l 】。其中武汉大学的“数字 图书馆网格应用模型研究”项目,提出了基于O A I 的数字图书馆网格应用系统框架 结构,该方案能够有效地解决多个异构数字图书馆之间的资源共享问题田】。北京理 工大学郑志蕴等人提出了全新的互操作框架数字图书馆网格D LG r i d 【2 ”,即利用 网格技术解决数字图书馆资源发现、整合、跨仓储检索、安全等问题,为实现大规 模数字图书馆

36、的互操作提供了一种新途径。C N l ( I 网格资源共享平台则是一个典型 的基于知识网格的门户式数字图书馆解决方案【”。 1 4 论文的创新点 ( 1 ) 由于网格存储研究是数据网格研究的一部分,所以国内外的研究中更多是侧 重于数据网格的体系结构、互操作性和数据管理等方面,而单独将网格存储研究列 出来进行深入研究的比较少。因而将网格存储技术应用于数字图书馆这方面的选题 也就更少。而本论文在分析目前现有的数字图书馆资源存储问题的基础上,创新性 地将网格存储技术引入到数字图书馆资源存储领域,利用网格存储的优势来解决其 存储难题。 ( 2 ) 在对网格存储及其应用进行理论研究和对数字图书馆网格存储

37、关键技术进行 探讨研究的基础上,试图构建数字图书馆网格存储模型,并结合实际应用给出具体 的设计方案。 4 硕士擘位论文 M A S T E R SlH S l S 数字图书馆资源存储现状 2 1 数字图书馆资源存储需求 2 1 1 数字图书馆资源的界定 数字图书馆的研究开发,是伴随国际互联网的发展和普及而兴起的,数字图书馆 是2 0 世纪9 0 年代社会需要的直接产物。通常,数字图书馆是指:“利用计算机技术、 网络技术、数字化技术形成的跨地区、跨国家的信息空间、信息系统,并以数字化 方式将信息资源存储在具有海量存储能力的存储系统中,通过计算机和网络将信息 资源传递给不同地域的用户,从而做到不受

38、时间、空间限制的信息资源共享”1 2 5 J 。 数字图书馆不仅仅是传统图书馆资源的数字化,也不是简单的互联网上的图书馆主 页,而是一整套面向对象的、分布式的、平台无关的数字化资源的集合。与传统的 图书馆相比较,数字图书馆具有信息资源数字化、信息传递网络化、信息资源共享 化、信息组织存储标志化、信息管理分布化、信息实体虚拟化、馆员素质综合化等 特点。 在界定什么是数字图书馆资源之前,我们首先应明确对信息资源的理解。目前 关于信息资源的含义有很多种不同的理解,但归纳起来主要有两种:一是狭义的理 解,认为信息资源就是指文献资源,或者各种媒介和形式的信息的集合,包括文字、 声音、图片、视频、印刷品、

39、电子信息、数据库等:二是广义的理解,认为信息资源 是信息活动中形成信息产品的一切支撑性资源,除狭义的信息资源外,也包含了与 产生信息相关的人员、设备、技术和资金等各种资源【2 6 1 。 由此可知,数字图书馆信息资源的概念也应有狭义和广义之分。狭义的数字图 书馆信息资源是以数字形式创建、存储、传递的。它是一个不断增长、更新的动态 系统,包括所有数字形式的图书馆资源:经过数字化转换的资料或本来就是以电子 形式出版的资料,新出版的或经回溯性加工的资料:购买的各种商业数据库,自建 的特色、专题数据库:网络信息资源等。它包含各类资源类型,包括期刊、电子书 刊、报纸、参考工具书、专著、视频声频资料等。广

40、义的数字图书馆信息资源是指 除所有数字形式的资源外,还包含了与之相关的数字图书馆技术、人员、设备、资 金等。本文所述的数字图书馆资源是指狭义的数字图书馆信息资源。 2 1 2 数字图书馆资源的特点 硕士学位论文 M A Sr E R SI H E SJ S 与传统图书馆的馆藏资源相比,数字图书馆信息资源有其自身的特点。从存储 的角度来考虑,数字图书馆资源具有以下特点【27 】: ( 1 ) 存储容量大。近几年来,图书馆数字资源呈几何级数增长,数字图书和全文 数据库是数字图书馆藏资源的重要增长点。数字图书馆的各种数字化信息如流媒 体、数字仓库与挖掘等的增长也将一直持续下去。存储信息的度量单位由M

41、 B 、C a B 向T B 、P B 转变,其存储的数据总量达到了海量规模。如:美国国家数字图书馆1 9 9 9 年数字化馆藏资源的总量就达到了1 0 0 T B 。 ( 2 ) 媒体形式多。数字图书馆馆藏包括数字化的图书、新闻、美术、照片、雕塑、 电影、软件、电子出版物、互联网内容、卫星数据、气象数据、地理数据、政府文 件等各种各样的人文与科学数据资源。其存储媒介已不限于印刷体,它包含文本、 声音、图像、影视等多种媒体形式,数据类型复杂。 ( 3 ) 强分布性。数字图书馆海量数据资源存储在物理上分布的存储器设备上,存 储设备包括磁盘阵列、磁带库、光盘库等,并且存储的物理路径复杂,分本地存储

42、 和远程存储。 ( 4 ) 动态性。数字图书馆系统在不同时刻对资源的需求是不同的,白天或某段时 白J 内可能因为访问人数激增造成对某部分的计算资源需求增加,一段时间后可能需 求又有所下降,而这些都是无法预知的。所以资源需求具有很高的动态性。另外数 字图书馆的信息资源己从静态的文本格式发展到动态链接,而且动态链接不确定, 更新频率高。 ( 5 ) 异构性。数字图书馆存储资源类型不一,系统现有的主机系统和存储系统也 具有多类型的特点,操作系统包括U n i x 、L i n u x 、W i n d o w s 等,主流类型硬件设备 的主机厂商和存储厂商来源不一。 2 1 3 数字图书馆存储要求

43、显然,由上述数字图书馆资源的特点分析可以看出数字图书馆对数据存储有特 殊的要求,主要概括为:管理和维护大量的存储数据的同时,要求确保数据的一致 性、安全性、可靠性和可扩充性;要求实现对物理上分布的数据资源进行统一的集 中管理:要求实现数据资源的动态存储;要求实现对异构的数据进行同构的访问。 对存储系统而言,必须要满足以下要求【2 8 】【2 9 1 : ( 1 ) 海量数据的存储; ( 2 ) 7 X 2 4 小时的高可用性; ( 3 ) 存储系统尽可能冗余,排除单点故障;系统的升级和维护尽可能地在线进行; 6 硕士学位论丈 M A S l _ E t O SI H E S I S 系统发生故

44、障后,能被自动地切换到其他系统。 ( 4 ) 提供跨平台、跨部门、跨区域、甚至面向全世界的数据存取机制和管理机制; ( 5 ) 为用户提供一个虚拟世界,即在给定的权限下可以不受限制地自由取用: ( 6 ) 面对多用户并发的快速响应机制; ( 7 ) 高质量的流媒体服务; ( 8 ) 多用户实时的远程监测和设备控制机制: ( 9 ) 同时满足大数据量的并发访问和传输,同时确保数据安全; ( 1 0 ) 良好的交互性、可视化、可参与性和实时性; ( 1 1 ) 系统的容灾能力强,即如果本地的数据发生灾难后,系统能不受或少受影 响: ( 1 2 ) 对现有存储设备的利用,保护现有投资。 2 2 数字

45、图书馆资源存储常用方案 纵观数字图书馆的发展进程,数据存储技术的更新经历了从以计算机、服务器 为中心的传统图书馆的现代化转型期到以网络媒介的图书馆综合服务功能拓展期。 这段时期主要是采用磁盘阵列技术R A I D ,以计算机、服务器为中心的存储架构通 过把多个较小容量的硬盘连在智能控制器上,增加存储容量及提高网络数据的可用 性,免除单块硬盘故障所带来的灾难性后果,随着R A I D 技术在图书馆的应用日趋 广泛,双机热备份、磁盘镜像、数据库软件的自动复制等功能和相关技术也在许多 图书馆得到不同程度的应用,极大地降低了数据出错的可能和风险,一定程度上缓 解了图书馆应用和需求对存储系统的压力。进入

46、2 1 世纪以来网络环境下传统图书 馆的功能得到进一步拓展和延伸,网上读书、远程教育、在线交流、信息咨询、视 频点播等应用也逐渐成为现代数字图书馆网络服务的热点,面对着日益繁忙的网络 应用需求和爆炸性增长的数据信息量,以服务器为中心采用磁盘阵列技术的存储架 构已经受到扩充能力、存储资源共享、响应速度等问题的严重挑战,新的数据存储技 术应运而生。目前数字图书馆广泛采用的存储方案主要有D A S ( D i r e e tA t t a c h e d S t o r a g e ,直接附加存储) 、N A S ( N e t w o r k A t t a c h e dS t o r a g

47、e ,网络附加存储) 、S A N ( S t o r a g e A r e a N e t w o r k ,存储区域网络) 和I S C S l ( I n t e r n e t S m a l l C o m p u t e r S y s t e m I n t e r f a c e ,互联 网小型计算机系统接口) 3 0 l 。 2 1 1D A S ( D i r e c tA t t a c h e dS t o r a g e ,直接连接存储) 直接连接存储D A S 是一个单纯以共享文件访问为目的。通过S C S I 接口或光纤通 7 硕士学位论文 M A S lb R

48、 SlH L S I S 道将存储设备与服务器直接连接起来的系统。这种存储方案的服务器结构如同P C 机 架构,外部数据存储设备( 如磁盘阵列、光盘机、磁盘机等) 都直接挂在服务器内部 总线上,数据存储设备是整个服务器结构的一部分,同样服务器也担负整个网络的 数据存储职责。在网络中各服务器的数据存储设备都是独立的。D A S 存储方式的结 构如图2 1 所示。 D A S 的前期投入较少,连接在S C S I 接口上的磁盘阵列一般采用R A I D 5 技术,存 储数据本身的安全性还是比较可靠的。但是在这种连接方式下,存储设备都是直接挂 接在服务器上,随着需求的不断扩大,越来越多的存储设备和服

49、务器被添加进来, D A S 环境将导致服务器和存储数量的激增,资源利用率低下,在该环境中,数据共 享和存储设备拓展能力均受到了限制。另外,在这种存储方式中,数据存储任务也 由服务器担当,使得服务器的性能受到相当大的影响,十分不利于存储设备的增加 和存储更复杂的多媒体数据流。D A S 是一种简单的网络存储方案,技术实现容易, 适用于小数据流量的小型数字图书馆。此外当服务器在地理上比较分散,很难通 过远程连接进行互连时,D A S 不失为理想的解决方案,甚至是唯一的解决方案。 图2 1D A N 存储结构 2 2 2N A S ( N e t w o r kA t t a c h e dS t o r a g e 网络附加存储) 网络附加存储N A S 是一种专业的网络文件存储及文件备份设备,它内嵌通用操 作系统中用于数据共享的文件系统和网络连接协议。使C P U 、内存和I 0 总线等系 统资源完全用于信息资源的存储、管理和共享。这种存储方案采用独立于服务器, 单独为网络数据存储而开发的一种文件服务器来连接所有存储设备,自形成一个网 络。这样数据

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育


经营许可证编号:宁ICP备18001539号-1