技术篇二.ppt

上传人:本田雅阁 文档编号:2643280 上传时间:2019-04-28 格式:PPT 页数:57 大小:903.52KB
返回 下载 相关 举报
技术篇二.ppt_第1页
第1页 / 共57页
技术篇二.ppt_第2页
第2页 / 共57页
技术篇二.ppt_第3页
第3页 / 共57页
亲,该文档总共57页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《技术篇二.ppt》由会员分享,可在线阅读,更多相关《技术篇二.ppt(57页珍藏版)》请在三一文库上搜索。

1、技术篇 (二),赵亮 上海图书馆系统网络中心 ,面向21世纪课程教材 数字图书馆原理及应用,内容,第六章:数字图书馆信息存储与检索技术(p153-188) 第七章:数字图书馆的互操作(p188-226),重点,掌握: 数据压缩技术原理、方法,文本压缩、多媒体压缩;p162-167 跨语言检索的实现方法;p179-185 数字图书馆异构对象数据库互操作技术;p195-197 Z39.50协议及Z39.83协议其原理、模式、应用;p210 熟悉: 多媒体信息检索;p170-178 互操作产生的原因;p190-191,重点,了解: 存储设备、存储技术和架构、数据备份技术、数据压缩;p153,p162

2、 基于内容的信息检索技术;跨语言检索;p170, p178 数字图书馆的互操作及其协议和标准;p189,第六章 数字图书馆信息存储 与检索技术,数字图书馆的存储设备(p.153-155),磁盘阵列 (RAID) 磁带库 光盘塔 光盘库 光盘网络镜像服务器,存储技术和架构(p.155-158),直接连接存储 (DAS) 网络连接存储 (NAS) 存储区域网 (SAN),DAS ( 直接连接存储),定义: 用SCSI或FC直接连接到服务器,运行SCSI协议。,DAS 的优点 简易 快速 (5ms) 已广泛应用 安全 所有驱动程式齐备 为甚麽不采用?,DAS 的缺点 不能重新分配 不能重新配置 没有

3、集中管理 没有集中备份 扩充容量会有困难 增加存储设备会拖慢服务器,定义: 通过专用服务器连接到网络的存储设备,一般使用NFS, CIFS, TCP/IP, HTTP 或其他网络协议,DAS 的优点 简易 快速 (5ms) 已广泛应用 安全 所有驱动程式齐备 为甚麽不采用?,DAS 的缺点 不能重新分配 不能重新配置 没有集中管理 没有集中备份 扩充容量会有困难 增加存储设备会拖慢服务器.,NAS 的缺点 加重网络的负担 存储需求增大时,需要再购置额外的NAS机组,NAS (网络存储),NAS (网络存储),Ethernet,一台专用服务器为网络提供档案管理服务 通常服务器会为用户提供 NFS

4、, CIFS, 或 NetWare 存储空间,而利用 TCP/IP 作网络协议 单一的 NAS 服务器会产生数据存取的瓶颈,Sun,HP,Windows,SCSI,DATA,NAS,SAN (存储区域网络),定义: 一个以连接存储设备及服务器为主要目的而设计和建立的专用网络,一般运行SCSI协议。这种结构可以抒缓企业网络的压力,DAS 的优点 简易 快速 (5ms) 已广泛应用 安全 所有驱动程式齐备 为甚麽不采用?,DAS 的缺点 不能重新分配 不能重新配置 没有集中管理 没有集中备份 扩充容量会有困难 增加存储设备会拖慢服务器,NAS 的缺点 加重网络的负担 存储需求增大时,需要再购置额外

5、的NAS机组,光纤 SAN,Ethernet,一种存储架构,服务器利用光纤网络使用存储资源 SAN 通常在光纤(FC-AL or FC-SW)背後使用SCSI协议 数据块在应用服务器内编排成档案,DATA,Fibre Channel,SAN,三种存储架构的比较分析,数据备份技术,本地备份 DAS 网络备份 NAS 基于SAN的LAN-FREE的备份 SAN,物理空间降低存储费用 时间空间迅速传输媒体信源 频率空间并行开通更多业务,数据压缩的定义与内容p.162,数据压缩技术实现的衡量标准p.163,压缩比要大 恢复后的失真小 速度要快,压缩算法简单 硬件开销小,数据压缩技术原理、方法 p.16

6、3-164,无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。 混合压缩是指接近于无损压缩效果的有损压缩。,文本压缩技术 p.164-167,霍夫曼(Huffman)编码 算术编码 字典压缩模型 LZW编码 游程编码,霍夫曼编码实例, step I,Assume that relative frequencies are: A:

7、 40 B: 20 C: 10 D: 10 R: 20 (I chose simpler numbers than the real frequencies) Smallest number are 10 and 10 (C and D), so connect those,霍夫曼编码实例, step II,C and D have already been used, and the new node above them (call it C+D) has value 20 The smallest values are B, C+D, and R, all of which have v

8、alue 20 Connect any two of these,霍夫曼编码实例, step III,The smallest values is R, while A and B+C+D all have value 40 Connect R to either of the others,霍夫曼编码实例, step IV,Connect the final two nodes,霍夫曼编码实例, step V,Assign 0 to left branches, 1 to right branches Each encoding is a path from the root,A = 0 B

9、 = 100 C = 1010 D = 1011 R = 11 Each path terminates at a leaf Do you see why encoded strings are decodable?,霍夫曼编码,Unique prefix property,A = 0 B = 100 C = 1010 D = 1011 R = 11 No bit string is a prefix of any other bit string For example, if we added E=01, then A (0) would be a prefix of E Similarl

10、y, if we added F=10, then it would be a prefix of three other encodings (B=100, C=1010, and D=1011) The unique prefix property holds because, in a binary tree, a leaf is not on a path to any other node,算术编码p.165,基本思想:算术编码不是将单个信源符号映射成一个码字,而是把真个信源表示为实数线上的0到1之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作

11、为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。 采用算术编码每个符号的平均编码长度可以为小数。,算术编码举例(一),词典编码,词典编码主要利用数据本身包含许多重复的字符串的特性。例如:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。 我们如果用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。 实用的词典编码算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。,词典编码举例,词典法的想法是企图查找正在压缩的字符序列是否在以前输入

12、的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。,LZW编码,得名于Lempel Ziv - Welch。 是一种动态生成字典并编码的字典压缩模型。 具有压缩效率高、实现简单的优点,是目前最常用的无损压缩方法之一。,LZW编码算法流程,初始化字典,LZW编码实例,要编码字串: abcdabababcd,游程编码(RLE),游程编码(Run-Length Encoding):它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。 例如:RTTTTTTTTABBCDG被转换为:R#8TABBCDG,其中“”作为转义字符,

13、表明其后所跟的字符表示长度。 行程编码多用于黑白二值图像的压缩中。例如00000000111111111111000001111111被转化为一系列黑串和白串长度的编码:81257。因为串长度并非等概率分布,所以一般要配合以统计编码(Huffman编码)。,多媒体压缩技术 p.167-170,静止图像压缩标准 JPEG 无损及有损 在20-40倍压缩比时,人眼看不出区别 活动图像压缩标准 MPEG MPEG-1 352X240,VCD MPEG-2 720X480,DVD MPEG-4,基于内容的信息检索技术p.170-178,图像信息检索 颜色 形状 纹理,形状,平均颜色,色彩组合,纹理,图

14、像检索,基于内容的信息检索技术p.170-178,动态视频信息检索 视频分割 视频聚类 关键帧抽取 运动特性抽取 视频检索,基于内容的信息检索技术p.170-178,音频信息检索 音频的类型 波形声音 语音 音乐 语音检索 音乐检索 结构化音乐的检索 基于样本的音乐检索,跨语言信息检索技术p.178-188,跨语言信息检索的定义 跨语言信息检索是指用户以一种语言提问,检索出另一种语言或多种语言描述的相关信息。 计算机信息检索技术 机器翻译技术,跨语言信息检索技术p.178-188,跨语言信息检索的实现方法 提问式翻译法 基于词典的方法 基于语料库的方法 混合方法 文献翻译法 提问式-文献翻译法

15、 中间翻译法 不翻译法 提问词构造法 专有名词音译法,跨语言信息检索的技术重点,翻译所需语言资源的研究 翻译歧义性的消解 词典方法 语料库方法 交互性系统,第七章 数字图书馆的互操作,数字图书馆中数字资源的互操作,US IEEE的定义 互操作性是指两个或多个系统相互使用已被交换的信息的能力. 互操作还包括信息资源的存储、组织、检索、表示、系统间的通信、系统管理、用户管理及知识产权等问题 P.189-190,数字图书馆互操作问题产生的原因,数字信息资源的组织和结构问题 信息资源数字化中文件的命名问题 元数据问题 信息资源数字加工格式问题 体系结构方面的问题 系统构架问题 p.190-191,实现

16、互操作的协议和标准,Z39.50 OAI 基于XML的元数据互操作 Dienst协议 Emerge协议 P.191-195,数字图书馆异构对象数据库互操作的几种技术,CORBA-公共对象请求代理体系结构 中间件技术 DOM/DCOM p.195-197,OAI示意圖,Z39.50信息检索协议,信息检索协议 ANSI/NISO Z39.50 ISO 23950 客户机/服务器架构, 基于连接进程的(Z连接) Z39.50 维护管理机构 美国国会图书馆 http:/lcweb.loc.gov/z3950/agency/ Z39.50的服务和机制 11种机制与相应服务、服务类型、启动方,Z39.50

17、 是客户机、服务器模式 但称之为源端( Origin)与目的端 (Target),客户机/服务器架构,客户机/服务器架构,Z39.50协议过程,11种机制 p.213-216 初始化机制 搜索机制 提取机制 删除结果集机制 浏览机制 排序机制 访问控制机制 记帐/资源控制机制 解释机制 扩展服务机制 终止机制,基本Z39.50操作示例(最重要的三种服务),Origin Target Initialization Operation Init request Init response Search Operation Search request Search response Present

18、 Operation Present request Present response,Z39.50协议应用模式p.220-223,单层客户机服务器模式 多层客户机服务器模式 广播式查询模式,Z39.83协议 p.223,Z39.83是由美国国家信息标准组织(NISO)制定的有关馆际互借的一种新协议,于2002年正式推出。简称NCIP.(NISO Circulation Interchange Protocol) 两个部分组成 第一部分定义了一系列的消息和相关的语法、句法规则 第二部分详细第一部分的应用细则。用于支持直接联机借阅、流通/馆际互借事务、自助服务流通这三大应用领域。其次也可以用于诸

19、如电子文献资源管理等新出现的领域。,Z39.50 Item Order p.224,Z39.50 Item Order 是基于Z39.50 扩展服务机制来进行文献借阅的一种扩展协议。,Z39.83协议与Z39.50 Item Order的比较 p.225,Z39.83协议支持以下四种馆际互借模式 传统的馆际互借 ISO-ILL馆际互借 NCIP Link 直接运送 Z39.83协议与Z39.50 Item Order相比有如下特点: 有着非常灵活的选项 通过设置典型需求自助服务项目,提高了图书馆员工的工作效率,降低了运行费用 通过多个运送者,可以将用户所需要的书籍直接送到家中 查询界面可以向用户提供各种查询,Q&A,本演示文稿地址: http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1