数字档案馆建设指南---资源建设部分详解解析.pdf

上传人:tbuqq 文档编号:4954691 上传时间:2020-01-19 格式:PDF 页数:17 大小:102.64KB
返回 下载 相关 举报
数字档案馆建设指南---资源建设部分详解解析.pdf_第1页
第1页 / 共17页
数字档案馆建设指南---资源建设部分详解解析.pdf_第2页
第2页 / 共17页
数字档案馆建设指南---资源建设部分详解解析.pdf_第3页
第3页 / 共17页
数字档案馆建设指南---资源建设部分详解解析.pdf_第4页
第4页 / 共17页
数字档案馆建设指南---资源建设部分详解解析.pdf_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《数字档案馆建设指南---资源建设部分详解解析.pdf》由会员分享,可在线阅读,更多相关《数字档案馆建设指南---资源建设部分详解解析.pdf(17页珍藏版)》请在三一文库上搜索。

1、数字档案馆宣贯提纲 一、资源建设的意义 数字档案资源建设是数字档案馆建设的重要组成部分,没有一定规模的数字档 案资源 , 就不能说是真正建成了数字档案馆。数字档案馆建设的目的是为社会查阅 利用档案信息提供更加方便快捷的服务 , 如果说系统平台建设为服务社会创造了条 件的话 , 那么数字档案资源建设就是数字档案馆服务社会的内在要求。没有资源数 字档案馆建设就失去意义。资源建设 也是衡量数字档案馆建设水平的重要指标指 标之一 , 资源规模越大、 质量越高 , 数字档案馆 的地位、服务能力和社会影响力就 越高。 二、电子文件接收 1、接收机制 : 电子文件接收数字档案馆资源建设的主要任务之一。为了保

2、证各单位所形成 电子文件能 依法按照规定的时间和标准移交到数字档案馆, 并保证电子文件的真实 性、 完整性、 可用性 , 首先需要建立起科学、通畅的接收机制。档案行政管理部 门应与电子文件形成单位建立法定或者固定的移交、接收关系 , 从有利于国家、 有利于形成单位、有利于社会大众的目标出发, 为形成单位的电子文件确定归属与 流向。 如同传统档案需经过形成单位档案人员整理归档后才能接收进馆一样 ,电子 文件也应经过形成单位档案人员整理、鉴定、归档,然后系统地向 数字档案馆移交 , 这样一种接收机制是我国档案工作的优势, 也是我国数字档案馆建设的特殊环境。 2、接收范围 数字档案馆接收电子文件的范

3、围与传统档案应基本一致。从单位范围看 , 凡是 党政机关、 人民团体、 国有企事业单位及其他组织机构形成和保存的对国家和社 会有价值的档案 , 都可 列入接收范围。由于数字档案所占用空间狭小, 所以接收范 围可以更大一些。从档案范围看 , 接收电子文件也不仅仅限于电子公文。数字档案 馆建设要充分考虑电子文件的多样性, 将各 种形式、各种类型的有保存价值的电子 文件尽量依法接收进馆 ,包括文本文件、图形文件、图像文件、 音频文件、 视频文 件、 数据库文件和网页文件等, 今后还可能出现新的文件类型。每一种类型的文件 都有其特殊的利用价值 ,数字档案馆应广泛收集各种有价值的电子文件, 丰富自己的

4、数字馆藏。 3、接收时限 电子文件接收时限可分为实时接收和定期接收两种。实时接收是指各单位电 子文件生成 和办理完毕后 ,随时向数字档案馆 (电子文件中心移交的过程。实时接收 可以充分保证电 子文件的时效性 , 便于及时向社会提供电子文件利用服务, 但是实时接收对于电 子文件形成 机制、 档案管理体制和计算机网络要求较高。实时接收一般可以用于 接收统一的电子政务办公系统系统生成的电子文件,以免各单位已归档电子文件出 现丢失。 定期接收是指各单位将整理归档完毕后的电子文件在本单位保管一定时间后集 中向 数字档案馆 (电子文件中心 移交的过程。 定期接收的优点是移交的电子文件 均经过系统整 理,可

5、以保证电子文件的有机联系和系统性、完整性。缺点是实时性 较差。鉴于电子文件对管理和存储条件要求较高 ,接收时限应比纸质档案短 ,以一年 为宜,最高不超过五年。 4、接收途径 电子文件接收途径可以分为在线接收和离线接收。在线接收是指数字档案馆 (电子文件 中心 通过计算机网络接收形成单位移交的电子文件。离线接收是指通 过适当的介质 , 将形 成单位产生的电子文件接收或拷贝到数字档案馆中。两种接收 途径各有长处 , 不论何种接收 方式,都应以安全、高效、准确为原则。从目前来看, 受网络环境限制以及在线办理接收程序不够完备的限制 , 可以离线接收为主 ; 随着 网络环境的发展以及认证程序的完善, 应

6、以在 线接收为主要形式。 5、接收标准 电子文件应经过整理达到标准才能接收。为此每个数字档案馆 , 都应有一套电 子文件整 理、鉴定、归档、管理规范,形成单位应将各种电子文件经过整理加工后 再向数字档案馆移交。 电子文件接收标准涉及的内容很多, 有些与传统档案基本一 致, 如保管期限、 档号编制、 目录编制等。有些则是电子文件所独有的或者应特别 强调的 ,如文件格式、元数据、真实性等。 (1 文件格式 电子文件格式通常有两方面的含义,一是指电子文件的页面版式, 如红头、发文字号、正文、落款、发文日期、印章等。二是指电子文件的制作格式, 如 EXE 格式、 PDF 格式、 CEB 格式、 TIF

7、F 格式、 JPEG 格式、 mp3格式等。从 方便管理和利用的角度讲 , 一个地区或者同一数字档案馆接收的同一类电子文件应 采用统一格式。统一格式有 两种模式 :一种是在各单位形成电子文件时就统一格式, 这需要档案部门和电子政务主管部门强力推行 ; 另一种方式是电子文件接收后, 由 电子文件中心或数字档案馆统一转换某种电子文件格式。 各单位形成电子文件时 就统一格式应是首选 , 但由于各地起点不一样 , 强力推 动形成单位采用统一格式有 一定难度 , 在客观条件不具备的情况下, 数字档案馆也不必非要统一格式才实施接 收,只要是通用的或可以读取的格式,都可以接收。 (2元数据 电子文件元数据

8、是指描述电子文件内容、背景和结构信息及整个管 理流 程的数据。 国家档案局已经发布电子文件元数据方案, 建设新的电子文件管理 系统, 接收电 子文件 ,应采用元数据方案的规定。从实际情况看,除了档案管理必备 的元数据外 ,也可以 逐步规范 ,不一定从一开始就要求完美无缺。 (3真实性、完整性、可用性保证电子文件真实性、完整性、可用性,是电子文 件 管理的重要目标。真实性、完整性、可用性是相对的不是绝对的,受技术和管理 两方面的因 素制约 ,应是一个逐步发展和完善过程。在管理上,要建立科学有效地形 成、传输、归档、保存机制 ; 在技术上 , 可采取电子签名、封装等手段 , 尽量保证 其真实性、

9、完整性、 可用性。 6、组织与管理 为了保证电子文件接收的完整齐全和质量, 档案行政管理部门应加强电子文件 的前端控 制,对电子文件形成后的整理、归档、移交进行必要的监督指导,包括确定 归档范围、推行 整理规范、进行质量检查、开展技术服务等。鉴于我国目前暂时 实施“ 双轨制 ” , 即电子文 件和纸质文件同时保存 , 电子文件归档范围和纸质文件归 档范围基本一致 , 所以对电子文件 和纸质文件实施同步整理、同步归档较为有利。 条件成熟后可逐步取消 “ 双轨制 ” , 有些文 件仅归档电子文件 ,而有些文件仍采用 “ 双 轨制” , 甚至有些只归档纸质文件,例如特殊载 体和特殊形式的文件等。需要

10、特别说 明的是 ,电子文件只是档案的一种形式, 档案法和 有关档案法规同样适用于电子 文件管理。 三、传统档案数字化 1、数字化的意义 : 档案数字化是通过各种设备将不同载体形式的档案转换成数字档案的过程。 传统档案馆 馆藏档案数字化是数字档案馆建设的重要任务, 也是现阶段数字档案馆 资源建设的主要手段和途径。 通过实施传统档案数字化 , 既可以满足数字环境下社 会各方面高效便捷查阅档案得要求,也是现阶段档案抢救和保护的必要手段。 2、数字化内容选择 : 将馆藏全部档案资料都进行数字化加工,既不现实 ,也不必要。无论从社会需求 还是 数字化成本考虑 ,都应该有选择的实施档案数字化。选择应考虑以

11、下因素: 价值性 :优先选择价值较高的、珍贵的档案进行数字化; 实用性 :优先选择社会需求面广、利用率较高的档案进行数字化; 开放性 :优先选择开放度较大的档案进行数字化; 特色性 :优先选择有特色的档案资源进行数字化。 依据上述要素对档案进行数字化加工,应尽量避免与实体档案管理体系完全分 割,一 般来说 ,再遵循上述原则基础上 ,整全宗或整目录的数字化利大于弊。 实施馆藏档案数字化前 ,应制定切实可行的数字化方案。只有充分摸清馆藏档 案状况 , 才能制定出切实可行的数字化方案。数字化方案主要内容应包括档案数字 化的内容和范围、数量以及先后顺序、数字化的形式、技术参数、时间安排以及 经费预算等

12、等。 3、组织加工模式 数字化加工通常有两种组织形式:一是自行组织加工 , 二是委托专业公司加工。 两种模 式各有利弊 ,可根据本地区实际 ,采用适当的加工模式。 (1自行组织加工 自行组织加工就是档案部门自己组建数字化工作室,配备适当的设备和人员 ,实 施档 案数字化加工。档案数字化设备一般应购置普通平板扫描仪、普通高速扫描 仪、 高速扫描仪、 零边距扫描仪 (全息书刊扫描仪和数码照相机等设备。数字化 加工人员包括组织管理人员、前处理人员、扫描加工人员、质量检查处理人员、 后处理人员、数据备份人员等。自行组织加工主要优点如下 :可以培养档案馆自己 的技术人员 , 以便长期开展扫描工作 ; 适

13、当节省数 字化经费 ; 比较容易保证档案的安 全; 可以根据需要及时调整业务目标, 同时也可以对社会开展扫描服务业务。不利 因素有 :购置扫描设备一次性投入较大; 占用档案馆的人力和工作精力较多 ;聘用管 理临时工作人员比较困难;技术和设备更新比较困难。一般来说,馆藏量 较大的档案 馆,可以自行组织加工为主。 (2外包加工 外包加工开展数字化工作 , 就是选用可靠的数字化加工公司, 由加工公司负责提 供设备、 人员、技术等 ,按照档案馆的要求开展数字化工作,档案馆只负责数据的验 收工作。外包加 工有以下几方面优点 :可以节省档案部门的人力 ,使档案人员有更多 的时间开展其他工作 ; 可以确保扫

14、描工作速度 , 迅速建立全文数据库 ; 能够避免购置 设备、 建立工作室等一次性较大投入和设备维护、人员管理等麻烦。缺点主要是 长期大量扫描投入较大 , 档案安全保障不 好把握。 对于档案数量较少的档案馆而言, 外包加工模式比较适合 , 既节约设备投资又保证数字化的速度和质量。开展数字化 外包加工业务 , 都应选择有经验和资质的扫描公司, 最好 在档案馆内部提供扫描场 地, 严格交接手续 , 杜绝档案丢失和泄密现象 , 特别是应防止扫描数据流失。 4、数字化加工方法 (1纸质档案扫描 纸质档案数字化主要技术指标参见国家档案局行业标准纸 质档案 数字化技术规范 ,本指南主要对一些具体操作提出参考

15、意见。 色彩模式 扫描色彩模式包括黑白、灰度、 彩色等。 一般档案可采用灰度模式 进行扫描 , 彩色档案可采用彩色模式进行扫描。 分辨率 对纸质档案采用低精度扫描 (一般为 100-150线 , 即可满足一般用户在 计算机 上浏览、打印 ,避免过多占用空间 ;照片档案数字化 ,设备分辨率和图像分辨 率参数大小的 选择,原则上以转换后的图像清晰完整、不影响图像的利用效果为 准。考虑到照片的展览、出版等用途 ,所使用扫描仪的光学分辨率必须大于或等于 600dpi。若在网上发布 ,可以另 行压缩。 图像处理 对方向不正确的图像应进行旋转还原, 以符合数字图像的浏览习惯。 对出现 偏斜的图像应进行纠偏

16、处理。对扫描或转换后画面质量不理想的图像, 应进行 相应参数的调 整,如亮度、对比度、饱和度、色阶、色彩平衡等,调整所选择的参数 类型和力度 ,以调整 后的图像不失真、效果最清晰完整为准。为保证档案数字化图 像的整体性 , 对大幅面的档案 进行分段扫描后 , 再通过拼接处理合并为一个完整的 图像。 对扫描或转换后的图像应进行裁边处理 ,去除多余的白边 ,以有效减少图像文 件的容量 ,节约存储空间。 图像存储 扫描后的图像以 TIF 格式存储。 每一份档案都有一个与之相对应的 唯一的档 号,以档号命名转换后的图像文件。档号的命名格式应符合规范要求。档 号命名后 ,可按照 目录数据库中的档号组成项

17、分级建立图像文件夹。各级文件夹建 议采用对应的档号组成项命名,以保证图像的文件名与目录数据库中档号的一致性 和唯一性 ,建立起一一对应的关系 , 为实现目录数据库与图像文件的批量挂接提供条 件。 数据质检 扫描完毕后应及时开展图像数据质量检查。发现图像不符合质量要 求时, 重 新进行处理。发现扫描转换有遗漏时,应及时补充。质量检查完毕后应当及 时进行登记。 数据挂接 档案数字化转换过程中形成的目录数据库与图像数据库, 通 过质检环节确认 为“ 合格” 后,及时加载到数据服务器端汇总。通过编制程序或借助 相应软件 ,实现目录数 据对相关联的数字图像的自动搜索、加入对应的电子地址信 息等,实现批量

18、、快速挂接。数据备份 经验收合格的完整数据应及时进行刻录备 份。 为保证数据安全 , 应使用不可 擦除型光盘备份三份 , 其中一份异地保存。备份 完毕后 , 应现场监督扫描方将存储于扫描计算机中的数据物理删除 ,以防档案外传。 (2缩微胶片转换 缩微影像是指采用缩微技术将档案资料拍摄到缩微胶片上生成的模拟图像信 号。 缩微胶 片有正片、负片、 Auto、反极性四种可选 ,我国档案部门通常采用的缩 微胶片为负片。缩微胶片具有体积小、保存时间长、具有法律凭证作用等优点,但 其阅读、传递比较困难。缩微影像数字化就是利用缩微胶片扫描仪将卷式胶片、 平片等缩微胶片上的缩微影像, 转换成数字形式并存储到计

19、算机中的过程。缩微影 像数字化必须使用专用设备开展, 转换过 程中只要严格按照设备使用手册操作,基本 能够得到比较理想的数字图像。下面以 MS7000缩微胶片扫描仪简单说明缩微影像 转换的基本操作。 扫描方式 :扫描方式有对中扫描、双幅扫描、左幅扫描、右幅扫描、全屏扫 描、单支 票扫描、 双支票扫描等方式 , 不同的扫描方式对应不同的尺寸和扫描区 域。 对于档案缩微胶片而言 (16或 35MM 卷片 ,一般采用 “ 对中扫描 ” 。 分辨率 :该设备有多种分辨率可供选择。质量比较好、档案原件在 A4 以下采用 低缩 率拍摄的缩微胶片一般采用 200dpi,档案原件幅面较大、采用高缩率拍摄的缩

20、微胶片一般 采用 600dpi,其它的可根据具体情况适当调整。 图像选择 :缩微影像转换分为低对比、高对比、黑白、图像四种。低对比包含 少量的 灰度信息 ;高对比只包含黑、白两种像素,小的斑点将被去除 ,这种设置将创建最 小的图像 文件;黑白方式只包含黑、白两色;图像方式包含最丰富的灰度层次。对于 字迹比较清楚的 档案文献采用 “ 高对比” 方式进行转化即可获得比较理想的图像, 其它的可根据具体情况进行选择。 压缩方式 :分为不压缩、 G3-1D、 G3-2D、G4-2D 四种。 G4-2D 为最常用的压 缩方式。 正常情况下 ,一台缩微胶片扫描仪每天可以转换 3000左右个缩微影像。采 用缩

21、微胶片扫描 仪对缩微影像进行转换时 , 应确保将转换后的图像文件实时存储到 计算机硬盘上 , 并定期转 存到网络上的其它计算机中,以便图像的安全保存。 (3模拟信号磁带数字化 各级国家综合档案馆的多媒体档案信息,有一部分随着时间的流逝 ,使用次数的 增加, 加之保管条件的不理想 (特别是温度、湿度的作用 ,已经面临难以读出。有些 超过 10年的 录音、 录像磁带已经很难还原。一些非标准的录像磁带的读出设备 已经很难找到 , 使馆藏磁 带声像档案面临着作废的局面。因此,应利用多媒体数字技 术,把录音、录像磁带转录成数字音视频文件保存并提供利用。 A. 录音档案数字化 录音档案数字化比较容易实现,

22、 主要硬件包括放音设备、转换设备、 计算机和 存储设备 等, 可以使用的软件比较多 , 用户可自行选择使用。其中放音设备和转换 设备声卡应具 备较高质量。具体操作流程如下。 前期准备 包括制定工作计划 ,查验录音磁带的质量状况,按照播放时间计算出数 字化 所需的磁盘空间 (按照每分钟 10M 计算等。 数字化参数设置 一般情况下选择 “44100 Hz,16 Bit, 立体声 ” 。 数字化 打开放音设备的放音按钮, 同时在数字化程序中启动采集按钮; 监听录 音带采 集过程,等到确定采集结束 ,按下停止采集按钮结束采集。 存储 数字化后存储格式应为 WAV 或 MP3。重新命名采集的文件名 ,

23、一般采数 字化序默 认文件名为三位流水号 ,应将采集的文件名改为录音带的档号+A/B( 表示 A 或 B 面 。 质量检查 检查形成的文件是否可以正常播放。如果录音带 A、B 两面 都有内容 ,应将 两个文件合并形成一个文件。 刻录保存 将处理完的文件进行刻录光盘保存。同时删除计算机中的临时文件, 确保信 息不扩散。 编写文件说明 即对刻录好的光盘进行著录工作, 编写文件说明 , 并打印光盘封 面和封 底。著录内容一般包括全宗号、目录号、原盘号、文件号、光盘号、光盘 类型和文件题名、责任者、时间、地点、录音长度、制作日期等。 入库保存 将完成数字化的录音带和已经刻录好的光盘归库保存。 B.录像

24、档案数字化 录像带档案数字化设备主要包括放像设备、视频采集计算机、编辑机、 存储 设备以及相 应的采集软件和编辑软件等。其中放像设备要求能够满足录像带的规 格和型号 ,比如 VHS、 SVHS、BVU 等,一般应选用高清晰播放设备;视频采集计算 机要求配置较高 ,包括视频采集 压缩卡、 回放卡和较大硬盘存储空间。由于录像带 数字化实际就是声像信息采集的过程, 即 通过硬件设备把模拟信号转换成数字信号 保存到计算机中 , 因此, 声像采集过程是保证数字影像质量的关键环节 , 采集声像信 息所使用的采集卡是至关重要的设备。目前市面上的采集卡种类较多 , 档次功能高 低不一 , 应根据需要合理选择。

25、一般情况下 , 可以选择最高 10MB/S 码流,多种接口 的 MPEG2 采集卡。 录像档案数字化主要流程与录音档案数字化流程相似, 但其存储格式的选择需 要根据实 际情况而定。目前较为常用的存储格式是 M-JPEG 格式和 MPEG-2 格 式。M-JPEG 格式是针对 活动图像而优化的 JPEG 压缩名称。由于数据量成倍减少, 降低了存储成本 ,提高了传输速 率, 且能够满足数字非线性编辑系统, 所以被成功的 应用于数字视频系统中 ; MPEG-2 是 MPEG 的第二个版本 , 由于它是作为一个国际 标准来研究制定的 , 所以具有很好的兼容性。并且其 压缩算法更合理 , 因此在压缩 存

26、储空间的同时 , 图像损失很小 , 保证了数字化的质量。所以, MPEG-2 存储格式实 际上已经成为目前保存数字影像比较合适的选择。 (4Ocr 识别技术应用 OCR 意译为 “ 文字识别 ” , 即利用计算机软件自动识别规范字体或者扫描的图像 信息并 转换成可修改的文本模式。目前国内汉字识别软件对近三十年的档案文字 识别率较高。 对于 一些手写的档案文件、带有繁体字的档案文件、有表格的档案 文件, 其正确的识别率远远达不到要求。 通过 ocr 识别技术形成的数字档案, 给编辑带来方便 , 但真实性打了折扣。目 前还有一 个解决方案 ,即双层 PDF 解决方案。该方案是指将档案文献扫描后,生

27、成 可以检索的 PDF 文件,这个 PDF 文件是双层的 ,上层是原始图像 ,下层是识别结果 ,这 样可以保留原始版面效果,并且支持选择、复制、全文检索等功能。对于一些有特 殊利用价值的档案 ,如果能够 利用 OCR 识别技术将数字图像转换成文本模式,确实 非常方便。但用于检索时,冗余太多 , 远不如根据档案的目录数据检索快捷方便。特 别是随着 OCR 识别技术水平的提高 , 技术方案 的越来越完善 ,相信 OCR 技术将会 发挥更大的作用。 (5数字翻拍 利用数码相机翻拍实现档案数字化, 也是档案数字化的途径之一。尤其是大幅 档案文献 , 翻拍是最节省、最有效的数字化方法。 四、资源整理 1

28、、资源分类 数字档案资源分类是资源管理和提供利用的重要基础。我国传统档案整理过 程中已经形 成一整套分类体系 ,可以直接运用到数字档案管理中来。例如按全宗(立档单位 整理,同 样适用于数字档案。一个单位形成的全部档案有其内在的联系, 按全宗整 理数字档案 , 不仅 便于管理 ,而且也是数字档案检索利用的重要途径之一。按照档案 性质或者形式进行分类 , 也是传统档案管理中比较有效的分类形式, 同样可以运用到 数字档案管理中来。例如将档案 分成明清档案、 民国档案、 革命历史档案、 建 国后档案 , 将资料分为图书资料、报纸、 杂志、 地图等 ,既具有管理意义 ,又具有检 索意义。至于按照档案分类

29、法和图书分类法对档案和图书资料的内容进 行分类 , 赋予相应的类名或分类号 , 从实际需要来看也是有意义的, 但因其工作量浩 大, 尤其在计算机强大的检索功能面前, 分类检索的优点显得微不足道。所 以,目前 数字资源分类主要考虑资源管理上的需要,也可兼顾资源检索利用的要求。 2、价值 鉴定 档案价值鉴定在我国已经有了良好基础, 数字档案资源也应严格按照国家档案 局 8号令 确定文件材料归档范围和保管期限规定实施价值鉴定。鉴于数字档案保 存上优越性 , 在有效 防止信息垃圾的基础上 , 适度扩展归档范围和延长保管期限也 是可以的。 对馆藏档案数字化过程中的价值鉴定 , 可以按照扫描鉴定从宽 ,

30、发布鉴 定从严的原则处理 , 防止草率的以特定时期、 特定人员的眼光否定某些档案的价值, 尽量保持已有档案全宗或者目录数字化的完整性。 3、开放鉴定 (1鉴定等级标准 开放鉴定是一项政治性、专业性很强的工作 , 必须制定和准确把握相关标准和 政策。 过 去档案鉴定通常划为 “ 开放” 和“ 控制使用 ” ( 即不开放两部分。在网络时代, 每个档案 馆几乎都同时拥有局域网、政务网、公众网,有的还有保密网。不同的网 络存储和管理不同的资源 ,面向不同的用户群体 ,且同一网络也要面向具有不同权限 的用户群体。因此 ,简单 地将档案划分为 “ 开放” 和“ 控制使用 ” 已经不能满足要求了 , 需要针

31、对不同的网络和不同的用户群体提供与其权限相应的档案信息。例如,可根 据数字档案信息管理和利用的需要, 将数字档案可划分为三到四个等级。 A 级 (限 制级 是指需要保密的档案 ; B 级 (次限制级 不宜开放但不保密的档案;C 级(内部级 是指可依申请开放 (或向特定单位和特定人员开放的档案。 D 级(开放级是指可依法 公开的档案。至于划分三级还是四级,可根据网络 平台的实际情况而有所区别。 针对数字档案信息资源来源广泛, 种类繁多 , 在组织实施档案开放鉴定时, 既着 眼于保 护国家秘密 , 又要综合考虑隐私保护、知识产权保护等几个方面的因素, 形 成新的鉴定理念。随着党政机关、企事业单位在

32、处理公众事务过程中形成的大量 “ 涉及人 ” 的档案 (如婚姻档 案、出生档案、学籍档案、公证档案、诉讼档案、纪检监察档案等等接收进馆, 隐私保护 成为数字档案鉴定的重要内容。另外, 近几年随着档案来源和资源结构的 变化, 许多档案 (如 照片档案、音像档案、科技档案、手稿档案等许多是具有知识 产权的。保护知识产权 ,也 是档案鉴定地新的思考点。 (2鉴定的方法 传统档案开放鉴定工作是以案卷为单位进行的,该卷档案全部内容都符合开放 要求时 , 整卷档案才能确定为开放 , 这种鉴定模式不适用于数字档案开放利用。数 字档案的开放审查工作, 应以单份文件为单位 , 不论是开放还是控制 , 都是针对特

33、定 文件, 相对而言更加准确 , 更加符合实际。但面对海量档案文件,档案开放鉴定任务 十分艰巨。为了既保证鉴定质量, 又提高鉴定效率 , 可运用计算机辅助开展档案开放 鉴定。 即利用计算机快捷检索和批量处理功能, 结合人工分析判断 , 对某些数字档 案信息开放等级进行批量标注。例如首先通过检索系统将带有密级的文件检索出 来, 再结合成文年代人工判断其是否已解密, 若还在保密期限 或仍需控制使用的 , 则 利用批处理的方法 , 将这些文件级条目全部赋予限制级标识符号; 对 非秘级档案 ,则 可通过主题词、分类号、关键词进行模糊检索,将具有共性的档案集中起来加以判 断,譬如通过 “ 民主生活会 ”

34、 这个关键词检索出一系列有关“ 民主生活会 ” 内容的文 件 条目,然后浏览一遍 ,判定确实是限制级的 ,即用批处理的方法 ,将这些条目全部赋予限 制级标识符号 ,属于与其他级别的 ,则赋予相应级别的标识符号。对不具共性的档案, 再逐 一审查和标识。对于少量的、主题模糊无法进行批处理的档案,同样进行逐条 审查,并一一 标识。 对于需要通过阅览全文才能确定开放等级的, 则可以通过链接 直接打开全文 , 依据档 案全文来确定开放等级。凡是划为开放级的、需要发布到互 联网档案 ,所以必须阅读全文 , 结合全文内容确定开放等级。对于敏感性档案,如 “ 文 革” 等政治运动的档案 ,要分门别 类、具体分

35、析、区别对待;对于难以把握和判定的 , 如涉及党和国家方针政策、涉及知识产权保护和个人隐私内容的 ,应当认真分析判 断。 (3发布审批机制 在网络上发布数字档案信息, 是一件严肃的工作 , 应在健全审查机制的基础上, 建立起 数字档案信息发布审批机制。凡是在公众网和政务网发布的数字档案信息, 都必须办理审批 手续。 五、资源数据库 数据库建设是数字档案馆建设的核心,数据库建设的效率与质量,也是衡量数字 档案 馆建设的重要标志。数据库从不同角度可以划分为很多类型, 所管理的资源数 据主要分为结 构化的数据 (如元数据或目录数据和非结构化的数据(如文本、图像、多媒体 等 。 结构 化数据在数字档案

36、馆中具有非常重要的作用, 数字档案馆对信息的管理 一般是从结构化数据 (即目录数据 开始。 结构化数据与非结构化数据的关联由业 务软件系统来协调 , 对底层的 存储管理交给操作系统和数据库系统完成就可以了。 数字档案馆常见的数据库形式主要有: 1、案卷级目录数据库 案卷级目录数据库反映的是馆藏各个时期和各种载体档案的基本情况。手工 管理档案时 期, 案卷目录是档案检索的主要工具, 在数字档案馆中 , 案卷目录的检索 意义已经基本消失 , 而主要发挥其对传统档案的辅助管理。既然发挥管理作用 , 那 么在案卷级目录数据库建设过程中,应确保案卷目录和档案实体一一对应,即馆藏有 一卷档案 (包括专门档

37、案、音像档案等 ,就要有一条案卷目录与其相对应。 2、文件级目录数据库 文件级目录是案卷级目录的延伸, 是对案卷内每一份文件的精确著录。文件级 目录数据 库是数字档案检索利用的基础, 是数字档案馆建设的最重要的数据库之 一。 文件级目录数据采集主要有两条途径。一是进馆单位已经建立了文件级目录 数据, 应在接收实体档案的同时 , 将目录数据进行处理后采集到数字档案馆的数据库 中; 二是对馆藏档案进行著录, 将文件级 目录输入到数据库中。文件级目录数据库 是档案文件检索利用的主要途径, 因此文件级目录 数据库的质量对数字档案检索利 用非常关键 , 也可以说它是数字档案馆建设成败的关键。无 论采用那

38、种数据采集方 式, 都必须确保数据的准确性。数据的任何差错 , 如数据格式不统一、字符的出 入、拼写错误等 ,都会造成数据检索的失败 ,甚至造成用户对数据库的否定。目前, 对目录数据质量控制主要包括双机实时录入和质量检查两种办法。双机同时录入 就是利用计算机网络和数据录入系统, 由两台计算机同时录入一条文件目录, 利用数 据录入 系统对数据字段的校错比对功能, 检查数据录入的准确性。一旦发现错误 , 则要求重新输入。这种录入数据的办法 , 优点是数据质量比较高 , 但是录入速度相 对较慢 , 对设备资源和人力资源造成了浪费。数据检查(抽查办法是录入人员各自 进行数据录入 ,然后由质量检查人员进

39、行检查。 具体做法是经过一定著录培训的录 入人员直接在计算机上进行文件著录, 检查 人员利用计算机网络和检查程序,随时检 查录入的数据。 档案文件级目录数据库包括立卷改革前按卷管理的文件级目录数据库和立卷改 革后以 件为单位管理的文件级目录数据库。一般情况下全宗号、目录号、案卷号 组成的档号 ,代表 唯一的档案。 案卷的档号再加上文件在该卷档案内的顺序编号, 则组成了文件的档号 , 即全 宗号-目录号 -案卷号 -卷内文件序号 (所在张页号 。 对于 立卷改革后的归档文件 , 由于取消 了案卷 ,其档号一般由全宗号、类号、年度、保管 期限、件号 (件内序号组成。在一个国家综合档案馆内 ,档号应

40、当能够唯一确定一份 文件。 档号在文件目录数据库建设中起着至关重要的作用。首先, 它将单一的文件和 保管文件 的案卷有机的连接起来,确保某一份文件必须属于某一案卷;其次,它唯一确 定一份文件。 如果出现重份文件的话,则重份文件也应当有一个不同的唯一的档 号;第三,文件档号还能确保文件目录和文件内容(全文信息)一一对应,为检 索全文信息奠定重要基础。因此,文件目录数据库建设除应遵守档案著录规则要 求外,对档号应作一些特别限定。 3、人名索引数据库人名索引是指将档案中涉及 的人名及其简要情况著录下来,向利用者提供以人名为线索的一种查找性检索工 具。 人名索引从体例上可分为综合性人名索引和专题性人名

41、索引,目前 档案馆编 制的主要是专题性人名索引。专题性人名索引,是以馆藏全部档案或若干全宗档 案 为著录对象,按单份文件将某一专题涉及到的人名都著录下来,组成任免、奖 惩、职称、离 退休等专题人名索引,以满足利用者需求,达到查找准确、迅速的 目的。 人名索引数据库是数字档案馆重要的数据库之一,它与档案文件级目录数 据库既有联 系,又有区别。首先,人名索引数据库产生于档案文件,是将档案文 件中有检索意义的人名逐一摘录出来,形成了以人名为主要检索手段的目录数据 库;其次,档案文件目录与档号是严格的一一对应关系,是一种正排关系,即一 份文件必须对应一个档号。而人名索引数据库是人名与档号的倒排关系,即

42、多个 人名可以对应一个档号;第三,人名索引数据库是档案文件检索利用的非常有意 义的补充。 就目前档案检索利用来看,以人名检索某一份文件非常普遍,如职务 任免、个人荣誉、就工就业、知青信息、婚姻信息等等;第四,人名索引数据库 中的人名可能出现大量的重复,但这种重复是有价值和检索意义的,它与同一份 文件出现在 不同的全宗中的重复是具有完全不同的意义。人名的重复可能是重名 但内容完全不同,也可 能是同一个人名重复但内容完全不同,这种重复是允许和 有意义的。 人名索引数据采集的渠道有很多。对于一般意义的文书档案而言,包 含了大量的关于职务任免、个人荣誉等人物信息。有时候一份文件能够包含大量 的人物信息

43、,如关于干部任免的文件,通常可能出现几个甚至几十个人名,这就 需要对这些文件既著录文件级目录,同时又要把任免的人名逐个录入人名索引数 据库中;对于一些专业档案,如婚姻档案、知青登记档案、就工就业档案、诉讼 档案等等,这些档案主要是关于人的相关信息。对于这些档案,一般情况下,只 需建立案卷级目录,其文件级目录可以由人名索引代替,即以人名作为检索利用 的主要手段;对于照片档案、多媒体档案中出现的有检索意义的人名,同样应当录 入人 名索引数据库中,以便统一检索利用。考虑到档案文件中出现的人名主要是 某人在工作生活中需要记录的和将来可能查考的事情,其可以摘录的信息主要是 姓名、事由(文件题名)、时间、

44、相关单位、地点和所在档案的档号等内容,因 此其数据库设计没有必要包罗万象,只要能够说明该人物身上发生的事情即可。 人物信息录入数据库时,可以不考虑人名是否重复等问题,将来可以借助计算机的 排序功能将相同的人名排列在一起,检索利用时根据事由(文件题名)、时间、 相关单位、 地点等项目去查阅相关的档案即可。 4、专题目录数据库 档案专题目录数据库是从档案基础目录数据库中筛选出来 的, 或者直接著录某些专门档案而产生的具有共性的档案目录数据库。它是数据 分析、整合的产物,是档案目录数据提供检索利用的最佳方式和最有效手段。 (1) 专题目录数据库产生于其它档案基础目录数据库,一般通过计算机软件程序 经

45、过 , 人工干预自动生成。也有对某些专门档案直接著录产生的专题目录数据 库。 (2)专题目录数据库应当是文件级目录数据的集合,它通常按照档案资料、 照片、多 媒体以及人名索引等目录分别组织建立,也可以是上述几种目录的综合 专题。 (3)专题目录数据库一般按照以下流程来建立:确定专题名称,分析并列 出该专题包 含的主要内容,著录或者检索出所有的目录,分析筛选目录,在数据 库中标注专题标志或者导出建设新的数据库。 5、内容数据库(原文数据库)数 字档案馆内容数据库是数字资源管理的主体,内容数据通常表现为非结构化数据, 不方便用数据库二维逻辑表来表现,如文本、图片、 XML 、HTML 、各类报表、

46、图 像和音频 /视频信息等等。从方便管理和利用、软硬件有效配置、资源安全等角度 考 虑,应分别建立以管理不同档案内容数据的内容数据库。按照档案内容和形式 特点,可 划分为电子文件数据库、扫描文件数据库、照片数据库、多媒体数据库 等。电子文件多为文本文件,所占空间小,内容易于编辑,与形成单位联系密 切,可建立单独的数据库(电子文件中心) ,依托政务网构建较为有利。扫描文 件数据多为馆藏档案数字化转换而成,存储格式比较统一,可以建立扫描文件数 据库;照片数据和多媒体数据各自有独特的存储格式,占用存储空间相对较大, 管理方法也有特殊要求,宜分别建立照片数据库和多媒体数据库。这种划分不是 必然的,数字

47、档案馆建设可按照资源数量、设备条件、用户需求等,建立符合实 际的档案内容数据库。 6、数据仓库 数据仓库是对基础数据进行重新设计、编辑 所获得的新的数据库。主要承担优化检索的计算任务。数据仓库中的数据主要来 自基础数据库,由数据抽取工具经综合集成处理而成,数据根据一定的主题经过 二次加工形成, 是面向数据利用而建设的。数据仓库可以叫做系统的搜索引擎数 据库。 数据仓库中的数据可能来自基础数据库中的一个或多个数据表,而且可 能 是其中的一个或多个字段,源数据表的结构可以是异型、异构的,例如:数据可能 来自档 案、 资料等不同数据库。数据仓库数据是为检索而生成的,比基础数据库 中的数据更加规范、简洁,例如:只保留信息关键字,录入人、录入时间等为系 统管理而设定的字段不再出现。另外, 这些数据一经形成具有一定的稳定性。数 据仓库对底层基础数据库中的数据进行集成、 转换和综合,重新组织成面向利用的数据集,从而实现了对数据的整合。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1