网络级知识发现服务的功能分析及问题探讨.doc

资源描述

《网络级知识发现服务的功能分析及问题探讨.doc》由会员分享，可在线阅读，更多相关《网络级知识发现服务的功能分析及问题探讨.doc（5页珍藏版）》请在三一文库上搜索。

1、网络级知识发现服务的功能分析及问题探讨*本文系江苏省高等学校数字图书馆三期工程2011年数字图书馆前沿理论预研类项目“图书馆知识发现服务的研究探讨”（项目编号：JS2011-21）研究成果之一杨会汪荣（南京航空航天大学图书馆江苏南京 210016）摘要：本文介绍知识发现服务产生的背景和系统的体系架构，结合目前主流的知识发现系统在图书馆的实践应用，分析了知识发现服务的核心功能，提出了知识发现服务系统存在的问题，为图书馆知识发现服务系统引进及应用开发提供一定的参考依据。关键词：知识发现；资源发现系统；元数据；Primo；Summon；EDS 中图分类号：G252.71 发展背景信息技术

2、的迅速发展和广泛运用，带来了信息资源数量的迅猛增长，“数据海”替代“数据库”，恰如其分地描述了数字资源庞大的规模。丰富多样的信息集合，既为广大用户带来了知识的盛宴，也为他们有效获取信息造成了困扰。作为信息服务机构的图书馆如何集成各类学术资源，提高信息的发现度和获取度，满足用户全面、有效、便捷获取信息的需要成了当务之急。近年来，图书馆一直在探索数字资源的整合之道，寻求一站式资源揭示与发现的解决方案。其主要的资源整合形式有：以纸质资源为基础的OPAC系统资源整合，资源导航形式的数字资源整合，基于跨库检索方式的数字资源联邦检索系统。随着资源整合从形式到内容的不断深入，资源揭示的深度、速度及检索结果的

3、直观呈现和关联分析等需求也日渐凸显；同时，开放和协作渐成趋势，数据本身的规范和支持数据交换的协议也日渐成熟，更多的出版商愿意通过协议开放共享学术资源信息，于是，基于元数据预索引方式的知识发现服务系统应运而生。知识发现服务系统是汇集出版商、大学、信息机构及网络各类异构学术资源，形成元数据仓储，经过数据规范、挖掘与分析，建立预索引集合，为用户提供快速、简单、易用、有效的资源发现与传递服务。2009年1月的ALA(American Library Association)年会上，Series Solution公司宣布即将发布全球第一个网络级资源发现系统Summon1。随后，OCLO推出WorldCa

4、t Local，2010年1月和6月，EBSCO的EBSCO Discovery Service（以下简称EDS)和Exlibris的Primo Central (以下简称Primo)相继发布。截止目前，全球范围内使用网络资源发现服务的图书馆已达2000余家2。2 系统架构知识发现服务系统是将分布、异构的海量资源进行集合、整序、分析和发现，并实现有效提供的过程，是对知识的挖掘、重组和再创造服务。其系统的基本体系架构分为四个层面，如下图所示：图发现系统体系架构2.1 数据资源层知识发现系统实现服务的基本方式是通过元数据的聚合、映射和重组，实现知识的挖掘与发现。因此，数据资源是发现系统最基础层

5、级，发现系统通过与出版商或内容商签订商业协议，以开放API、Web Service或者集中性获取等方式，收集形式多样、结构异同、数量庞大的数据资源。集成数据的数量、质量及对学术资源的覆盖度奠定了发现服务系统的基础。2.2 资源组织层资源组织是发现系统对多来源异构海量数据进行规范化处理的过程。系统需确定元数据格式，对收集的数据进行内容比较，通过去重、合并及内容补充等处理，保证元数据的品质；同时，通过搜索引擎针对规范化的元数据进行快速索引，建立不同属性的规范词表，以实现用户分面查询和结果关联。资源组织层实现了异构资源有序化的转换。2.3 知识发现层知识发现是从数据集中识别出有效的、新颖的、潜在有

6、用的、以及最终可理解的模式的非平凡过程。知识发现将信息变为知识，它将为知识创新作出贡献3。发现服务不仅是对基本数据的简单映射和显性资源的揭示，网络级发现还需从用户多角度需求和知识信息的关联度出发，对多来源资源进行定向的数据分析、挖掘和管理，动态地利用分类、聚类、关联分析及序列模式等数据挖掘方法，从数据库中发现新的模式、知识和规则，以预测规律，最后对新发现的知识进行一致性、效用性处理，并存放到知识库中4，建立数据库与知识库之间的对应关系，挖掘数据库中数据子类结构的层与挖掘知识库中知识素结点间的一一对应关系，从一个特定角度揭示知识发现的潜在规律与复杂性5，实现内容知识的智能化发现和扩展。2.4

7、应用服务层应用服务层是系统与用户交互并实现服务的最上层级。它包括检索结果展示、关联知识获取、个性化服务、平台监控与管理、应用服务接口等。结果展示表现为对用户发出的需求指令，通过多角度、多层次数据匹配与内容关联，有效的进行展示。其展示方式分为：简洁易用的分面展示，借助Web2.0技术的灵活多变的个性化展示，以及直观形象的可视化展示。此外，资源信息的有效关联，知识内容的引用分析，以及用户特定需求的深度分析及定向推送也将在应用服务层体现。系统日志分析、数据备份、安全监控及扩展性接口等也是应用服务层的重要内容。发现系统的服务一般采用两种模式：云服务模式和云服务与本地部署并举的模式。云服务模式是以Saa

8、S(software sa a service)的方式，所有服务及数据部署在云端，通过租用形式获取服务。云服务与本地部署并举的模式，是部分自建数据（或特色数据）部署本地服务器，并与云端数据交互提供服务。3 发现服务系统核心功能分析3.1 检索界面知识发现服务突破性的成就就是检索界面的简单、易用、友好，它汲取了Google一框式检索界面的优点，迎合大众用户的普遍检索习惯，检索界面还可根据用户的不同需要进行定义和设计。目前主流的三大发现系统：Summon、EDS、Primo都不无例外的以直接明了的一框式界面呈现；与此同时，EDS、Primo还保留了传统图书馆选择检索方式的痕迹及高级检索的模式，如：

9、中山大学使用EDS发现系统，在单一检索框下，抽取了关键词、题名和作者三个常用途径6；而清华大学、上海交通大学使用的Primo系统，则以文章、图书、学位论文、多媒体等不同文献类型形式在检索框中提交检索需求7 ，发现系统检索界面还保留检索词的历史记录，进行输入显示，方便用户快速查询。总之，发现系统检索界面最大的特点是：简单易用，方便友好，满足网络环境下用户的使用习惯。网络级发现服务系统在检索过程中，分面导航则是其又一显著特征。分面导航能够引导用户逐级精炼和缩小检索范围，发现相关度高的检索结果；常用的分面项包括：资源类型、分类、主题、时间、作者、语种等等。分面结果的呈现与元数据的质量和知识内容的分析

10、挖掘有密切的关系，分面质量关系到知识发现的准确性和粘合度，不同的发现系统在分面制订中也有不同的特点，如：是否提供同行评议期刊，是否包含报纸文章，是否显示馆藏书目结果，是否获取全文，等等，Summon系统还提供了在精炼结果中的二次检索。当然发现系统的分面一般可以按照图书馆提出的要求进行本地化定制。此外，运用Web2.0技术的用户交互式体验和资源对象间的有效关联在检索界面也有不凡的体现。3.2 检索排序在广州大学城开展的一项关于发现系统的调研表明：检索结果的相关度排序被用户认为是最有用的功能8。网络级知识发现，以其简单的需求提请，全面完整的资源获取而获得用户的赞誉。但是，数量庞大的检索结果如何为用

11、户有效利用，是发现系统面临的又一关键问题。目前主流的发现系统在检索排序方面都有很好的解决方案，相关性排序是最常用的排序方法，发现系统通过元数据字段权重、词语出现频率、关键词优先顺序、学术价值评定等各个方面，将用户检索请求与知识库内容信息进行分析比对和匹配，寻找内在和潜在的规律，按照知识内容的相关程度逐次展示。不同的发现系统在相关性排序上，还有各自独特的方法，如：EDS系统运用“受控词汇的主题词表”，以词表主题词优先的原则，保证检索需求的准确发现；Primo系统则申请了相关性排序技术专利ScholarRank-TM9，通过记录内容跟检索式的匹配程度，以统计数据以及论文的被引情况为依据的学术价值评

12、分，读者的学历、专业及研究方向等个人信息三个方面进行评价，确定检索结果的排列顺序。此外，按照时间、题名、作者排序也是发现系统排序的主要方法，Primo系统还通过分析用户行为习惯和使用规律，按照受欢迎程度、流行程度进行排序，独树一帜，效果良好。3.3 资源的覆盖度网络级资源发现系统是建立在海量元数据基础上的知识全面获取，目前几大发现系统元数据规模都在数亿条之多，其资源的覆盖率，特别是学术资源的覆盖度情况，我们应该从两个层面理解：一是对本馆资源的覆盖度与融合度，包括印刷型资源和数字型资源，馆藏本地资源和远程访问资源，这部分资源是图书馆核心资源，是用户可以直接获取的重要资源，据目前几大主流发现系统

13、的使用情况看，外文电子资源，特别是外文期刊都能够很好的覆盖，覆盖率甚至超过95%，但索引类数据库资源，如：EI、INSPEC、OCLC Firstsearch等覆盖情况不尽理想，各个发现系统都有不同的缺失；中文资源数据，由于中文资源提供商对数据的封闭性，国外几大发现系统对中文资源的整合上都有所欠缺。同时，在对本馆资源全面覆盖的基础上，还需与本馆ILS系统中OPAC进行有效整合，提供馆藏信息链接，直接调用OPAC模块功能，呈现馆藏位置、实时流通信息等，Primo系统更是进行了深度的整合，实现了预约、续借、写评论、加标签、提供个人空间服务。二是对网络信息资源发现与传递获取，这部分资源包括本馆之外的

14、各学术机构资源、集成OA资源和网上免费资源等，不同的发现系统集成的资源各有侧重，作为图书馆的服务，应该更加关注学术资源的集成和覆盖，这部分资源可部分提供全文，或以发现为指向，通过文献传递、馆际互借及推荐购买等方式获取原文。 3.4 知识的关联与分析知识发现是一个系统化过程，这个过程的实施是对大量的数据库、数据仓库或知识库进行分析处理，进而深层挖掘，寻找数据间潜在的关联模式、规则、趋势等知识。网络环境下用户的知识需求正是希望通过图书馆的知识服务直接获取全面的知识内容和知识关联，要求提供知识密集度高的知识服务产品，同时还要求图书馆针对他们的具体专业提供全方位的知识信息保障10。目前，知识发现系统在

15、知识分析与关联方面进行了以下尝试：一是文献本身信息的糅合，如在图书信息中，通过与网络图书封面、摘要、目次及网络书评等信息的关联，实现了图书详细信息的无缝集成。二是构建以检索信息为核心的知识网络，实现引文关联，知识元引用关联，相似文献关联，概念关系词关联等等；同时，分析知识元涉及研究领域的作者信息和相关合作者，以及期刊、会议、文章等不同文献之间的关系，为用户提供全方位的知识内容信息。三是通过海量数据聚类学科，进行学科趋势的分析，提供学科发展的基本脉络和走势，并以可视化方式直观呈现，为用户了解不同时期学科研究热点与发展方向提供重要信息。3.5 系统的开放性和可扩展性发现系统的开放性源于几个方面的

16、考虑：首先，系统基础框架中多来源元数据的获取需要系统良好的开放性，以保证元数据的全面获取。其次，发现系统实现的统一资源发现、文献多渠道传递及个性化服务等多元立体服务，以及面对未来需求的新变化，需要系统的开放拓展。最后，是图书馆特定应用服务功能的开发与实现，发现系统体系架构是开放的，提供多种规范的API接口，图书馆可以根据需求集成其他系统，并进行不同程度的二次开发，提升用户的使用体验，开展特色化服务。清华大学图书馆利用Primo Certral中的元数据，开发了基于海量数据的学科趋势分析系统，呈现学科热点研究比较分析及发展趋势图，同时，对文献、作者信息进行可视化处理，形成动态的“清华人物”和“热

17、门标签”云图11。3.6 特色功能知识发现系统依托丰富的元数据资源和共享的网络优势，实现了诸多的特色服务，它充分运用Web2.0的服务理念，以友好的界面提升用户的使用体验，如：检索词的纠错、相关词提示和检索历史的呈现，以及Wiki百科词条集成、用户评论、标签、图书摘要和目次汇集等，增强服务的交互性与便捷性。利用数据挖掘分析文献之间的关联，将其他研究者关注过的相关文献无缝地推送给用户，扩大文献的检索范围。知识发现系统的个性化服务也得到很好的体现，实现了检索请求保存，主题定制与推送服务，电子书架及获取资源导入Refworks、EndNote个人文献管理服务。同时，发现系统支持移动图书馆服务，满足现

18、代用户泛在化信息的需求。不同的发现系统还各有其独特的功能奉献，Summon以学科集成元数据，将学科资源嵌入学科馆员服务平台，增强学科服务的细粒度，在学科化服务方面独树一帜；EDS的受控主题词表，使检索结果的相关度排序和主题分面更加精准，专业学科资源的发现更加贴合研究者的需要； Primo依托其独有的SFX日志数据，解析用户的资源使用规律和当前热点，形成bx学术文献推荐服务和热点文章推荐服务，追踪不同学术领域的发展动态与趋势。4 存在问题4.1 元数据质量元数据仓储是发现系统提供服务的基础，元数据的质量不仅反映发现内容的效果，而且关系到数据挖掘的质量，元数据质量一般包括数据来源、数据规模、数据覆

19、盖度及数据内容等几个方面。目前，主流的知识发现系统在元数据质量上还存在以下两方面的问题：4.1.1 高品质学术性数据覆盖率不高发现服务系统提供商在元数据搜集上重视数据的数量，追求元数据仓储的规模，却忽略高品质学术类数据的获取，因此在看似数亿条的元数据发现系统中，适合图书馆用户的学术知识信息比例较低，覆盖率不高，据统计，Summon、EDS、Primo三大发现系统报纸杂志及消息类数据量都达到50%以上。图书馆用户更多的关注同行评审期刊、高质量会议文献及学术成果等专业信息，过多的消息类信息影响了知识发现的效果，降低知识发现的效率。4.1.2 元数据内容质量良莠不齐元数据来源是多样的，它包括与出版

20、社或内容商协议获取的数据，通过网络爬虫、网络蜘蛛等技术工具抓取的数据，图书馆及信息机构收割的数据等等，不同来源的数据其质量也是参差不齐的。不同的数据库、不同的平台在数据规范描述上是不统一的，这为元数据的去重合并带来很大的困难，尽管发现系统都通过技术手段、专家干预等方面进行格式化处理，但元数据仓储中依然存在大量冗余数据，大大降低了知识发现的效率。另外，不同渠道的元数据在内容字段上也有很大差异，也就是发现系统中存在着“薄”数据和“厚”数据，“薄”数据一般只包括题名、作者、来源、标识等基本信息，“厚”数据不仅包括以上基本信息，还包括主题、文摘等相关信息，“薄”数据仅仅能够满足基本信息检索需要，在数据

21、分析挖掘、知识重组整合等深度发现服务方面就捉襟见肘，无以为继了。4.2 中文资源覆盖国外发现服务系统进驻中国市场面临的主要瓶颈就是中文资源合法获取的问题，由于中文出版商或数据商在资源占有方面的封闭，导致国外系统商与中文数据商签约获取中文数据的障碍，在对外文商业电子资源达到以上，甚至以上这样较为理想的覆盖率的同时，发现服务对中文商业电子资源的覆盖还处在艰难起步的阶段12。截止目前，在与中文出版商或内容商直接签约合作方面，只有与维普公司的合作取得了初步的进展。为了解决中文数据保障性的问题，Primo、EDS系统都采用以元数据资源发现为基础，调用联邦检索技术的服务模式；与此同时，国内公司也开始尝试

22、开发中文知识发现服务平台，旨在提供中文资源的发现服务，但国内公司的数据来源多为网络数据抓取与机构数据收割等方式，在数据的质量、更新速度和使用合法性方面还有待商榷。4.3 与OPAC的有效整合发现系统在与馆藏OPAC整合上还存在两方面的不足；一是数据整合方面，由于国内许多图书馆管理系统开放性不够，使得发现系统无法实时自动获取OPAC系统中数据记录的增删改等变化信息，造成发现系统中本地馆藏数据更新不及时。二是服务整合方面，发现服务融合了OPAC系统中纸质文献续借、预约、个人信息查询等功能，但在使用中，仍然需要用户经过身份认证，进入OPAC界面实现相关服务，发现服务系统的一框式搜索、便捷性使用优势

23、在此没有很好体现，与馆藏OPAC在服务方面的整合还需加强。4.4 知识重组与发现目前，发现系统在知识内容发现方面做了一些有益的尝试，通过数据关联与用户使用分析，提供了引文关联、学科热点分析、相关文献推荐等服务，但是在利用海量数据进行深度挖掘以发挥其应有的价值方面还远远不够，知识发现服务需要进行元数据的深度标引，尝试以主题、作者、学科为核心的知识内容解析，并形成相互关联的动态知识网络，为用户提供全方位、多维度和持续发展的知识信息。清华大学图书馆基于发现系统的海量数据，进行了知识挖掘与创新服务的探索，建立了以学者为中心的知识网络和基于文献计量方法的学科研究趋势和热点分析13，在知识内容的深度挖掘方

24、面进行了积极的探索。5 结语知识发现服务在合作共享的理念指导下，围绕用户的需求与行为习惯，利用庞大的数据资源和有效的网络技术手段，在资源的统一发现、信息的有效整合及个性化服务方面迈出了可喜的一步，但是，从系统服务功能的实现看，它还仅仅是资源发现服务，实现知识发现与服务的目标还任重道远。发现服务系统提出了知识服务的理想思路和基本框架，图书馆人应该有效的利用这一工具，不断地超越传统的思维定式，以知识服务为切入点，通过对数据的深度挖掘与分析管理，提炼新的知识和价值，增强与用户的粘合度；同时，图书馆要以用户的需要为导向，不断开发用户需要的综合应用服务，与发现系统无缝对接，使发现服务在变化中发展，从资源

25、发现走向知识发现和知识服务，直至实现知识创新。参考文献1 Summon: A New Search Service from Serials SolutionsEB/OL2013 06 03http:/ 2 包凌，蒋颖图书馆统一资源发现系统的比较研究J，情报资料工作，2012（5）：67-723 知识发现OL2013 06 03http:/ 廖志江知识发现及数字图书馆知识服务平台建设研究J，情报科学，2012，30（12）：1849-18535 杨炳儒知识发现系统框架及其理论体系的构造方法论J，中国工程科学，2011，13（9）：83-906 中山大学图书馆之智慧搜索OL2013 06 03h

26、ttp:/ 清华大学学术信息发现平台之水木搜索OL2013 06 03 http:/discovery.lib. :1701/primo_library/libweb/action/search.do?vid=thu8 刘颉颃，陈定权，郭婵用户对图书馆资源发现系统功能的期望基于广州大学城高校图书馆学生用户的调研J,图书情报工作，2012（7）：27-319 秦鸿，钱国富，钟远薪三种发现服务系统的比较研究J，大学图书馆学报，2012（5）：5-11，1710 管进基于关联数据的图书馆知识服务策略研究J，图书馆理论与实践，2012 (6)：9-1111 清华大学学术信息发现平台之热门标签&研究热点

27、OL 2013 06 03http:/discovery.lib. tsinghua. :1701/primo_library/libweb/action/search.do?vid=thu12 聂华，朱玲网络级发现服务通向深度整合与便捷获取的路径J，大学图书馆学报，2011（6）：5-10，2513 窦天芳，姜爱蓉资源发现系统功能分析及应用前景J，图书情报工作，2012（7）：38-43Function Analysis and Problem Discuss of Web-scale Knowledge Discovery ServiceYang Hui Wang Rong(Library

28、 of Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)【Abstract】：This paper introduces the background of discovery service and framework of discovery system .Based on the practice in library of using main discovery system , analysis main functions and discusses some existed p

29、roblems with discovery system. The goal is to provide references for system selection and application 【Keywords】：Knowledge Discovery；Resource Discovery System；Metadata；Summon；Primo；EDS 作者简介：杨会（1963），女，南京航空航天大学图书馆，研究方向：资源整合，数字图书馆汪荣（1981），男，南京航空航天大学图书馆，研究方向：数字图书馆技术联系方式通讯地址：南京市御道街29号南京航空航天大学图书馆电子邮件地址：电话：（025）84891987 手机：13505181393

展开阅读全文