大数据背景下读者借阅行为的数据挖掘研究.ppt

资源描述

《大数据背景下读者借阅行为的数据挖掘研究.ppt》由会员分享，可在线阅读，更多相关《大数据背景下读者借阅行为的数据挖掘研究.ppt（16页珍藏版）》请在三一文库上搜索。

1、大数据背景下读者借阅行为的数据挖掘研究,研究目的：,在图书馆现有的数字化系统中，每时每刻都在产生着大量的统计数据和表单，如何以“大数据”为基础，把这些统计数据和表单在进行分析和处理后，其内在的信息量可以对图书馆的各种业务，尤其是采购、馆藏、咨询业务，起着很强的指导作用。在图书馆数字化系统中采用各种数据挖掘技术，可以分析读者借阅行为信息资源的各项指标，例如图书馆藏资源的利用率、图书馆藏资源的有效率、图书馆藏资源的拒借率等指标，帮助图书馆加强采购、馆藏以及咨询等服务业务，能将被动的为读者提供图书资料，转变成主动地为读者提供可能感兴趣的信息资源，更好地为读者提供个性化的推荐服务。,研究过程：,

2、1、数据挖掘应用于图书馆数字化系统的技术分析。 2、收集本校图书馆管理系统的后台数据，建立数据仓库，选取合适的数据挖掘分析工具。 3、运用数据挖掘技术，对读者借阅数据进行挖掘，分析读者行为习惯及特点，发现借阅行为中隐含的学科关联、借阅图书特点等。 4、数据挖掘技术在图书馆的读者借阅行为分析中的具体应用。,研究内容：,随着图书馆读者的信息水平和信息要求的提高，也客观上要求图书馆能够为读者提供的信息服务能够更加主动和富于个性化，因此，图书馆要进一步加强对读者的借阅行为信息的处理和分析能力，并能够对读者借阅行为信息资源进行进一步组织和整合，从海量的表面上庞杂无序的读者借阅行为信息中提取有价值的内在

3、联系供图书馆使用，满足读者新的更复杂的借阅需求。数据挖掘（Data mining。DM），就是从大量的，不完全的，有噪声的，模糊的，随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在的有用信息和知识的过程。数据挖掘常常也被称为数据库知识发现（Knowledge-Discovery from Databases，KDD)，它可以从数据库或数据仓库以及其他各种数据库的大量各种类型数据中，自动抽取或发现有用的模式知识。,1数据挖掘应用于图书馆数字化系统的技术分析,数据挖掘是对传统的需求分析技术进行提升后的新技术，应用在图书馆数字化系统中时，可以从图书馆数字化系统中所产生的海量历史数据中分

4、析读者的需求，这是一种决策支持过程，支撑这种过程中可以应用到人工智能和统计学等技术，做到高度自动化地分析海量历史数据，从而，从海量历史数据中作出归纳性的推理，挖掘出潜在的读者借阅行为的模式，对今后的读者借阅行为进行预测，帮助图书馆的工作人员调整图书采购策略，进一步完善馆藏建设，加强图书信息咨询服务工作。,数据挖掘技术应用于图书馆的首要工作，是建立数据仓库。图书馆数字化系统中的业务数据很多，数据之间存在着复杂的横向联系，但大而化之，可以将数据仓库中所包含的信息分为主要的三类：读者信息、图书信息和读者借阅流通信息。在构建数据仓库时，具体可以按以下步骤进行：第一步，对图书馆各种业务数据进行数据建

5、模，这是一个确定图书馆数据仓库主题的过程；第二步，对所建的数据仓库的数据库进行设计，并确定数据转换的程序；第三步，管理元数据。定义图书馆数据仓库的元数据，对图书馆各种业务数据进行元数据的表示、定义，确定其具体的意义，同时建立数据库系统中各组成部件的相互关系；第四步，确定数据挖掘的数据分析工具，在实现和使用数据仓库的基础上，建立结构化的决策支持查询，帮助图书馆进行决策，实现图书馆决策支持需求。,在构建了图书馆的数据仓库后，就要开始进行数据挖掘体系结构的构建了。这个过程中可以分解为以下几个方面：首先，将图书馆各种业务数据，包括读者基本信息、图书信息和流通信息，进行数据集成、数据过滤和数据转

6、换，然后存储在数据库或数据仓库的服务器中；然后，建立数据挖掘的工具引擎，调用数据挖掘的数据分析工具（例如Excel数据分析工具和OLAP数据分析工具），同时在知识库中存放数据挖掘算法（例如关联规则、聚类分析等算法），这是进行数据挖掘的核心过程。最后是得出对图书馆各种业务数据挖掘结果，并向用户进行展示。图书馆各种业务数据通过前端开发工具调用后台建立的数据包进行数据挖掘的结果，其展示可以是表格、立方体，或者是其他模型，特点是直观、简明。,利用关联规则、聚类分析等算法，通过数据挖掘分析图书的实际利用情况。数据仓库中大量的这些读者信息、图书信息和读者借阅流通信息数据都属于结构化数据，对其进行数据挖

7、掘的的算法很多，一般最常用的有两种：利用关联规则算法和利用聚类分析算法。 1）利用关联规则算法主要是侧重于借阅历史数据中的分析，通过对信息资源借阅历史进行关联规则算法的分析后，例如发现有大量读者在阅览A书同时也对B书进行了阅览，则图书馆的服务工作中可以增加一项向阅览A书的读者推荐B书的服务，这些规则的发现，对提高图书馆的图书资源的利用率和为读者提供更人性化的服务很有帮助。 2）利用聚类分析算法主要是通过对新近书籍与历史书籍的聚类分析，以判断新近书籍对读者的借阅价值。根据图书馆现有的数字化系统中所产生大量的统计数据和表单建立的数据仓库，是真实的。对于图书馆而言，从这些大量的统计数据和表单中所发

8、现的读者借阅信息和知识是潜在的，图书馆所感兴趣的，可理解、可运用的知识正是隐藏在这些大量的读者信息、图书信息和读者借阅流通信息背后。,数据挖掘分析后的决策数据挖掘分析读者的借阅行为后进行决策的依据可以有两个维度： 1）读者信息维借阅数量比较对读者借阅行为数据展现中的读者信息维度借阅数量进行比较，可以以目标群读者的所有图书持续时间为度量值，以读者群的类别和共计持有时间来进行比较，这样可以得到按照读者类别来判断读者实际持有时间的分析情况。 2）图书信息维借阅数量比较在图书馆的图书分类中，通常是以中图法为分类依据的，这样图书馆在进行决策时可以根据全体读者借阅某类书的持有时间来横向比较，分析得出

9、，哪类书更受读者欢迎，哪类书更能满足读者需求。对图书馆进行统计，就是将图书信息维分为若干个级别，例如一级类目、二级类目、三级类目和图书条形码等级别，然后分析得出受欢迎和不受欢迎的图书种类，保障图书馆的馆藏资源可以得到合理充分的利用。,数据挖掘分析图书的实际利用后的决策，以图书馆为例，其决策树如图2。,2数据挖掘技术在图书馆的读者借阅行为分析中的具体应用,数据仓库的建立（1）数据源：图书馆的历史借阅日志和还书日志；（2）拥有者：图书馆；（3）记录的数目10550条借阅记录、9875条还书记录；（4）原始数据的格式主要是Excel表，其中借书记录是l3个字段、还书记录是15个字段，见表1。,本次分

10、析中，读者借阅的图书共有 1246个大类，借阅情况如图3所示。借阅次数大于100次的有19种，占总类目的1.52，0次到10次之间的有213种，占总类目的17.09；小于10次的类目为1014种，占总类目的81.38。可见，在这段时间大量的文献被读者借阅次数很少，如A1马克思、恩格斯著作大类只被读者借阅了1次；有少部分文献却被读者频繁地借阅为什么会这么多的书籍被读者所借阅的次数很少?这需要我们深入分析其中的原因，尽量提高这部分文献的利用率，此外对于该部分图书的采购工作应加以限制，因为现有馆藏已可满足当前读者的借阅需求。,结论及体会：,在对图书馆现有的数字化系统中所产生统计数据和表单进行分析和处理后，其内在的信息量可以对图书馆的各种业务起着很强的指导作用。图书馆数字化进程的不断发展，对图书馆要处理和提供的数据的处理提出了更高的要求，也客观上要求图书馆能够为读者提供更加主动和富于个性化的信息服务。数据挖掘技术在图书馆中的应用还处于初步阶段，但由其在信息挖掘等方面表现出来的潜力，相信不久的将来，随着个性化服务理念的不断深入，图书馆信息化程度的提高，图书馆将会积累大量的流通数据，数据挖掘也将在图书馆的发展变化中能起到更好的推动作用。,谢谢！,

展开阅读全文