基于Web挖掘的个性化推荐服务研究.doc

资源描述

《基于Web挖掘的个性化推荐服务研究.doc》由会员分享，可在线阅读，更多相关《基于Web挖掘的个性化推荐服务研究.doc（68页珍藏版）》请在三一文库上搜索。

1、分类号分类号密级密级 U D C 硕硕士士学学位位论论文文基基于于Web挖挖掘掘的的个个性性化化推推荐荐服服务务研研究究学位申请人学位申请人：丁丁一一学科专业学科专业：计算机应用技术计算机应用技术指导教师指导教师：卢正鼎卢正鼎教授教授论文答辩日期论文答辩日期 2004.5.10 学位授予日期学位授予日期答辩委员会主席答辩委员会主席胡和平胡和平评评阅阅人人王天江王天江李李玉玉华华 A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree of the Master of En

2、gineering The Research of Personalized Recommendation Based on Web Mining Candidate : Ding Yi Major : Computer Application Technology Supervisor : Prof. Lu Zhengding Huazhong University of Science & Technology Wuhan 430074, P.R.China April, 2004 I 摘摘要要随着网络技术的不断发展，如何利用数据挖掘技术从大量的网络信息中挖掘出对人们有用的资源，已经

3、成为研究的热点问题。信息推荐技术需要解决的三个问题是：首先，要理解用户的需求；其次，是能高效、准确地执行查询任务；最后，能把结果很好地组织起来交给用户。目前比较成熟的信息推荐技术是采用面向网络信息来解决以上问题的。但是，这种方式很难执行好用户个性化的检索需求，因此提出了面向用户的个性化推荐模型。通过对通用搜索引擎和元搜索引擎的研究，提出了个性化推荐模型，该模型分为离线部分和在线部分。离线部分由数据预处理和特定的访问挖掘任务组成，数据预处理将网络服务器的访问日志文件以及站点的相关文件生成用户文件和事务文件；特定的访问挖掘是利用聚类算法来生成网页聚类。模型的在线部分主要是利用离线

4、部分生成的网页聚类，再根据用户的当前访问操作行为，动态地为用户推荐下一步访问操作。在线部分主要是由：用户接口、兴趣学习器、个性化分析器、推理器、网络数据连接管理器、个性化过滤器和网络服务器等组成。在线部分涉及到的关键算法有：兴趣学习算法、个性化分析算法、个性化过滤算法和推理算法，此外还对模型的一些简单的语法规则进行了定义，通过实验环境实现了一个界面简单的推荐模型。关键词：关键词：数据挖掘，个性化，信息检索，推荐服务，聚类分析 II Abstract With the development of network technology, how to use the data min

5、ing technologies to search on Web has come to be a hot research area in the information search field. Three problems need to be solved through information discovery technology on Web. Firstly, it must understand the users need correctly. Secondly, it can execute query tasks efficiently and accuratel

6、y. Lastly, it is able to organize the results before showing them to user. Now the popular and mature IR technologies settle these problems in a network information objected method. However, the network information oriented IR technologies cannot understand and execute users personal need. In this d

7、issertation, we bring forward a new model for information recommendation in Web, user-oriented information recommendation model. After combining advantages and disadvantages of the normal search model and the Meta search model, this paper raises another new model of personal information recommendati

8、on based on Web mining. The model can depart offline-model and online- model. Introduces the data preprocessing of the offline-model, and then discusses the special task of accessing mining. Data preprocessing is the step that brings users documents and events documents through accessing log documen

9、ts of Web server and some documents of sites. Special task of access mining brings out Web URL clustering using the clustering algorithm. Online-model mainly uses the Web URL clustering based on current accessing operation of users, recommendation the following accessing operation dynamically. Onlin

10、e- model mainly consists of user interface, interest learner, personality analysis, case-based reasoning, Internet database connecter, personality re-sorting and Web server. And the key algorithm of online-model such as, interest learning algorithm, personal analysis algorithm, personal re-sorting a

11、lgorithm and case-based reasoning algorithm were discussed. Besides these, some simple syntax rules of the model were defined. The whole structure of the model was displayed through experiments, which verify the capability of it. Key words: data mining, Personalization, information search, recommend

12、ation server, clustering III 目目录录摘摘要要 I AbstractII 1 绪论绪论 1.1 数据挖掘(1) 1.2 Web 数据挖掘 .(2) 1.3 个性化推荐服务的现状(3) 1.4 论文研究内容及其组织(5) 2 个性化个性化 Web 挖掘挖掘 2.1 Web 数据挖掘 .(7) 2.2 几个重要的研究方向(11) 2.3 Web 挖掘的个性化 .(13) 2.4 个性化推荐解决的问题和目标(16) 2.5 小结(17) 3 基于基于 Web 挖掘的个性化推荐挖掘的个性化推荐 3.1 个性化服务中用户研究(18) 3.2 个性化推荐(20) 3.3

13、个性化推荐服务技术(23) 3.4 个性化推荐模型(29) 3.5 小结(32) 4 个性化推荐模型设计与实现个性化推荐模型设计与实现 4.1 推荐模型描述(33) 4.2 模型离线预处理(34) IV 4.3 离线挖掘算法(37) 4.4 模型在线推荐(38) 4.5 模型测试结果(48) 4.6 小结(50) 5 论文总结论文总结 5.1 主要工作总结(51) 5.2 进一步的研究方向(51) 致致谢谢.(53) 参考文献参考文献.(54) 附录附录 1 攻读学位期间发表的论文目录攻读学位期间发表的论文目录(57) 1 1 绪论绪论近年来，随着大规模的工业生产过程的自动化、商务贸易电子

14、化及企业和政府事务电子化的迅速普及以及科学计算的日益增长，产生了大规模的数据源。计算机网络技术的长足进步也为数据的传输和远程交互提供了技术手段，特别是互联网的迅速发展更是将全球的信息源纳入了一个共同的数据环境中1。日益成熟的数据库系统和数据库管理系统都为这些海量数据的存储和管理提供了技术保证，为步入信息时代奠定了基础，这些庞大的数据库及其中的海量数据是极其丰富的信息源。在这些信息源中隐含了许多有潜在价值的知识，如何发现这些有用的知识是人工智能、数据库等领域的研究焦点。但是仅仅依靠传统的数据检索机制和统计分析方法已经远远不能满足需要了。因此，近年来出现了一门新兴的知识获取提取技术

15、数据挖掘。数据挖掘旨在从数据库中提取正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。它的出现为自动和智能地把海量的数据转化成有用的信息和知识提供了手段1。数据挖掘涉及到诸如机器学习、模式识别、统计学、数据库和人工智能等众多学科，是数据库理论和机器学习的交叉学科。 1.1 数据挖掘数据挖掘数据挖掘和知识发现KDD（Knowledge Discovery in Database）有密切的联系。知识发现（KDD）2是指从数据库中发现有用知识的整个过程，数据挖掘是这一过程中的一个特定步骤，知识发现包括数据选择、预处理、数据转换、数据挖掘、模式解释和知识评价等多个步骤

16、，是应用特定数据挖掘算法和评价解释模式的一个循环反复过程，并要对发现的知识不断求精深化，使其易于理解；数据挖掘是知识发现过程中的一个关键步骤。数据挖掘（Data Mining）是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的是提高市场决策能力；检测异常模式；在过去的经验基础上预言未来趋势等3。这些知识和规则是隐含的、先前未知的、对决策有潜在价值的有用信息。通过数据挖掘，有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来，为决策提供依据，从而使数据库作为一个丰富可靠的资源，为知识归纳服务。 2 与传统

17、的数据库查询系统相比较，数据挖掘技术有以下不同4：（1）传统的数据库查询一般都具有严格的查询表达式，可以用 SQL语句描述，而数据挖掘则不一定具有严格的要求，常常表现出即时、随机的特点，查询要求也不确定。（2）整个挖掘过程也无法仅用SQL语言就能完整表达，实际上，数据挖掘常常用一种类似SQL语言来描述。（3）传统的数据库查询一般生成严格的结果集，但数据挖掘可能并不生成严格的结果集。挖掘过程往往基于统计规律，产生的规则并不要求对所有的数据项总是成立，而是只要达到一定的事先给定的阈值就可以了。（4）通常情况下，数据库查询只对数据库的原始字段进行，而数据挖掘则可能在数据库的不同层

18、次上发掘知识规则。从广义上讲，数据挖掘分为三种类型：全自动、半自动和全交互式。对于全自动技术，一旦系统被创建，无需人的任何干预，它能在后台自动进行操作；对于半自动技术，系统或者在后台操作，或者采用全交互方式；对于全交互式技术，是一种简单的数据挖掘，它由用户设置每次操作的参数，然后等待相应结果。数据挖掘在解决实际问题时，经常要同时使用多种模式。一个数据挖掘系统或仅仅一个数据挖掘查询就可能生成成千上万的模式，但是并非所有的模式都是令人感兴趣。这里有一个重要的概念，兴趣度（Interestingness），通常是用来衡量模式的总体价值，它包括正确性（Validity）、新奇性（N

19、ovelty）、可用性（Usefulness）和简洁性（Simplicity）。数据挖掘工具还要求具有开放性，它的开放性体现在两个方面：能与各种数据源集成；分析的结果是通用的或易于转化的。数据挖掘工具相互差别很大，这不仅体现在关键技术上，还体现在运行平台、数据存取和价格等方面。从运行平台来看，简单的工具可运行在 PC 的 DOS 或 Windows 上，复杂的工具要求运行在 Unix 工作站或并行处理平台上；从数据存取来看，简单工具处理的数据以文件形式输入，复杂工具要求大型的数据库环境。目前，数据挖掘已成为计算机科学研究中的一个十分活跃的前沿领域，并在市场分析、金融投资、欺

20、诈甑别、医疗卫生、环境保护、产品制造和科学研究等许多领域获得了广泛的应用，取得了十分可观的社会效益和经济效益。同时，知识发现和数据挖掘的研究和应用，对于人工智能这门前沿学科的发展注入了新的活力，有力地促进了计算机科学朝着纵深方向顺利发展。 3 1.2 Web 数据挖掘数据挖掘 Internet提供了一个海量的信息源泉，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web还包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为数据挖掘提供了丰富的资源。人们希望有一个工具能够自动从Internet上提取知识。传统的数据挖掘基于关系数据库或数据

21、仓库，所处理数据具有完整的结构。但是Internet上的数据却是无序的、非结构的，并且存在着大量的冗余与噪声。对有效的数据仓库和数据挖掘而言，Web似乎太大了。Web的数据量目前以几百兆字节计算，而且仍然在迅速地增长。Web数据具有以下的一些特征：（1）数据源具有很强的动态性，Internet本身就是一个时刻在动态更新和变化的系统，这就需要借鉴数据仓库的某些技术，以此保存Web上动态更新的数据。（2）数据的多样性，Web数据经过过滤后，既有数值型(整型、实型)、布尔型，又有分类数据、性质描述数据以及Web特有的数据类型(如URL地址、E-MAIL地址等)。新的数据类型必然带来

22、新的特色，需要对原有挖掘方法进行改进和扩充。（3）用户目标的模糊性，基于Internet的数据挖掘用户往往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目标来。这就需要数据挖掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述挖掘结果。 Web上的信息只有很小的一部分是相关的或有用的。据统计，99%的Web信息对于99%的用户是无用的，这些无用的信息会淹没用户所希望得到的推荐结果。基于以上的分析可知，Web对有效的资源和知识发现具有极大的挑战性。这些挑战推动了如何高效且实际地发现和利用因特网上资源的研究工作。目前有许多基于索引的Web推荐引擎，利用推荐引擎，有

23、经验的用户可以快速定位到所需的文档。但是目前基于查询串的推荐引擎存在一些问题。首先，推荐引擎返回的文档数过于庞大，其中很多与话题相关性并不大；其次，很多与话题相关的文档可能并不包含相应的查询串。因此，对Web资源查找还不够充分的Web推荐引擎不能等同于Web 挖掘。 1.3 个性化推荐服务的现状个性化推荐服务的现状随着信息科技的进步和互联网的日益普及，如何在浩瀚如海的信息空间里，快 4 速查找并获取所需的信息已成为信息时代最根本的问题之一。网络个性化推荐在网络信息资源查找中起到了重要的作用，它可以帮助人们从数以亿计的网络信息中找到自己想要的信息。信息检索技术经历了三个发展阶段：

24、顺序检索、顺序与倒排检索相结合、全文检索。全文检索早期的发展，一是源于手工标引已不适应信息增长的需要，二是人们采用自然语言直接进行检索的原理5,6。据研究者统计，目前互联网上的搜索引擎已达数千种，仅中文搜索引擎就达70 余种。在庞大的搜索引擎家族中，有囊括各学科、各种主题网络信息的综合性搜索引擎，有以特定学科或专业领域的网络信息为收录对象的专业性搜索引擎，还有专门列举搜索引擎的搜索引擎指南。搜索引擎作为一个整体，存在着质量参差不齐、信息的分类加工欠规范、搜索速度慢、死链接过多，以及提供的检索结果中重复信息及不相关的无效信息过多等弊端，对检索效果形成负面影响。网络信息的急剧增加，

25、令以覆盖所有学科、所有类型信息为宗旨的综合性搜索引擎亦越来越难以应对，就是号称功能最为强大的搜索引擎，在网络信息搜索与加工软件的升级开发上，亦无法跟上网络信息的增长速度。搜索引擎在网络信息的组织、加工等环节上缺乏可供操作的、统一的技术标准，处于各自为政的无序状态，这主要体现在网络信息的分类上。统一的网络信息分类标准的缺位令网络用户无所适从，他们被迫接受各搜索引擎的分类体系无法兼容的事实，每使用一种新的搜索引擎，就意味着他们必须接受该搜索引擎与其他搜索引擎在分类体系上的差异。搜索引擎之间的检索体系存在一定的差异性，难于相互兼容，给网络用户掌握通用的信息检索技巧与方法带来不必要的操

26、作障碍。每一种搜索引擎的开发者在设计该搜索引擎的核心检索技术时，都以突出自身特色而各显千秋，故不同的搜索引擎均有着相对独立的检索方法与技巧。各个搜索引擎都有一个特色化的检索体系等待网络用户去适应，这些检索体系在推向用户之前较少通过试运行从网络用户中搜集反馈信息，因此在适用性上存在先天的不足。网络搜索引擎一般由信息采集器(Spider 或 Crawler)、索引数据库(Index 或 Catalog database)以及用于检索索引库的检索软件(Search Engine software)三部分组成。信息采集器主要负责访问各种站点，取回 Web 主页的信息。运行 Spider 时

27、，只要提供少量的起始网页，Spider 除了会将网页上的信息读回以外，还将沿着网页上的超文本链接，自动访问网页链接的其它网页，直至遍历整个网站。Spider 对网站的访 5 问是周期的，一般为每月一次或数次，访问次数视网页的更新频率而定。索引器负责索引库的建立。Spider 收回的信息很多，直接用于查询，其效率将非常低。索引器的主要工作是建立一个包含关键信息的索引库以备查询。索引器的策略很大程度上影响了搜索引擎的效率与准确性。目前，比较常用的方法是对网页的标题(Title)和评语(Comment)进行索引。检索软件负责提供用户使用搜索引擎的接口。检索软件通常是一个 Web 应用程

28、序，其主要工作包括：接收、解释用户的搜索请求；查询索引库；计算网页与搜索请求的关联度；提供排序后的搜索结果返回。简而言之，信息采集软件是从一个已知的文档集中读取信息，并检查这些文档的链接指针，指出新的信息空间，然后取出这些新空间中的文档，将它们加入到索引数据库，检索软件通过索引数据库为用户的查询请求提供服务，但现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足，索引数据库往往很大，检索的查准率不高。 1.4 论文研究论文研究内容及其组织内容及其组织 1.4.1 课题提出的现实意义与目标课题提出的现实意义与目标随着经济的不断发展，我国经济的开放度不断提高，因而遭

29、受各种外部冲击的可能性和受影响的程度也将日益增大，各种国际规则和惯例对我国经济运行的制度约束越来越强烈，这些制度约束将产生强制性的制度变迁效应，加快我国外汇管理制度和模式变革的进程，在转化过程中，如何维护和提高管理效率，尽可能地减少制度变迁成本，将成为外汇局所面临的一大挑战。为此，迫切需要建立一个功能强大、数据完整的信息管理系统去统驭其他业务管理系统的运行。本课题来源于与国家外汇局合作的国家外汇信息管理决策系统的项目，简称 SAFEMIDSS，是根据我国外汇管理的需要，按照外汇局“说得清，管得住，服务好”的指导思想建立的集业务管理与辅助决策于一身的综合信息服务平台。它将是外汇局

30、完成真实性审核、统计预警和政研立法三大职能的支撑系统，也将成为我国外汇管理电子化的核心平台。它将以采集基础数据取代报表数据；以电子数据的直接提取或交换取代业务数据的二次录入与加工传递；以接近实时取代定期、不定期；以系统灵活的、即插即用的应用程序取代独立、固定的应用程序；借助报表生成工具以灵活组合、自定义方式的查询方法取代固定的查询、报表生成程序；以系统的指标体系、科学的分析方法、灵敏的决策机制取代静态的、孤立的、缺乏全面信息 6 支持的决策方式。这一课题属国家十五攻关课题（2001BA102A06-11），并由本课题组承担，一期工程于 2003 年 12 月通过国家验收。本课题

31、的目标是以建立国家外汇管理局决策支持系统为实践背景，利用数据挖掘理论技术，改进并实现基于 Web 挖掘的个性化推荐服务技术，从而对国家外汇管理局网站的 Web 信息文件进行挖掘，得出用户的访问模式，从而可以进一步分析和研究日志记录的规律，来改进国家外汇管理局网站的组织结构及其性能，改造自适应网站；还可以通过统计和关联分析，了解使用用户的爱好，增加个性化推荐服务，使用户足不出户就可以了解和关注到自己感兴趣的信息和资源，更好的为用户服务；也可以是外部数据采集员用来在 Internet 上面采集相关数据、资料的工具。 1.4.2 论文组织论文组织论文比较系统完整的分析和论述了数据挖掘技

32、术的热点难点、Web 挖掘的体系结构、个性化服务的定义、基于 Web 挖掘的个性化推荐服务。各章节内容安排如下：第 1 章绪论：简要介绍了本文要描述的数据挖掘的基本概况和 Web 挖掘的基本定义，本文的课题背景、目的和意义，以及论文的主要工作。第 2 章个性化 Web 挖掘：简要介绍了 Web 挖掘的定义、分类、过程、任务，还介绍了个性化服务的定义，个性化推荐解决的主要问题以及 Web 挖掘的个性化，最后还介绍了目前比较流行和重要的几个研究方向。第 3 章基于 Web 挖掘的个性化推荐模式：首先对个性化服务中的用户服务研究做出了描述，接着介绍了个性化推荐模型的工作机理、分

33、类以及目前个性化推荐存在的问题；然后对个性化推荐服务的具体技术问题、实现方法进行了介绍，最后对目前比较流行的通用模型和元搜索引擎进行了分析。第 4 章个性化推荐模型设计与实现：首先对模型进行了具体描述，然后就个性化推荐模型的离线部分预处理、离线算法和在线部分的定义、数据流程、算法的分析以及具体实现技术进行了具体的阐述。模型的在线部分主要是利用离线部分生成的网页聚类，再根据用户的当前访问操作行为，动态地为用户推荐下一步访问操作。通过实验环境实现了一个界面简单的推荐模型。第 5 章论文总结：总结了本论文的特色和创新，以及提出了今后工作的发展方向。 7 2 个性化个性化 Web

34、挖掘挖掘本章将从 Web 挖掘的定义开始，介绍了 Web 挖掘的分类、Web 挖掘的过程、 Web 挖掘技术以及 Web 信息检索，还介绍了几个最重要的挖掘技术，最后将介绍一下 Web 挖掘的个性化。 2.1 Web 数据挖掘数据挖掘数据挖掘是一个逐渐演变的过程，电子数据处理的初期，人们就试图通过某些方法来实现自动决策支持，当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机，机器通过学习这些范例总结并生成相应的规则，这些规则具有通用性，使用它们可以解决某一类的问题。随后，随着神经网络技术的形成和发展，人们的注意力转向知识工程，知

35、识工程不同于机器学习那样给计算机输入范例，让它生成规则，而是直接给计算机输入已被代码化的规则，而计算机是通过使用这些规则来解决某些问题6,7。 Web挖掘从数据挖掘发展而来，是数据挖掘技术应用于Web信息的一个崭新领域。 Web是一个巨大的、广泛分布的、高度异构的、半结构化的、相互联系并且不断进化的信息仓库；是一个巨大的文档累积的集合，包括超链接信息，访问及使用信息。大量的非结构化数据无法使用现有的数据库管理系统来操纵和管理，其用户群体也表现出多样性的特点，这些都对信息系统的研究人员提出新的挑战7。因为Web信息的特殊性，它与传统的数据挖掘相比又有新的特质。首先，Web挖掘的对象是

36、大量异质分布的Web文档，每个数据源都是异构的；其次，Web文档本身是半结构化或无结构的且缺乏机器可理解的语义。所谓半结构化，是指Web上的数据具有一定的结构性，但是它没有特定的模型描述，每一站点的数据都有各自独立设计，并且数据本身具有自述性和动态可变性，是一种非完全结构化的数据。而传统的数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识，因此有些数据挖掘技术并不适用于Web挖掘，即使可用也需要建立在对Web文档进行预处理的基础之上2。 8 2.1.1 Web 挖掘的分类挖掘的分类通过数据挖掘，个人、企业、网站从Internet提供的信息资源中，根据各自

37、不同的目的和特点，抽取有关数据并且从中发现数据中隐含的规则和知识，从而更进一步地获取数据。Internet数据挖掘总的来讲，有3个目标：精确度，即返回数据符合用户需求的程度；覆盖率，即有多少符合用户需求的数据被返回；效率，即响应速度。现今最流行的Web数据挖掘的分类，是根据挖掘的对象将其分为：基于内容的挖掘和基于用户使用记录的挖掘。（1）Web内容挖掘：Web内容挖掘是从Web文档内容及其描述中获取有用知识，是对网页上真正的数据进行挖掘，包括网页内容挖掘和推荐结果挖掘。Web文档通常包含以下几种数据类型：文本、图像、音频、视频、元数据和超链接，也有些如 HTML文档所含的半结构

38、化数据，但大多还是无结构的文本数据。文本、超文本内容的挖掘是Web内容挖掘的重点，但作为内容挖掘一份子的多媒体数据挖掘近年来受到许多研究人员的关注，对于统一表示模型、问题解决及从多媒体数据中学习这些问题的研究非常迫切，也将是巨大的挑战7。随着WWW上的信息的迅猛增长，许多只支持由关键词和超链接所构成推荐引擎返回的结果中有许多无用及无关的信息，因此，要推荐某一给定话题的Web页面，不仅希望得到与之相关的页面，还希望所检索的页面具有高质量，即针对该话题具有权威性。Web页面中的超链接包含了人类潜在的注释，权威性就隐藏在Web页面链接中。当一个Web页面的作者建立指向另一个页面的指针

39、时，这可以看作是作者对另一页面的认可。把一个页面的来自不同作者的注解搜集起来，就可以用来反映该页面的重要性。因此，大量的Web链接信息提供了丰富的关于Web内容相关性、质量和结构方面的信息，这对Web挖掘是可以利用的一个重要资源。（2）Web使用记录的挖掘：Web使用记录的挖掘的目的是预测用户在网上的行为，比较网站的实际使用与期望的差别，根据用户的兴趣调整网站结构7。Web使用记录的挖掘是从用户存取模式中获取有价值的信息，是对Web上第二类数据即Web日志数据及相关数据的挖掘8，如图2.1所示。这些数据包括：客户端数据、服务器端数据和代理端数据。Web使用记录挖掘可分为一般存

40、取路径追踪和专业化追踪。前者是用KDD技术理解一般访问模式和趋势，如Web日志挖掘；后者是分析某一时刻每一个用户的访问模式，网站根据这些模式自动重建结构，如自适应站点。Web服务器通常保存了对Web页面的每一次访问 9 的Web日志项，或叫Web log项。它包括了所请求的URL 、发出请求的IP地址和时间戳。基于Web的电子商务服务器中保存了大量的Web访问日志记录，热点的Web站点每天可以记录下数以百兆字节的Web log记录。Web log数据库提供了有关Web日志记录，来发现用户访问Web页面的模式。通过分析和探究Web日志记录中的规律，可以识别电子商务的潜在客户，增强对最

41、终用户的因特网信息服务的质量，并改进Web 服务器系统的性能，甚至建立针对个体用户的定制Web服务。站点文件用户会话文件感兴趣的规则模式规则汇总预处理挖掘算法模式分析原始日志图2.1 Web日志挖掘过程 2.1.2 Web 挖掘的步骤挖掘的步骤目前，根据数据挖掘的通用方法，结合Web数据的特点，可以将Web数据挖掘划分为以下5个步骤2，如图2.2所示：网站结构、内容目标数据经过预处理的数据知识表述模式、规则、统计结果预处理数据挖掘模式分析图2.2 Web挖掘的步骤（1）数据的取样：Web环境目前能提供的数据源包括Web页面数据，超链接数据和记录用户访问情况的

42、log数据等。按照主题相关的原则，数据取样从大量数据中取出一个与探索目标相关的数据子集，为后面的数据挖掘提供素材和资源。 10 （2）数据的预处理：数据的预处理是对数据源进行加工处理和组织重构，构建相关主题的数据仓库，为下一步的数据挖掘过程提供基础平台，做好前期准备。它主要包括：数据清理，数据集成，数据转换和数据简约。（3）数据的挖掘：这是数据挖掘系统的核心部分。它的主要功能是运用各种数据挖掘技术，从经过预处理的数据中提取出潜在的、有效的且能被人理解的知识模式。数据挖掘的目标是描述和预测，描述型模式是对数据中存在的规则作一种描述，或者根据数据的相似性把数据分组；而预测则是指根据属

43、性的现有数据值找出其规律性，进而推测出其在未来可能出现的属性值。（4）分析与评估：数据挖掘所得到的知识模式需进行可信度和有效性分析，并对其做出评估结论，为用户的经营决策提供信息支持。如何检验得到的分析结果是否有用，一个简单的办法是直接使用原来建立模型的样板数据进行检验；另一种办法是另外找一些反映客观实际的规律性数据来检验；再一种办法是在实际运行的环境中取出新数据进行检验。（5）知识表述：知识表述是指用适当的形式将利用数据挖掘工具从Web数据中挖掘出来的知识模式表现出来，以利于用户接受和相互交流。数据挖掘的任务是多方面的，主要包括：总结（Summarization）规则挖掘、关

44、联（Association）规则挖掘、分类（Classification）规则挖掘、聚类（Clustering）规则挖掘、预测（Prediction）分析、趋势（Trend）分析、偏差（Deviation）分析等。 2.1.3 Web 数据挖掘任务数据挖掘任务（1）特征抽取：通过对数据源的分析，提取出关于该数据集的一些总体特征表达式。（2）关联分析：找出相互独立的不同事物之间的关联规则，经过关联分析处理，得到结论。（3）属性分类：利用分类器，能够把数据集中的数据项映射到某个分类。例如：可建立一个分类模型，对银行贷款的安全或风险进行分类。（4）聚类分析：在没有给定主题类别的情

45、况下，通过对数据集的分析和比较，把数据划分到不同的组中，组之间的差别尽可能小。（5）时序预测：时序预测和关联分析相仿，是把数据之间的关联性与时间联系起来。为得到时序预测，不仅需要知道事件是否发生，而且需要确定事件发生的时 11 间。例如：情人节前巧克力和鲜花的销量会突然上升。在实际应用中，数据挖掘必须借助一定的工具，这些工具主要包括代理、查询报表、统计分析、数据发现(神经网络/ 决策树模型分析) 以及OLAP(多维分析)和可视化表现等4。 2.1.4 Web 挖掘与挖掘与 Web 推荐推荐 Web 信息挖掘与 Web 信息推荐在实现的技术上有很多相似之处，人们往往将 Web 信息挖

46、掘与 Web 上的信息推荐等同起来，但实际上它们之间是有区别的9,10，主要体现在：（1）Web 上的信息推荐主要是通过查询串来进行推荐，而 Web 信息挖掘则能对用户给的复杂目标进行特征抽取，然后根据所提取的特征在网络中进行搜寻。（2）所有的 Web 信息挖掘基本上都要用到信息推荐技术，而并非所有的 Web 信息推荐都要用到挖掘技术。 Web信息推荐技术不能发现信息背后隐藏的联系和规律，而Web信息挖掘的功能之一就是找出大量看似无关的信息之间的联系和规律，供决策使用。由于Web的异构数据环境、半结构化的数据结构、开放动态的数据存取等特点，使得Web上的信息挖掘实现起来十分困难。

47、必须对挖掘对象进行适当处理，以获得被挖掘对象的有关特征信息。Web上的信息挖掘技术可以借鉴信息推荐技术，因此如何对Web文档进行推荐、预处理而得到关于文档的特征表示，便成为Web信息挖掘研究的一个重点。当前各种信息检索工具的研制是Internet/WWW信息检索与数据挖掘研究的重点。网络信息检索工具的核心是其检索功能。检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索，其中的大多数检索都与数据挖掘的算法相关。其逼近能力的研究与实现体现了数据挖掘结果的质量，要实现多路数据的数据挖掘，开发具有

48、较高挖掘质量的检索工具，必须探索一些知识信息处理的方法。目前，支撑矢量机、粗集、进化算法的研究方兴未艾，某些技术已经成功地运用到 Internet/WWW上的数据挖掘。 12 2.2 几个重要的研究方向几个重要的研究方向 2.2.1 挖掘挖掘 Web 推荐引擎所发现的资源推荐引擎所发现的资源 Web推荐引擎对Web资源的查找还不够充分，Web上的数据大多是HTML格式的，有关某个主题的信息杂乱地散布在Web站点的多个目录下，这样就需要有一个强大的推荐引擎，定位超文本的位置。现有的Web推荐引擎多是基于查询串的，返回的文档过于庞大，所包含的内容质量却不高。而且由于很多与话题相关的文档可能

49、不包含相应的查询串，导致结果很可能也不全面，对文档进行先扩大后缩小的方法来推荐7。 2.2.2 权威页面的识别权威页面的识别 Web不仅由页面组成，而且还包含了一个页面指向另一个页面的超链接。超链接包含了大量人类潜在的注释，权威性就隐藏在这些超链接中。当一个Web页面的作者建立指向另一个页面的指针时，可看作是作者对另一页面的认可。把一个页面来自不同作者的注释收集起来，就可以用来反映该页面的重要性，即用于权威的 Web页面的发现。这样可以进行页面等级的划分，事实上，Web链接结构存在局限性：（1）每一个超链接都代表一个认可，例如广告；（2）由于商业或竞争的考虑，很少有Web页面会指向其竞争领域的权威页面，也就是说显著权威Web上通常不能直接互相认可。权威页面很少具有特别描述之类的自描述信息，这就需要使用 Hub权威方法。一个Hub是指一个或多个Web页面，它提供了指向权威页面的链接集合。 Hub页面本身可能并不突出，或者说可能没有几个链接指向它们，但是，Hub却提供了指向就某个公共话题而言最为突出的站点链接，此类页面可以是主页上的推荐链接列表。 Hub页面起到了隐含说明某话题权威页面的作用，好的Hub是指向许多好的的权威页面

展开阅读全文