毕业设计(论文)-Web挖掘关键技术及研究.doc

上传人:yyf 文档编号:3281649 上传时间:2019-08-07 格式:DOC 页数:27 大小:105.02KB
返回 下载 相关 举报
毕业设计(论文)-Web挖掘关键技术及研究.doc_第1页
第1页 / 共27页
毕业设计(论文)-Web挖掘关键技术及研究.doc_第2页
第2页 / 共27页
毕业设计(论文)-Web挖掘关键技术及研究.doc_第3页
第3页 / 共27页
毕业设计(论文)-Web挖掘关键技术及研究.doc_第4页
第4页 / 共27页
毕业设计(论文)-Web挖掘关键技术及研究.doc_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《毕业设计(论文)-Web挖掘关键技术及研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)-Web挖掘关键技术及研究.doc(27页珍藏版)》请在三一文库上搜索。

1、WebWeb 挖掘关键技术及研究挖掘关键技术及研究 摘要:摘要:近年来,随着计算机的快速发展,利用计算机从庞大的数据中智 能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。随 着互联网的普及和迅猛发展、Web 上信息量的爆炸式增长, 网上的资源 得到极大丰富, 但也充斥着大量的垃圾信息, 人们迫切需要能从这些纷 繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完 善, 人们自然而然想到了要把数据挖掘技术应用到 Web 上来。 Web 挖掘 指在 WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。 该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然 后对 Web 分

2、类以及方法进行了科学的概述,通过对 Web 内容挖掘、Web 结构挖掘和 Web 日志挖掘详细分析和对主要的挖掘算法及最新研究进展 的综合表述,最后介绍了 Web 挖掘的研究方向和发展趋势。 关键词:关键词:Web 挖掘;Web 内容挖掘;Web 结构挖掘;Web 日志挖掘; 结构算法 Web mining key technology and application Abstract :In recent years, with the rapid development of computer Usecomputer data from a large intelligently and

3、automatically extract valuableknowledge models to meet people of different applications. With the popularity of the Internet and rapid development, Webs explosive growth on the amount of information, online resources are extremely abundant, but also filled with a lot of spam, it is the urgent need f

4、or the information from these numerous Wuza find useful knowledge Tools. In view of the increasingly sophisticated data mining tools improve, people naturally think of data mining technology should be applied to Web up. Web mining refers to the WWW on the mining potential, useful patterns and hidden

5、 information process. This paper first outlines the concept of data mining, mining algorithm and its major application areas, and then Web classification and an overview of scientific method, through the Web content mining, Web structure mining and Web log mining detailed analysis and the main excav

6、ation algorithm and integrated presentation of the latest research advances, finally introduced a Web mining research and development trends. Key words: Web Mining; Web content mining;Web Structure Mining; Web log mining;Structure Algorith 目 录 一 、引言 1 二、WEB 数据挖掘的概述2 (一)数据挖掘的基本概念 .2 (二)WEB数据挖掘分类 2 (三

7、) 数据挖掘的技术方法 .3 (四)WEB数据挖掘与相关技术 .4 1.Web 挖掘与传统挖掘.4 2.Web 挖掘与信息检索 5 3.Web 挖掘与信息抽取 5 三、 WEB挖掘的步骤 .6 四、WEB挖掘的分类 6 (一)WEB内容挖掘.7 1.Web 内容挖掘 7 2.从资源查找的观点挖掘非结构化文档 8 3.用资源查找的观点挖掘半结构化文档 9 4.从数据库(Database)的观点挖掘非结构化文档 9 5.目前 Web 内容挖掘的主要应用有:.10 (二).Web 结构挖掘:.11 1.Web 结构挖掘的对象12 2.Web 结构挖掘在一定程度上得益于社会网络和引用分析的研究12 3

8、. Web 结构挖掘主要应用领域.12 4.Web 结构挖掘领域开展的研究13 (三)WEB用法挖掘(WEB USAGE MINING)14 五、WEB 挖掘相关技术.16 (一)统计分析方法.16 (二)关联规则挖掘技术.16 (三)序列模式挖机技术.17 (四) 分类技术 .17 (五)聚类技术.18 六、 WEB 挖掘的发展方向18 七、结束语 19 八、参考文献 20 一 、引言 Web 作为一个巨大的信息源,不仅内容复杂、而且形式各异。 随着 Web 站点自身信息越来越丰富和拓扑结构越来越复杂,目前信 息服务中普遍存在着“信息过载”和“资源迷向”的状况。近年来, 因特网的飞速发展与广

9、泛应用,使得 Web 上的量以惊人的速度增长, 未来 Web 将包含人类信息的主要部分,因此,如何从 Web 中找到感 兴趣的内容变得越来越重要。为数据挖掘提供了丰富的数据源和新 的研究课题。面对 Web 丰富的信息内容,巨大的数据量,加之万维 网分布、动态、海量、异质、复杂、开放性的特点,人们如何从海 量的数据中,查找自己想要的数据和有用信息,迫切需要一种新的 技术能自动地从 Web 资源上发现、抽取盒过滤信息,随之 Web 挖掘 技术应运而生。 Web 挖掘就是从与 WWW 相关的资源和用户浏览行为中发现、抽取 感兴趣的潜在的有用模式和隐藏的信息。它以从 Web 上挖掘有用知 识为目标,以

10、数据挖掘,内容挖掘、多媒体挖掘为基础,并综合运 用计算机网络、数据库、人工智能、信息检索、可视化等技术,将 传统的数据挖掘技术与 Web 结合起来。但是,Web 挖掘与传统挖掘 的数据挖掘相比又有很多独特之处。首先,Web 挖掘的对象是大量、 异质、分布的 Web 文档;其次,Web 在逻辑上是一个由文档节点和 超链接构成的图,因此 Web 挖掘所得到的模式可能是关于 Web 内容 的,也可能是关于 Web 结构的;此外,由于文档本身是半结构化或 无结构的,且缺乏机器可理解的语义,而数据挖掘的对象局限于数 据库中的结构化数据,并利用关系表格等够来发现知识,因此数据 挖掘技术要应用于 Web 挖

11、掘,应当对 Web 文档进行预处理。这样, 开发新的 Web 挖掘技术,以及对 Web 文档进行预处理以得到关于文 档的特征表示,便成为 Web 挖掘研究的重点。 Web 挖掘可在多方面发挥作用,如电子商务中销售搭配、营销策 略,搜索引擎结构的挖掘,搜索引擎的的开发,改进网站结构,确 定权威界面,Web 文档分类,只能查询,个性化信息服务等。 二、Web 数据挖掘的概述 (一)数据挖掘的基本概念 数据挖掘(Data Mining)就是从大量的、不安全的、有噪声的、 模糊的、随机的实际应用数据中,提取潜在的、不为人知的有用信 息、模式和趋势,是一种新兴的处理技术。 (二)Web 数据挖掘分类 从

12、挖掘对象、挖掘任务、挖掘方法等几个方面,将数据挖掘划分 一下类型。 根据挖掘任务分:分类或预测行知识发展、依赖关系或依赖模型 发展、异常和趋势发展等等。 根据挖掘对象分,有如下若干种数据库或数据源:关系数据库、 面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体 数据库、异构数据库、遗产数据库、Web 等。 根据挖掘方法可粗分为:统计方法、机器学习方法、神经网络方 法和数据库方法。统计方法中可细分为:回归分析(多元回归、自 回归等) 、判别分析(贝叶斯判别、费歇尔判别、非参数判别等) 、 聚类分析(体统聚类、动态聚类等) 、探索性分析(主元分析法、相 关分析法等)等。机器学习中可细分为

13、:归纳学习方法(决策树、 规则归纳等) 、基于范例学习、遗传学习方法等。神经网络方法可细 分为:前向神经网络(BP 算法) 、自组织神经网络(自组织特征映射、 竞争学习等)等。 (三) 数据挖掘的技术方法 数据挖掘的方法通常可以分为两大类:一类是统计型,常用的技 术概率分析、相关性、聚类分析和判别分析等:另一类是人工智能 中的机器学习型。通过训练和学习大量的样品集得出需要的模式或 参数。数据挖掘的应用中,最终的目标都是发现有价值的知识信息, 有共同的思路和步骤,但是存在很大的差异和区别。由于各种方法 有自身的功能特点及应用领域,数据挖掘技术的选择将影响最后结 果地质量和效果。下面对数据挖掘中常

14、用的关联分析、决策树和神 经网络等几种技术方法进行讨论,包括技术的基本思想、优势与缺 点和主要应用领域(见表 1) 表 1 技术方法主要功能和特点主要应用领域 关联分析分类、聚类零售业、保险业和通讯业 决策树归纳分类、直观制造业、医药和零售业等 遗传算法聚类、优化、高效性金融业、保险业和农业等 贝叶斯网络分类、聚类和预测;易理解医学、制造业和电信等 粗糙集方法不去定性分类零售业、金融业和制造业等 神经网络预测、分类和聚类;解释性差金融业、保险业和制造业等 统计分析聚类;结果精确、易理解金融业、制造业和医学等 (四)Web 数据挖掘与相关技术 1.Web 挖掘与传统挖掘 Web 挖掘从传统的数据

15、挖掘发展而来, 但是与传统的数据挖掘 相比有许多不同之处。传统的数据挖掘是以数据仓库为基础, 对结 构化的数据源进行信息的加工、分析和模式挖掘。而 Web 挖掘的对 象是半结构化或无结构的 Web 文档,Web 使用信息以及大量的动态 的超链接信息, 缺乏机器可理解的语义。因此有些数据挖掘技术并 不适用于 Web 挖掘, 即使可用也需要建立在对 Web 信息进行预处理 的基础之上。 2.Web 挖掘与信息检索 信息检索与 Web 挖掘类似, 都可帮助用户选择感兴趣的文档。 但是两者之间仍然有很大的差异。Web 信息检索通常只针对静止的 文档集进行操作, 采用短术语表示用户的信息需求, 着重于文

16、档中 显式存储的字词和链接实现快速信息检索, 而且用户常会提出查询 要求。而 Web 挖掘除了关注静止的文档集之外, 还要分析用户的访 问行为, 从连续变化的文档流中识别出用户的兴趣, 并做出相应的 响应。与信息检索相比,Web 挖掘更加注重的是网页内容和结构, 挖 掘结构独立于用户的需求, 是用户无法预知的。 3.Web 挖掘与信息抽取 信息抽取是把信息检索获得的文档集合转换成利于摘要和分析 的信息。它侧重的是从文档中抽取有关事实。由于 Web 庞大, 大多 数信息抽取系统是针对特定的 Web 站点设计, 系统扩展性差。信息 抽取是数据挖掘前的处理阶段,Web 挖掘同样采用了信息抽取中的部

17、分技术。 三、 Web 挖掘的步骤 图 1 Web 挖掘的步骤 (1)资源发现,即搜集所需的网络文档;(2)信息选择和预处 理,即从检索到的网络资源中自动选择和预先处理得专门的信息;(3)模 式发现,即从单个的 Web 站点 以及多个站点之间发现普遍的模式; (4)分析,对挖掘出的模式进行确认或者解释。 Web 挖掘不同于传统的数据挖掘,它可以随互联网中的非结构 化得异构的 Web 文档集合进行有效地挖掘。Web 挖掘通常分为内容 挖掘(WCM) 、Web 结构挖掘(WSM)和 Web 使用记录挖掘(WUM) 。 Web 内容挖掘时冲 Web 文档内容或其描述中抽取知识的过程。它主 要研究隐藏

18、在半结构化数据中的模式和数据实体。研究方法有词频 统计、分类计算、机器学习、模式识别、元数据等。Web 使用记录 挖掘是从 Web 使用记录中抽取感兴趣的模式,其研究的重点是数据 预处理和日志挖掘算法。如下图所示。 模式分析资源发展 信息选择 与预处理 模式发现 四、Web 挖掘的分类 Web 数据有三种类型:Web 数据,即人们通常所说的 Web 文档 (主要是 HTML 或 XML 格式的) 、Web 结构数据(如 Web 文档中 的超链接) 、用户访问数据(如服务器上的日志信息) 。相地,Web 挖掘也分为三类:Web 内容挖掘、Web 结构挖掘、Web 使用挖掘。 如图 2 所示 图

19、2 Web 挖掘的分类 (一)Web 内容挖掘 1.Web 内容挖掘 Web 内容挖掘是从文档内容或其描述中抽取知识的过程。Web 文 档文本内容的挖掘,是基于概念索引的资源发现。Web 内容挖掘有 Web 挖掘 Web 内容挖掘 内容挖掘内容挖掘 Web 结构挖掘 结构挖掘 Web 日志挖掘 Web 文档的自动分类搜索结构归纳用户访问模式分析自适应 Web 站点 站点 两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行 改进。采用第一种策略的有针对 Web 的查询语言 Web Log, WebOQL 等,利用启发式规则来寻找个人主页信息等等。采用第二种策略的 方法主要是对搜索引擎的查

20、询结果进行第一步的处理,得到更为精 确和有用的信息。属于该类的有 WebSQL。及对搜索引擎的返回结果 进行聚类的技术等。 Web 内容挖掘的数据对象即可以是结构化的也可以是非结构化的、 半结构化的。Web 内容挖掘的结果既可以是对某个文件内容的概括, 也可以是对整个文本集合的分类结果或聚类结果等等。 目前 Web 内容挖掘的主要研究内容是对 Web 上大量文档集合的 内容进行总结、分类、聚类、关联、分析、科学文献资料浏览导航, 以及利用 Web 文档进行趋势预测。 Web 内容挖掘一般从两个不同的观点来进行研究。从资源查找 (IR)的观点来看,Web 内容挖掘的任务是从用户的角度出发,怎 样

21、提高信息质量和帮助用户过滤信息。而从 DB 的角度讲 Web 内容挖 掘的任务主要是试图对 Web 上的数据进行集成、建模,以支持对 Web 数据的复杂查询。 2.从资源查找的观点挖掘非结构化文档 非结构化文档主要指 Web 上的自由文本,包括小说、新闻等。 在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋 (bag of words)或称向量表示法(vector representation)的基 础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的 角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属 性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度, 即该词

22、汇在文档中的出现频率。这种方法可以扩展为选择终结符、 标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊 端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为 解决这个问题人们做了相应的研究,采取了不同技术,如信息增益, 交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有 意义的方法是潜在语义索引(Latent Semantic Indexing) ,它通过 分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个 公共的根代替所有词汇,以此来减少维空间。例如:“informing” 、 “information” 、 “informer” 、 “informed”可以

23、用他们的根 “inform”来表示,这样可以减少属性集合的规模。 其他的属性表示法还有词汇在文档中的出现位置、层次关系、 使用短语、使用术语、命名实体等,目前还没有研究表明一种表示 法明显优于另一种. 3.用资源查找的观点挖掘半结构化文档 与非结构化数据相比,Web 上的半结构化文档挖掘指在加入了 HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文 本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模 式和规则等。 4.从数据库(Database)的观点挖掘非结构化文档 数据库技术应用于 Web 挖掘主要是为了解决 Web 信息的管理和 查询问题。这些问题可以分为三类:Web

24、 信息的建模和查询;信息 抽取与集成;Web 站点建构和重构. 从数据库的观点进行 Web 内容挖掘主要是试图建立 Web 站点的数据 模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的 搜索。这要通过找到 Web 文档的模式、建立 Web 数据仓库或 Web 知 识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行 的。 数据库观点主要利用 OEM(Object Exchange Model)模型将半结 构化数据表示成标识图。OEM 中的每个对象都有对象标识(OID)和 值,值可以是原子类型,如整型、字符串型、gif、html 等,也可 以是一个复合类型,以对象引用集合的形式表

25、示。由于 Web 数据量 非常庞大,从应用的角度考虑,很多研究只处理办结构化数据的一 个常用自集。一些有意义的应用是建立多层数据库(MLDB) ,每一层 是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。 对于在半结构化数据上的查询语言研究也得到了人们的重视并做了 专题研究。 由于在数据库观点下数据的表示方法比较特殊,其中包含了关 系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数 据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法 进行研究。 5.目前 Web 内容挖掘的主要应用有: 超文档的分类; 学习 Web 文档的之间的关系; 学习模式或规则; 半结构查询语言

26、与模式抽取(Lorel,DIPRE 迭代算法等) 半结构化模式(schema)抽取; Web 异构数据集成(Information integration) ; 基于 Ontology 的语义 Web 和半结构化文档的信息获取; 文本挖掘中文本分类和归类,决策树算法和贝叶斯网络的应用; 主题抽取和文本分类; 文本数据库的知识发现; 定制化的内容过滤。 (二).Web 结构挖掘: Web 结构包括不同网页之间的超链接结构和一个网页内部的可 以用 HTML 或 XML 表示成的树形结构,以及文档 URL 中的目录路径结 构等。Web 结构挖掘是从 WWW 的组织结构和链接关系中推导知识。 主要是通

27、过对 Web 站点的结构进行分析、变形和归纳,将 Web 页面 进行分类,以利于信息的搜索。由于文档之间的互联,WWW 能够提 供除文档内容之外的有用信息。利用这些信息,可以对页面进行排 序,发现重要的页面。这方面的工作的代表有 PageRank 和 CLEVER。除此之外,在多层次 Web 数据仓库(MLDB)中也利用了页面 的链接结构。 Hits、Pagerank 以及在链接结构中增加了 Web 内容信息的 hits 改进算法等,主要用于模拟 Web 站点的拓扑结构,计算 Web 页面的 等级和 Web 页面之间的关联度,电信的例子是 CLVEAVER system 和 Google。 W

28、eb 结构挖掘所有得到的模式,可以揭示许多蕴含在 Web 内容之外 的隐含着的有用信息。如通过文档之间的超链接,可以挖掘出文档 之间的引用关系,从而有助于找到与用户请求相关的权威页面;通 过分析 Web 网页内部树形结构,可以发现与给定叶面集合相关的其 它页面;Web 页面的 URL 同样可以反映页面的类型以及页面之间的 从属关系,通过分析页面的 URL 信息, 可以找到改变了位置的 Web 页面的新位置。 1.Web 结构挖掘的对象 Web 结构挖掘的对象是 Web 本身的超连接,即对 Web 文档的结 构进行挖掘。对于给定的 Web 文档集合,应该能够通过算法发现他 们之间连接情况的有用信

29、息,文档之间的超连接反映了文档之间的 包含、引用或者从属关系,引用文档对被引用文档的说明往往更客 观、更概括、更准确。 2.Web 结构挖掘在一定程度上得益于社会网络和引用分析的研究 把网页之间的关系分为 incoming 连接和 outgoing 连接,运用 引用分析方法找到同一网站内部以及不同网站之间的连接关系。在 Web 结构挖掘领域最著名的算法是 HITS 算法和 Page Rank 算法。他 们的共同点是使用一定方法计算 Web 页面之间超连接的质量,从而 得到页面的权重。著名的 Clever 和 Google 搜索引擎就采用了该类 算法。 3. Web 结构挖掘主要应用领域 Web

30、 结构挖掘主要应用于 WWW 上的信息检索领域,HITS 算法和 Page Rank 算法都是利用网页间的超链接信息对搜索引擎的检索结 果进行相关度排序。另外,在信息检索领域的应用还包括寻找个人 主页和相似网页等。 除此之外,Web 结构挖掘可以提高搜索蜘蛛在网上的爬行效率, 其搜索策略是沿着超链接优先爬行具有最高 PageRank 值的网页,从 而使其以最短的路径、最少的时间发现最多最新的文档信息。 Web 主机的镜像使得搜索引擎为镜像网页建立了大量重复的索 引,不仅造成了存储空间的浪费,而且直接导致了检索结果的重复。 由于近似镜像 Web 页的主机在链接结构上非常近似,因此 Bharat

31、等 人通过将 IP 地址分析、URL 模式分析和链接结构分析相结合的方法, 可以检测到大量的近似镜像 Web 页。近似镜像检测算法已经被成功 地应用于消除“搜索引擎”系统的重复网页,成为提高搜索引擎服 务质量的关键技术之一。 另外,Web 结构挖掘还可以用于对 Web 页进行分类、预测用户 的链接使用及链接属性的可视化、对各个商业搜索引擎索引的 Web 页数量进行统计分析等 4.Web 结构挖掘领域开展的研究 (1) 理解用户偏好的 Web 检索系统。可以从用户查询的上下文环境 (context)发现用户的查询目标文档范围和分类并在该分类上做进 一步的查询和多次反馈; (2) Web 文档的分

32、类与聚类。根据查询词可能属于的分类范畴或相 关类别的聚类,分别生成局部专题提供给查询用户,这样可以提高 主题挖掘的深度和准确性. (3) 基于 Web 数据抽取的知识搜索引擎。Web 数据抽取技术运用机 器学习算法,分析 HTML 标签和数据的关系,建立半结构化数据 schema,按照定义的 schem 把页面中有价值的数据抽取出来并保存 在数据库中以提供结构化查询服务; (4) 基于自然语言理解的搜索引擎。利用自然语言进行 Web 查询需 要解决如文本挖掘(Text Mining)和 NLP 等关键技术,目前提供 自然语言查询的 Web 搜索引擎如 AskJeeves 能提供一些最基本的理

33、解能力。随着 NLP 技术的发展和成熟,利用人类语言查询将成为重 要的信息获取手段; (5) 基于语义 Web(Semantic Web)的信息检索。语义 WebLee98 是从传统 HTML Web 过渡到知识化 Web 下一代信息组织和表达方式。 与 HTML 不同,语义 Web 利用可扩展标识语言 XML 编写,所有数据 都有确定的语义而不是像 HTML 那样各个标签之间无法区分。通过 XML 和 RDF 框架,可以建立起对知识进行描述和管理的有效方法, 使得 Web 上的数据可以被机器所理解并集成到各个不同的应用程序 中。由于语义 Web 规范化的定义和数据的自描述特性,对数据的推 理

34、和联想成为可能,基于语义 Web 的信息检索和知识发现将成为下 一代智能信息检索的重要研究方向。 (三)Web 用法挖掘(Web usage Mining) 除了 Web 内容和 Web 链接结构,Web 挖掘的另一个重要任务是 Web 日志挖掘,它通过挖掘 Web 日志记录来发现用户访问 Web 页面 的模式。通过分析和探究 Web 日志记录中的规律,可以识别电子商 务的潜在用户,增强对用户的因特网信息服务的质量和交付,并改 进 Web 服务器系统的性能和结构。目前研究较多的 Web 日志挖掘技 术和工具可分为两大类:模式发现和模式分析。 在模式发现中,首先要解决的额问题就是数据的预处理,它

35、主 要包括如下两个部分:数据清洗(data cleaning)包括无关记录的 剔除、判断是否有重要的额访问没有被记录、用户的识别等问题; 事务识别(transaction identification)是指将页面访问序列划 分为代表 Web 事务或用户会话的逻辑单元。在对事务进行划分后, 就可以根据具体的分析需求选择访问模式发现的技术,如路径分析、 关联规则挖掘、时序模式以及聚类和分类技术。路径分析(path analysis)可以用来分析 Web 站点中最常被访问的路径,从而可以 调整站点的结构。模式分析利用领域专家的知识以及其它一些可用 的标准来分析这些模式,并过滤掉那些没有利用价值以及有

36、偏差的 模式,将发现的有价值的用户浏览模式以表格、饼图、曲线图、趋 势图、直方图或者其它特殊形式表现形式显示出来。如果没有适合 的技术和工具来辅助分析人员的理解,采用各种技术挖掘出来的模 式将不能得到的很好的利用。 五、五、WebWeb 挖掘相关技术挖掘相关技术 模式发现是 Web 挖掘的主要阶段,采用的算法有统计分析、关 联规则挖掘、路径分析、时序模式发现、聚类和分类算法等。 (一)统计分析方法(一)统计分析方法 它是抽取有关网站访问者知识的最常用方法。通过分析会话文 件或事物数据库,可对诸如网页视图、浏览时间、导航路径长度等 做出不同的描述性统计分析。很多 WebTraffic 分析工具还

37、提供定期 的报告,其中包含最大频繁访问页面、平均浏览时间、通过站点的 路径的平均长度统计信息。此类报告还能提供有限的低层次的错误 分析,比如检测未授权入口点、找出最常见不变的 URL 等。尽管这 种分析缺乏深度,但这类知识有助于改进系统性能、提高系统的安 全性、便于站点修改,并能提供决策支持。 (二)关联规则挖掘技术(二)关联规则挖掘技术 关联规则主要关注事务内的关系。在网络用法挖掘中,关联规 则挖掘就是挖掘用户在一个访问期间(Session)从服务器上访问的 页面/文件之间的关系,找出在某次服务器会话中最经常一起出现的 相关页面。挖掘发现的相关规则往往是指支持度超过预设值的一组 访问页,这些

38、网页之间可能并不存在直接的应用(Reference)关系。 例如,用 Apriori 算法发现关联规则有可能发现访问包含网络搜索 引擎网页的用户和访问有关 NASDAQ(纳斯达克)市场页面的用户之 间的常用技术,可从事务数据库中挖掘出最大频繁访问项集,该项 集就是关联规则挖掘出来的用户访问模式。 (三)序列模式挖机技术(三)序列模式挖机技术 时序模式主要关注事务之间的关系。序列模式挖掘就是挖掘出 交集之间序列关系的模式,在 Web Log 中发现所有满足用户规定的 最小支持度的大序列模式。在网站服务器日志中,用户的访问是以 一段是按金为单位记载的,经过数据精简事件交易确认以后是一个 间断的时间

39、序列,有助于网站管理人员:a.改善网站的组织;b.根 据具有相同浏览器模式的访问者说访问的内容来裁减用户与 Web 信 息空间的交互,减少用户过滤信息的负担;c.预测未来的访问模式, 了解 Web 正在发生的变化。相关序列模式的存取的分析,可对服务 器的缓存、预取和交换参数进行调整。 ( (四四) ) 分类技术分类技术 分类计数主要是根据用户的特征用户群的访问特征(某些共同 点额特性) 。这些特征可用于把数据项映射到预先定义好的类中去。 即对新添加到数据库里的数据进行分类。在网络数据挖掘中,分类 计数可以根据访问这些用户而得到的个人信息或共同访问模式得出 访问某一服务器文件的用户特征。分类方法

40、有很多种,常使用归纳 学习算法,如决策树技术、贝叶斯分类法、K-邻近分类法。 (五)聚类技术(五)聚类技术 局累计数是否合某一访问规律特征用户进行用户特征挖掘。在 网络用法挖掘中,存在两种类型的聚类:使用聚类(用户聚类)和 网页聚类。用户聚类主要是把所有用户划分为若干组,具体有相似 特性(或浏览模式)的用户分在一组,这类知识对为用户提供个性 化服务特别有用。网页类聚可以找出具有相关内容的网页组,这对 网上搜索引擎及提供上网帮助的应用特别有用。上述两类应用都能 根据用户的询问或过去所需求的信息的历史生成静态或动态 HTML, 从而向用户推荐相关的超链接。目前许多知名的门户网站如搜狐, 新浪等均在

41、用户浏览网页后给出相关链接服务,就是运用了这类技 术。 六、六、 WebWeb 挖掘的发展方向挖掘的发展方向 目前,在国内外 Web 挖掘的研究处于初级阶段,是前沿性的研 究领域。在 Web 挖掘领域中面临下列诸多方面的挑战: (1)在数据预处理方面,数据的收集机制也技术开发 (2)研究和开发多种数据的智能集成系统,以期能提供完善的查 询、优化和维护机制。 (3)高效、多能、自动导航的搜索引擎的研究。 (4)基于半结构化的 Web 数据查询语言及查询系统的研究 (5)现有挖掘方法与技术改进。 (6)模式发现与分析智能化工具的研究与开发。 (7)新的数据模型与算法研究。 七、结束语 Web 挖掘

42、是当今世界上的热门研究领域,其研究有助于网络资 源的开发利用,具有广阔的应用前景和巨大的现实意义。目前国内 的 Web 挖掘尚处于学习、跟踪和探索阶段,许多问题有待于进一步 的研究和深化。随着 XML 技术的发展,页面会蕴含更多的结构化个 语义信息,者会使 Web 挖掘工作变得更有效,也更容易。 八、参考文献 1 朱丽红, 赵燕平. Web 挖掘研究综述J . 情报技术, 2006 .7 2 陈新中, 李 岩, 杨炳儒, 等.Web 日志挖掘技术进展J . 系 统工程与电子技术, 2006.4 3 涂承胜, 鲁明羽, 陆玉昌. Web 挖掘研究综述J. 计算机工程 与应用, 2008 .10

43、4 蒋良孝, 蔡之华. Web 挖掘及其应用研究. 现代计算机, 2005 5毛国君. 数据挖掘原理与算法M.清华大学出版社.2009.1 6 Kosala R , Blockeel H. Web Mining Research : A Survey. SIGKDDExlloration , 2007 7Bing liu.Web Data MiningM.清华大学出版社.2009.4 8 ZHU Lihong, Zhao Yanping. Web Mining Research SurveyJ. Information Technology.2006.7 9 Guojun Mao. Data mining principles and algorithms M. Tsinghua University Press.2009.1 10 Yu-Chang Lu. Web Mining Research SurveyJ. Computer Engineering and Applications.2008.10

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 研究报告 > 信息产业


经营许可证编号:宁ICP备18001539号-1