WEB数据挖掘技术探索与应用.pdf

上传人:哈尼dd 文档编号:3680231 上传时间:2019-09-20 格式:PDF 页数:4 大小:320.36KB
返回 下载 相关 举报
WEB数据挖掘技术探索与应用.pdf_第1页
第1页 / 共4页
WEB数据挖掘技术探索与应用.pdf_第2页
第2页 / 共4页
WEB数据挖掘技术探索与应用.pdf_第3页
第3页 / 共4页
WEB数据挖掘技术探索与应用.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《WEB数据挖掘技术探索与应用.pdf》由会员分享,可在线阅读,更多相关《WEB数据挖掘技术探索与应用.pdf(4页珍藏版)》请在三一文库上搜索。

1、山东纺织经济2 0 0 9 年第6 期( 总第1 5 4 期) W e b 数据挖掘技术探索与应用 居晓琴周学全 ( 南通航运职业技术学院管理信息系 江苏南通 2 2 6 0 0 6 ) 摘要:W e b 数据挖掘是当今世界上的热门研究领域,本文从W e b 数据挖掘的定义开始分析研究 W e b 数据挖掘的难点、过程等相关技术,并计论其在电子商务领域中的相关应用。 关键词:W e b 数据挖掘:电子商务 中图分类号:T P 3 9 3 0 3文献标识码:A d o i :1 0 3 9 6 9 j i s s n 1 6 7 3 0 9 6 8 2 0 0 9 0 6 0 5 8 E x p

2、 l o r a t i o na n dA p p l i c a t i o no fT h eW e bD a t aM i n i n gT e c h n o l o g y J uX i a o q i nZ h o uX u e q u a n ( D e p a r t m e m o f A d m i n i s t r a t i o n I n f o r m a t i o n , N a n t o n g V o c a t i o n & T e c h n i c a l S h i p p i n g C o l l e g e , N a n t o n

3、9 2 2 6 0 0 6 , C h i n a ) A b s t r a c t :T h eW e bd a t am i n i n gi so n eo ft h em o s tp o p u l a rf i e l d so fI e s e a r c ha l lo v e rt h ew o r l dt o d a y S t a r t i n gf r o md e f i n i t i o no fW e bd a t am i n i n g , t h i sp a p e ra n a l y z e dt h ed i f f i c u l t ya

4、 n dt h ep r o c e s so fW e bd a t a m i n i n ga n da l s om a i n l yd i s c u s s e dt h er e l a t e da p p l i c a t i o no fW e bd a t am i n i n gi nt h ee l e c t r o n i cc o m m e r c ed o - m a i n K e yW o r d s :W e bd a t am i n i n g , e l e c t r o n i cc o m m e r c e 0 引言 随着W e b

5、技术的日渐成熟、I n t e r n e t 的应用的 普及,使得数据挖掘技术的重点已经从传统的基于 数据库的应用转移到了基于W e b 的应用。例如在网 站客服中心,我们需要把同客户的谈话转化成为文 本数据。再对这些数据进行挖掘进而了解客户对 服务的满意程度和客户的需求以及客户之间的相 互关系等信息。W e b 挖掘可以对W e b 上大量文档集 合的内容进行总结、分类、关联分析等。下面将对 W e b 挖掘技术做系统性的研究和探讨并在此基础 上介绍W e b 挖掘在电子商务中的应用。 1 W e b 数据挖掘概念 W e b 挖掘是利用数据挖掘技术从W e b 服务中 抽取信息的过程。是

6、对W e b 资源中蕴涵的、未知的、 有潜在应用价值的模式的提取。他反复使用多种数 据挖掘算法,从观测数据中确定模式。涉及到I n t e r - n e t 技术、人工智能、计算机语言学、信息学、统计学 等多个领域。是将数据挖掘技术和理论应用于对 _ 网i r W 资源进行挖掘的一个新兴的研究领域。 对W e b 数据挖掘可做如下定义:W e b 数据挖掘 是指W e b 从文档结构和使用的集合C 中发现隐含 的模式P 。如果将C 看作输入,P 看作输出,那么 W e b 挖掘的过程就是从输入到输出的一个映射:O t : C P 。 W e b 数据挖掘源于数据挖掘,目的在于可以处 理非结构

7、化的数据W e b 数据的非结构化这一显著 特征使W e b 数据挖掘更加复杂。根据对W e b 数据 的感兴趣程度不同,通常W e b 挖掘般可以分为三 类:W e b 内容挖掘、W e b 结构挖掘、W e b 用法挖掘。 2W e b 数据挖掘技术研究 2 1 W e b 数据挖掘的难点 从数据库研究的角度出发,W e b 网站上的信息 也可以看作一个更大、更复杂的数据库。W e b 上的 每个站点就是一个数据源,每个站点之间的信息和 组织都不一样,没有特定的模型来描述,并且数据 本身具有自述性和动态性,这就构成了一个巨大的 异构数据库环境。要从这些分散的、异构的、没有统 一管理的海量数

8、据中快速、准确地获取信息也成为 W e b 挖掘需要解决的一个难点。因此要得到关于 收稿日期:2 0 0 9 - 0 8 1 3 作者简介:居晓琴( 1 9 7 9 一) ,女,江苏南通人,讲师,硕士;周学全( 1 9 7 3 一) ,男,山东烟台人,讲师。 1 4 4 万方数据 PDF Watermark Remover DEMO : Purchase from www.PDFWatermarkR to remove the watermark 2 0 0 9 年第6 期( 总第1 5 4 期)山东纺织经济墨蓬蚕固 文档的特征表示。我们需要开发新的W e b 挖掘技术 以及对W e b 文档

9、进行预处理以得到我们所需的数 据,以下是我们需要考虑的问题。 ( 1 ) 数据来源分析 在对网站进行数据挖掘时。所需要的数据主要 来源于W e b 服务器中的日志文件、其他信息及客户 的背景信息。客户的背景信息,主要来源于客户登 记表;而另一部分数据主要来自浏览者对网页的请 求和浏览过程中的点击流。每当站点被访问一次, W e b l o g 在日志数据中就增加相应的记录。W e b 分析 工具可以通过分析和处理W e b 服务器日志文件生 成有意义的信息,用于考察客户的行为表现。W e b 服务器还可以存储其他有关的信息如C o o k i e 、客 户提交的查询信息、文件的有关信息等如文件

10、的 创建者、修改时间等。我们需要从这些非结构化数 据信息中有效地挖掘出有用的信息。并根据最终客 户的决策目的对提取的信息进行分析把最有价值 的信息区分开来提交给决策者。 ( 2 ) 异构数据环境 W e b 上每个站点就是一个数据源。每个数据源 都是异构的。因而每一站点间的信息和信息的组织 都不一样,这样就构成了一个巨大的异构数据库环 境。利用这些数据挖掘我们必须要研究站点间异构 数据集成问题,只有将这些站点的数据都集成起 来,提供给客户一个统一的视图,才能从巨大的数 据资源中获取所需的东西。 ( 3 ) 半结构化的数据结构 W e b 中有大量丰富的数据,这些数据没有严格 的结构及类型定义。

11、这些都是逻辑层半结构化的数 据。I n t e r n e t 上的数据与传统数据库中的数据不同。 传统的数据库都有一定的数据模型。可以根据模型 来具体描述特定的数据。而W e b 上的数据非常复 杂,没有特定的模型描述,每一站点的数据都各自 独立设计并且数据本身具有自述性和动态可变 性。因而,I n t e m e t 上的数据具有一定的结构性但因 自述层次的存在,是一种非完全结构化的数据,这 也被称为半结构化数据。半结构化是W e b 上数据的 最大特点,也成为数据挖掘最大的难点之一。 ( 4 ) 解决半结构化数据源问题 W e b 数据挖掘技术必须要解决半结构化数据 源模型和半结构化数据

12、模型的查询与集成问题。解 决W e b 上的异构数据的集成与查询问题。就必须要 一个模型来清晰地描述W e b 上的数据。针对W e b 上的数据半结构化的特点寻找一个半结构化的数 据模型是解决问题的关键所在。 ( 5 ) 文本总结 文本总结是指从文档中抽取关键信息用简洁 的语言对文档内容进行摘要或解释。这样。客户在不 需要浏览全文的前提下就可以了解文档的大概内 容。正因为在搜索引擎中利用文本总结。所以当向客 户返回查询结果时,我们能很快给出文档的摘要。 2 2W e b 数据挖掘过程。 W e b 数据挖掘一般分为以下几步: ( 1 ) 资源发现 。 在W e b 中收信息资源,从目标W e

13、 b 文档、电子 邮件、电子文档、新闻组或者网站的日志数据中得 到数据。 ( 2 ) 信息选择与预处理 从取得的W e b 资源中过滤无用信息和将信息 进行必要的整理如英文单词的词干提取、高低频词 过滤。汉语的革分和索引建立;对W e b 日志文件及 W e b 数据库或数据仓库中的数据进行数据预处理。 从W e bS e r v e r 数据库中抽取相关数据,进行二义分 析。消除不一致性。确定浏览页面、客户访问序列 等。将客户访问留下的原始日志整理成事务数据 库。供数据挖掘使用。 ( 3 ) 模式发现 在同一个站点内部或在多个站点之间发现 W e b 站点的共有模式。 ( 4 ) 分析过程、

14、 由机器自动完成或与分析人员进行交互来完 成对上一步中挖掘的模式进行验证和可视化处理。 2 3W e b 数据挖掘分类 W e b 数据挖掘可分为三类:W e b 内容挖掘、 W e b 信息挖掘和W e b 客户访问模式挖掘。后两种方 式是W e b 挖掘的主要方面。 ( 1 ) W e b 内容挖掘 W e b 内容挖掘是指从非结构化的数据。如文本 数据、音频数据、视频数据、图形数据等多种数据相 融合的多媒体数据中获取潜在的、有价值的知识或 模式的过程。 W e b 挖掘分为W e b 文本挖掘和W e b 多媒体挖 掘。W e b 文本挖掘有基于数据库方法、建立W e b 数 据仓库方法

15、和基本于软件A g e n t 的分类器方法以及 】4 5 万方数据 PDF Watermark Remover DEMO : Purchase from www.PDFWatermarkR to remove the watermark 墨臣圆山东纺织经济 2 0 0 9 年第6 期( 总第1 5 41 暂t ) 基于概念的文本信息挖掘方法,利用这些方法,我 们可以很方便的对W e b 上大量的文档集合的内容 进行总结、分类、聚类、关联分析以及利用W e b 文档 进行趋势分析等。W e b 多媒体的信息挖掘通常采用 的方法是基于概念的文本信息挖掘。W e b 多媒体的 信息挖掘通常采用的方

16、法为关联规则法和特征提 取法对W e b 上的音频、视频数据和图像进行预处 理,对其中潜在的、有意义的信息和模式进行挖掘。 ( 2 ) 结构挖掘 W e b 结构指不同网页之间的超链接结构和一 个页面内部的树形结构以及文档U R L 中的目录路 径结构等。W e b 结构挖掘目的是为了发现W e b 结构 和页面结构。利用这些结构信息对其进行聚类、分 类,揭示文档中所包含的信息,利用这些结构所蕴 涵的信息可发现很多有用的模式或知识同时也可 以揭示文档问的关联关系所代表的信息,从而找到 权威页面。 ( 3 ) 访问挖掘 W e b 访问挖掘也称为w e b 使用记录挖掘。对于 网站而言,网页浏览

17、量、点击数、独立I P 访问数等参 数是反映这个网站客户访问情况的重要指标。而在 w e b 上提供信息资源的服务器上都有一个结构比 较好的记录集即W e b 访问L o g 日志,包括服务器 端的S e r v e rL O g 和客户端的C o o k i eL o g 等。对这些 统计数据进行的数据挖掘,分析不同的W e b 站点和 W e b 访问日志可以帮助人们理解客户行为和W e b 结构,从而有效地提高网站的服务。例如:通过分析 每天各个时段访问者人数的变化。网站可以调整更 新的时间。 3W e b 数据挖掘在电子商务中的的应用 3 1 电子商务中W e b 数据挖掘的功能 电子

18、商务是指个人或企业通过I n t e m e t 。采用数 字化电子方式进行商务数据交换和开展商务活动 包括财产清算、广告、分销及支付货物和服务。W e b 上的商务交易已成为目前电子商务最广泛的应用 形式,对网站数据进行分析挖掘即w e b 挖掘有利于 合理建造网站及合理设计服务器。在I n t e m e t 上的 客户都会意识到,只要他们连接到一个在线市场的 服务器上。就已经在这个服务器上留下一个“脚 印”,这就是服务器的日志文件。我们可以对这些日 志文件进行W e b 数据挖掘,提取关于客户的知识 1 4 6 对客户的访问行为、内容等进行分析,用以改进 W e b 服务方式的设计。通过

19、W e b 数据挖掘,就可以 根据客户的访问兴趣、访问频度、访问时间动态地 调整页面结构、改进服务。我们可以把广告放在适 当的W e b 页上或根据需求动向动态地向客户做页 面推荐,提高客户满意度,延长客户驻留时间,这样 将有助于商家制定促销策略。以呈现给客户个性化 的界面。开展有针对性的电子商务以更好地满足访 问者的需求。也有助于提高企业竞争力。 3 2W e b 挖掘出现的基本问题 在应用中W e b 数据挖掘还存在一些问题需要 注意。 ( 1 ) 客户确定 客户是指通过一个浏览器访问一个或几个服 务器的个体。在W e b 挖掘中对于实际使用中唯一确 定一个客户很难,有时候可以把服务1 3

20、 志、代理和 参照页面日志结合起来确定一个客户。这样,针对 单个客户的使用记录对该客户进行建模,结合该客 户基本信息分析他的使用习惯和个人喜好,以电子 商务环境下为该客户提供与众不同的个性化服务。 ( 2 ) 客户访问序列的确定 就是按照时间顺序找出客户请求的一系列页 面。一般服务器日志是以访问客户的I P 地址为辅 键、访问时间为主键排列的,因此,找出统一的I P 按 时间访问的页面序列,就构成了客户访问系列。当 然。还存在不少缺陷,数据仓库很可能是动态的、有 错误而且不完整的、有冗余、稀疏的,当然也是很大 的。在数据准备阶段,尚没有较好的方法快速去除 或修改噪音数据及处理空缺的数据。因此,

21、在使用 知识发现功能和技术的同时,需要小心分析异常。 ( 3 ) 完善访问路径 由于存在着客户端的缓存,客户浏览页面时能 使用浏览器的后退功能。要根据客户访问的前后页 面进行推理将其疏漏的页面补在路径里。将数据库 大量的数据可视化需要复杂的数据可视化工具,但 由于数据库中的数据量非常巨大,很容易使分析员 变得不知所措而W e b 数据挖掘可通过设定有效的 探索始点并按恰当的隐喻来表示数据以给予帮助。 当然W e b 数据挖掘是一个新兴的技术、前沿 的学科,在应用过程中我们还发现W e b 数据挖掘系 统需要在硬件、操作系统软件和数据库系统采用并 行技术,这些资源大大增加了成本。 万方数据 PD

22、F Watermark Remover DEMO : Purchase from www.PDFWatermarkR to remove the watermark 2 0 0 9 年第6 期( 总第1 5 4 期)山东纺织粥嘲 3 3 电子商务中的W e b 数据挖掘的几点应用 许多供应商将数据挖掘技术用于电子商务,以 提高I n t e m e t 站点和客户的关联性。比如Y A H O O ! 不仅使用数据挖掘工具,而且还收购了数据挖掘公 司H y p e r p a r a U e 。I B M 已经发布了以W e b 为中心的 数据挖掘解决方案S u r f A I D 。S u I

23、 f A I D 跟踪W e b 统计 数据,通过分析它们来了解客户如何与站点交互。 采用I B M 自己的数据挖掘技术。S u r f A I D 能让计算 机市场人员很容易地了解客户如何在与他们的站 点交互。目前。越来越多的软件供应商加入了数据 挖掘这一领域的竞争。我们如何正确评价一个商业 软件,选择合适的软件成为数据挖掘成功应用的关 键。我们主要从其计算性、功能性、可用性、辅助功 能等等方面来评价W e b 挖掘软件。 利用W e b 挖掘软件我们可以对电子商务中的 活动进行一系列挖掘,主要应用于如下几个方面。 ( 1 ) 挖掘潜在的客户 通过对W e b 的客户访问信息的挖掘,我们发

24、现,一方面我们需要挽留老客户,8 0 2 0 定律表明企 业8 0 的业务来自于2 0 的客户。通过W e b 挖掘 可以发现什么样的顾客群在网站上购买什么商品 哪些是网站的忠诚客户,以对其进行个性化营销。 另一方面,利用分类技术可以在I n t e m e t 上找到未 来的潜在客户。对于一个新的访问者。通过在W e b 上的挖掘,识别出这个客户与已经分类的老客户的 一些公共的描述。从而对这个新客户进行正确的分 类,然后根据分类判断新客户的属性,决定是否把 这个新客户作为目标客户来对待。通过挖掘分析进 而了解客户的需求及满意程度以在电子商务环境 下为该客户提供与众不同的个性化服务。 ( 2

25、) 延长客户驻留时间 对销售商来说使客户在自己的站点上驻留更 长的时间将是一个挑战。为了使客户在自己的网站 上驻留更长的时间。就应该通过对客户访问信息的 挖掘了解客户的浏览行为。通常客户一次访问的周 期可分为被吸引、驻留、购买和离开4 个步骤。W e b 挖掘可以通过分析客户点击流等W e b 日志信息挖 掘客户行为的动机,知道客户的兴趣及需求所在, 动态地调整W e b 页面,以满足客户的需要。帮助销 售商合理安排销售策略。 ( 3 ) 优化站点设计 W e b 服务的性能、质量及网站结构、内容和外 观是衡量客户满意度的关键指标。首先。利用w e b 挖掘可以通过客户的记录发现站点的性能瓶颈

26、。以 提示站点管理者改进W e b 缓存策略、网络传输策 略、流量负载平衡机制和数据的分布策略。其次,可 以通过分析网络的非法入侵数据找到系统弱点,提 高站点安全性。此外,W e b 挖掘可以通过客户的行。 为记录和反馈情况来修改和设计网站结构、内容和 外观以让客户能够轻易地访问到想访问的页面, 就能给客户留下好的印象,增加访问的回头率。采 用W e b 数据挖掘。建立预测模型对客户将来的购买 行为进行预测分析。以决定对哪些客户进行交叉销 售,对这些客户推销哪种产品最为合适。这样客户 可得到更多符合其需要的服务,电子商务网站也因 销售额增长而获益。 4 结束语 W e b 已经成为信息发布、交

27、互和获取的主要工 具,它涉及新闻、广告、消费信息、金融管理、教育、 政府、电子商务和其他许多信息服务。W e b 数据挖 掘是当今世界上的热门研究领域。现代社会的竞争 趋势要求对因特网上大量产生的信息进行实时、多 视角、多层次分析。尽管W e b 挖掘的形式和研究方 向层出不穷。但随着电子商务的兴起和迅猛发展, 在分析和使用这些信息时客户仍然面临许多困难, 要解决这些问题。并不能将传统的数据挖掘与W e b 简单组合。我们需要新的数据模型、体系结构和算 法。W e b 挖掘的关键技术都处于学习、探索阶段,互 联网在技术和应用上的不断发展将会极大地促进 数据库技术和数据挖掘技术的发展。研究W e

28、 b 数据 挖掘在电子商务的应用具有巨大的现实意义。对促 进电子商务的发展起着积极的作用。 参考文献: 【l 】夏火松数据仓库与数据挖掘技术【M 】| 匕京:科 学出版社,2 0 0 5 【2 】韩家炜,孟小峰,王静,等W e b 挖掘研究叨计 算机研究与发展。2 0 0 1 ;2 7 ( 4 ) :1 5 1 8 【3 】朱明数据挖掘【M 】合肥:中国科学技术大学出 版社2 0 0 2 【4 】张岭智能信息检索中的w e b 挖掘研究【D 】:【博 士学位论文】上海交通大学,2 0 0 2 1 4 7 万方数据 PDF Watermark Remover DEMO : Purchase from www.PDFWatermarkR to remove the watermark

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1