Web数据研究与应用论文.docx

上传人:爱问知识人 文档编号:466881 上传时间:2018-11-18 格式:DOCX 页数:13 大小:24.08KB
返回 下载 相关 举报
Web数据研究与应用论文.docx_第1页
第1页 / 共13页
Web数据研究与应用论文.docx_第2页
第2页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Web数据研究与应用论文.docx》由会员分享,可在线阅读,更多相关《Web数据研究与应用论文.docx(13页珍藏版)》请在三一文库上搜索。

1、第 1 页 Web 数据研究与应用论文 特征码 syWVXyUSrepmCcOVsMFZ ining)是从大量的、不完全的、有噪声的、模糊的和随机的 数据中提取人们事先不知道的、潜在有用的信息和知识的非平 凡过程。 Web 数据挖掘(Web Mining)是从 Web 文档和 Web 活动中抽取 感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖 掘、人工智能、信息检索、自然语言理解等技术的综合应用, 是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助 人们从 WWW 中提取知识。Web 数据挖掘可以分为 Web 内容挖掘 (Web Content Mining) 、Web 结构挖掘(

2、Web Structure Mining) 、Web 使用记录挖掘(Web Usage Mining)三类。Web 内容挖掘是指从文档内容或其描述中抽取知识的过程,又可以 分为基于文本的挖掘和基于多媒体的挖掘两种。Web 文本挖掘 可以对 Web 上大量文档集合的内容进行总结、分类、聚类、关 联分析等。Web 结构挖掘是指从 Web 组织结构和链接关系中推 导知识。通过对 Web 结构的挖掘,可以用来指导对页面进行分 类和聚类,找到权威页面,从而提高检索的性能,同时还可以 用来指导网页采集工作,提高采集效率。Web 使用记录挖掘是 指从服务器端记录的客户访问日志或从客户的浏览信息中抽取 第 2

3、 页 感兴趣的模式。 基于 Web 的数据挖掘技术的出现不仅为商家做出正确的商业决 策提供了强有力的工具,也为商家更加深入地了解客户需求信 息和购物行为的特征提供了可能性。 2.2 电子商务中 Web 数据挖掘的步骤 电子商务中 Web 数据挖掘的步骤如下: 明确数据挖掘的对象业务对象,确定商业应用主题,不能 盲目地进行挖掘; 将与业务对象的各类原始数据收集起来作为挖掘的数据源泉; 对收集的数据进行预处理,一般包括数据净化、用户识别、 会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘 效率,剔除无用、无关信息并对信息进行必要的整理。 根据需要解决的问题建立合适的数据挖掘模型,然后利用已

4、知数据对模型进行训练和测试,并应用该模型得到挖掘结果; 利用可视化技术,验证、解释挖掘的结果,并据此做出决策 或丰富知识,即进行模式分析与应用。 在整个 Web 数据挖掘的过程中,被明确的业务对象是挖掘过程 的基础,它驱动整个 Web 数据挖掘的全过程; 同时,也是检验 挖掘结果和引导分析人员完成挖掘的依据。 2.3 电子商务中 Web 数据挖掘的数据源 在电子商务中,可以用来作为数据挖掘分析的数据量比较大, 第 3 页 而且类型众多,总结起来有以下几种类型的数据可用于 Web 数 据挖掘技术产生各种知识模式。 服务器数据。客户访问站点时会在 Web 服务器上留下相应的 日志数据,这些日志数据

5、通常以文本文件的形式存储在服务器 上。一般包括 servers logs、error logs、cookies logs 等。 查询数据。它是电子商务站点在服务器上产生的一种典型数 据。例如,对于再现存储的客户也许会搜索一些产品或某些广 告信息,这些查询信息就是通过 cookie 或是登记信息连接到服 务器的访问日志上。 在线市场数据。这类数据主要是传统关系数据库里存储的有 关电子商务站点信息、用户购买信息、商品信息等数据。 Web 页面。主要是指 HTML 和 XML 页面的内容,包括文本、 图片、语音、图像等。 Web 页面超级链接关系。主要是指页面之间存在的超级链接 关系,这也是一种重要

6、的资源。 客户登记信息。客户登记信息是指客户通过 Web 页输入的、 要提交给服务器的相关用户信息,这些信息通常是关于用户的 人口特征。在 Web 的数据挖掘中,客户登记信息需要和访问日 志集成,以提高数据挖掘的准确度,使之能更进一步的了解客 户。 2.4 Web 数据挖掘能够获取的知识模式 运用 Web 数据挖掘技术能够对站点上的各种数据源进行挖掘, 第 4 页 找到相关的一些知识模式,以指导站点人员更好地运作站点和 向客户提供更好的服务。一般运用 Web 数据挖掘可以在站点上 挖掘出来的知识模式有以下几个: 路径分析。它可以被用于判定在一个 Web 站点中最频繁访问 的路径。通过路径分析,

7、可以得到重要的页面,可以改进页面 及网站结构的设计。 关联规则的发现。在电子商务中关联规则的发现可以找到客 户对网站上各种文件之间访问的相互关系,可以找到用户访问 的页面与页面之间的相关性和购买商品间的相关性。利用这些 相关性,可以更好的组织站点的内容,实施有效的市场策略, 增加交叉销售量,同时还可以减少用户过滤信息的负担。 序列模式的发现。序列模式的发现就是在时间戳有序的事务 集中,找到那些“一些项跟随另一项”的内部事务模式。它能 够便于进行电子商务的组织预测客户的访问模式,对客户开展 有针对性的广告服务。通过系列模式的发现,能够在服务器方 选择有针对性地页面,以满足访问者的特定要求。 分类

8、和预测。分类发现就是给出识别一个特殊群体的公共属 性的描述,这个描述可以用来分类新的项。分类的目的是通过 构造分类模型或分类器,把数据库中的数据项映射到给定类别 中的某一个,以便用于预测;也就是利用历史数据记录自动推 导出对给定数据的推广描述,从而能对未来数据进行预测,进 行适合某一类客户的商务活动。 第 5 页 聚类分析。聚类分析可以从 Web 访问信息数据中聚集出具有 相似特性的那些客户。在 Web 事务日志中,聚类顾客信息或数 据项能够便于开发和执行未来的市场策略。这种市场策略包括 自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客 聚类中的顾客推荐特定的商品等。对电子商务来说,客户

9、聚类 可以对市场细分理论提供有力的支持。通过对聚类客户特征的 提取,电子商务网站可以为客户提供个性化的服务。 异常检测。异常检测是对分析对象的少数的、极端的特例的 描述,以揭示内在的原因,从而减小经营的风险。异常检测在 电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户 和网络入侵检测等方面。 Web 数据挖掘的各项功能不是独立存在的,而是在挖掘过程中 互相联系,发挥作用。 3 Web 数据挖掘在电子商务中的应用 3.1 数据抽取方法在电子商务中的应用 与传统商务活动相比,电子商务具有更多的虚拟和不确定的因 素:如客户购买的心理、动机、能力、欲望等。Web 数据挖掘 要解决的问题就是如何从

10、零散的无规则的网络数据中找到有用 的和有规则的数据和知识,基本方法之一就是进行数据抽取, 以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值 或用直方图等图形方式表示,从数据泛化的角度讨论数据总结, 把最原始、基本的信息数据从低层次抽象到高层次,以便于企 第 6 页 业决策。 3.2 基于 Web 数据挖掘的智能化搜索引擎 电子商务企业在活动过程中面临的问题之一是如何通过 Internet 全面、准确、及时地收集到企业内、外部的环境信息, 尤其是一些隐性的、关系到企业经营成败的关键信息,以提高 竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的 问题,使企业无法得到优质的信息。鉴于此,

11、将 Web 数据挖掘 技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能, 满足电子商务企业的需要。Web 挖掘技术主要在以下几个方面 对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、 检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。 经过文档的分类处理,可以对搜索结果进行分门别类,可以通 过限制搜索范围来使文本的查找更为容易,帮助用户快速的对 目标知识进行定位,从而提高用户进行网上信息搜索的效率; 自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和 固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、 快速、方便地了解检索信息;通过对检索结果的文档集合进行 聚类,可以使

12、得与用户检索结果相关的文档集中在一起,从而 远离那些不相关的文档,将处理以后的信息以超链结构组织的 层次方式可视化地提供给用户,由用户选择他所感兴趣的那一 簇,将大大缩小所需浏览的页面数量;将 Web 使用挖掘中的个 性化技术应用在搜索引擎中,可以在大量训练样本的基础上, 第 7 页 得到数据对象间的内在特征,并以此为依据进行有目的的信息提 取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关 键词,以使得检索结果更接近用户要求,或者根据用户历史浏 览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提 高用户检索的查全率与查准率。通过借鉴 Web 挖掘技术可以提 高查准率与查全率,改善检索

13、结果的组织,从而使检索效率得 到改善。 3.3 Web 数据挖掘在客户关系管理中的应用 客户关系管理的核心 客户关系管理(Customer Relationship Management,简称 CRM)的核心是通过客户和他们行为的有效数据收集,发现潜在 的市场和客户,从而获得更高的商业利润,通过完善的客户服 务和深入的客户分析来满足客户的需求,保证实现客户的终生 价值。可以说 CRM 能给传统企业带来在网络经济时代谋取生存 之道的管理制度和技术手段。它要求企业从“以产品为中心” 的模式向“以客户为中心”的模式转移。 Web 数据挖掘在客户关系管理中的应用 Web 数据挖掘能够帮助企业确定客户的

14、特点,使企业能够为客 户提供有针对性的服务。将 Web 数据挖掘用在电子商务 CRM 中 主要体现在客户的获取和保持、价值客户鉴别、客户满意度分 析及改善站点结构等几方面。 通过 Web 数据挖掘,可以理解访问者的动态行为,据此优化电 第 8 页 子商务网站的经营模式。通过把所掌握的大量客户分成不同的 类,对不同类的客户提供个性化服务来提高客户的满意度,从 而保持老客户;通过对新访问者的网页浏览记录进行分析,就 可以判断出该访问者是属于哪一类客户,是有利可图的潜在客 户还是毫无价值的过客,达到区别对待、节省销售成本、提高 访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对 具有相似浏览行为

15、的客户进行分组,提取组中客户的共同特征, 从而实现客户的聚类,这可以帮助电子商务企业更好地了解客 户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性 地向他们推荐特定的商品并实现交叉销售,可以提高交易成功 率和交易量,提高营销效果。 此外,站点的结构和内容是吸引客户的关键。利用关联规则的 发现,针对不同客户动态调整站点结构和页面内容,把具有一 定支持度和信任度的相关联的物品放在一起以有助于销售;通 过路径分析等技术可以判定出一类用户对 Web 站点频繁访问的 路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将 客户访问的有关联的文件实现直接链接,让客户容易地访问到 想要的页面。这样的网

16、站会给客户留下好印象,提高客户忠诚 度,吸引客户,延长他们在网站上的驻留时间以及提高再次访 问的机率。 通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结 构和服务方式以提高网站的效率。通过 Web 数据挖掘,可以得 第 9 页 到可靠的市场反馈信息,评测广告的投资回报率,从而评估网 络营销模式的成功与否;可以根据关心某产品的访问者的浏览 模式来决定广告的位置,增加广告针对性,提高广告的投资回 报率,降低公司的运营成本。 维护客户的隐私权 维护客户的隐私权是商家在商业运作过程中不能忽视的一个基 本组成部分。因此,作为电子商务企业,应该尽量避免对单个 客户数据进行挖掘。企业管理客户隐私权的保

17、护应该从技术和 管理两个方面来实现:技术上,通常是采用加密标志符,并且 尽量避免对单个客户数据进行挖掘;管理上,很多电子商务企 业现在已经增设了首席隐私官(CPO,Chief Privacy Officer)职位,隐私官将能在个人对隐私的需求和公司以合理 手段使用隐私材料的权利之间,建立适当的平衡关系。这种平 衡关系的大成,需要以长期的实践和经验为基础。除了电子商 务企业以单独的主体身份进行客户隐私权保护的管理之外,行 业自律也是保护客户隐私权的一个行之有效的手段。目前,电 子商务网站越来越倾向于通过行业自律的方式来树立其在客户 心目中的形象,让客户放心地提交数据。 3.4 Web 数据挖掘在

18、个性化服务推荐系统中的应用 电子商务个性化服务推荐系统是向站点企业提供在电子商务中 更好地运作 CRM,建立良好客户关系的一种解决方法,是“以 客户为中心” 、 “一对一”的行销的坚实执行者。 该系统主要是将数据挖掘的思想和方法应用到 Web 服务器日志 第 10 页 及 Web 数据库等资源上,挖掘出客户的访问规律;然后将在线 访问客户归结到某一类中去,根据该类用户的访问规律进行 Web 页面的推荐;并且系统还可以通过不断地跟踪用户的当前 访问,实时调整推荐集,为用户提供个性化的访问。该系统由 五大模块组成:数据收集模块、数据预处理模块、数据存储模 块、离线挖掘模块和在线推荐模块。其系统结构

19、模型如图 1 所 示: 图 1 基于 Web 数据挖掘的个性化服务推荐系统结构模型 数据收集模块主要用于收集 Web 数据库、使用日志等数据,形 成数据采集库,为以后的挖掘做准备;数据预处理模块主要是 对所收集的数据进行预处理,数据预处理的质量与挖掘的效率 和结果紧密相关;数据存储模块将预处理后的数据存入用户事 务库;离线挖掘模块中的挖掘引擎使用挖掘算法库中的数据挖 掘技术如统计分析、关联规则、聚类分析、序列模式等,来发 现用户浏览模式,并通过模式分析对其进行分析与解释,根据 实际应用,通过观察和选择,把发现的统计结果、规则和模型 转换为知识,经过筛选后得到有用的模式用来指导实际的电子 商务行

20、为;在线推荐模块在 Web 服务器前端设置了推荐引擎, 它将用户当前的浏览活动与浏览出的页面推荐集结合起来考虑, 生成相应推荐集,然后在用户最新请求的页面上添加推荐集的 页面,再通过 Web 服务器传递到用户端的浏览器,为用户实现 第 11 页 实时个性化服务;同时将推荐结果送往网站管理中心,以便调 整网站设计,优化网站结构,提高网站效率。 总的来说,在个性化服务推荐系统中运用数据挖掘技术有两个 阶段:第一个阶段是学习阶段,离线进行。第二个阶段是模式 的使用阶段,在线进行。挖掘和在线推荐的特征获取和规则生 成是离线处理的,而当用户访问该网站时通过在线推荐引擎进 行在线服务。离线模块和在线模块相

21、互联系,在线模块主要是 利用离线模块提供的规则模型对在线用户推荐(推荐引擎) ;离 线模块主要是利用在线模块积累的数据运用系统推荐算法形成 相应的规则。挖掘算法和推荐策略可以根据不同类型站点的要 求来具体选择,挖掘结果和推荐集通过推荐引擎反馈给用户。 电子商务网站的客户登录网站以后,其访问信息将会被记录到 服务器端。这些数据将在经过预处理后,在专用的数据挖掘模块 中,通过具体的挖掘算法和推荐策略来进行模式识别和模式分 析。用户访问信息也会传到推荐引擎,推荐引擎根据客户的会员 标识,向挖掘模块抽取对应客户的挖掘结果和推荐集,将其可 视化地反馈给用户,达到个性化服务的目的。 3.5 基于 Web

22、的数据挖掘在商业信用评估中的应用 发达的社会信用水平是发展电子商务的重要基础,通过 Web 数 据挖掘对站点数据统计和历史记录之间的差别,结果与期望值 的偏离以及反常实例进行充分的分析,可以有效地防范投资和 经营风险。另外,通过数据挖掘技术对企业经营进行跟踪,开 第 12 页 展企业的资产评估、利润收益分析和发展潜力预测,构建完善 的安全保障体系,实施网上全程监控,监督网上言论,维护企 业信誉,强化网上交易和在线支付的安全管理,利用数据挖掘 的信用评估模型,对交易历史数据进行挖掘发现客户的交易数 据特征,建立客户信誉度级别,有效地防范和化解信用风险, 提高企业信用甄别与风险管理的水平和能力。

23、4 结论 本文对 Web 挖掘技术进行了综述,介绍了其在电子商务中的典 型应用。Web 数据挖掘高度自动化地对电子商务中的大量信息 进行分析和推理,从中挖掘出潜在的模式,预测客户行为,帮 助企业的决策者调整市场策略,减少风险,做出正确的决策。 Web 数据挖掘是近几年来数据挖掘领域的探讨热点,利用它的 技术知识将它运用到电子商务,将会解决许多实际问题,具有 丰富的学术价值。将 Web 数据挖掘技术和电子商务两者有机结 合,将会为企业更有效的确认目标市场,改进决策,获得竞争 优势提供帮助,有着很广阔的应用前景,使电子商务网站更具 有竞争力,从而为企业带来更多的效益。面向电子商务的 Web 数据挖

24、掘能发现大量数据背后隐藏的知识,指导商家提高销售 额,改善企业客户关系,提高网站运行效率,改进系统性能, 具有良好的发展和应用前景,必将得到越来越多的关注。 参考文献: 1 毛国君.数据挖掘原理与算法M.清华大学出版社.20XX(07). 第 13 页 2 张冬青.数据挖掘在电子商务中应用问题研究J.现代情报. 20XX(09). 3 李凤慧.面向电子商务的 Web 数据挖据的研究D.山东科技 大学硕士学位论文. 20XX(06). 4 杨风召,白慧.异常检测技术及其在电子商务中的应用J. 情报杂志. 20XX(12). 5 陆垂伟.电子商务中数据挖掘技术的研究与应用J.商场现 代化. 20XX(04). 6 CHEN Yu-ru,HUNG Ming-chuan, Don-lin YANG. Using data mining to construct an intelligent J. International Journal of Computer Processing of Oriental Languages,20XX,16(2). *

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 事务文书


经营许可证编号:宁ICP备18001539号-1