管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc

上传人:韩长文 文档编号:3960784 上传时间:2019-10-11 格式:DOC 页数:6 大小:41KB
返回 下载 相关 举报
管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc_第1页
第1页 / 共6页
管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc_第2页
第2页 / 共6页
管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc_第3页
第3页 / 共6页
管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc_第4页
第4页 / 共6页
管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc》由会员分享,可在线阅读,更多相关《管理论文基于模糊关联规则在电子商务数据挖掘中的研究.doc(6页珍藏版)》请在三一文库上搜索。

1、基于模糊关联规则在电子商务数据挖掘中的研究 基于模糊关联规则在电子商务数据挖掘中的研究是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,基于模糊关联规则在电子商务数据挖掘中的研究是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,基于模糊关联规则在电子商务数据挖掘中的研究的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。 摘要:数据挖掘是一种新兴的信息处理技术,它通过对商业数据的分析处理,可以发现蕴藏在数据中的商业知识,挖掘数据内在的联系、规

2、则和模式,辅助商业决策。在电子商务环境下的数据挖掘的研究,主要是进行客户访问信息的挖掘,文章在考虑了数据来源之后,简要介绍数据预处理过程,最后给出了模糊集与传统的关联规则挖掘结合的算法。关键词:电子商务;数据源;数据挖掘;算法;模糊关联规则中图分类号:TP311文献标识码:A文章编号:1002-3100(2009)01-0040-03Abstract: Data mining is a new method to process information, it can discover the business knowledges, dig internal relationships、ru

3、les and modes,and assist business decision by analysing and processing business data. The disscusion about data sources and data preprocessing method for ECs data mining was presented, then the algorithm of mining fuzzy associate rules was introduced.Key words:EC; data resource; datamining; algorith

4、m; fuzzy correlation rules电子商务是采用数字化电子方式,在Internet上进行的商务数据交换和开展的商务业务活动。随着数据库技术的迅猛发展以及Internet的广泛应用,电子商务正显示越来越强大的生命力,电子商务网站每天都可能有上百万次的在线交易,服务器上积累了越来越多的业务数据,目前的数据库系统可以高效实现数据的录入、查询、统计等功能,但无法发现数据库中存在的关系的规则,无法根据现有的数据预测未来的发展趋势,利用数据挖掘技术可以有效地发现大量数据背后的规律性,提供数据里面隐藏的知识和手段,消除数据“爆炸但知识贫乏”的现象。1电子商务中数据挖掘的数据源数据挖掘是从大

5、量数据中提取或“挖掘”知识,那么进行数据挖掘首先要考虑从什么样的数据中挖掘知识,也就是说进行数据挖掘的数据源。总体上说,电子商务中数据挖掘技术的数据来源包括以下几种。1.1用户的背景信息此类信息主要来自于用户的注册信息。注册信息是指用户在浏览器页面上填写的、需要提交给远端服务器的有关资料,比如用户的个人资料,用户要订购的商品资料,用户提出的一些问题和要求等。但许多用户不愿意透露自己真实的个人信息,因此将不会如实地填写注册表,这将造成数据挖掘的原始数据质量低下。在这种情况下,就不得不从浏览者的浏览信息中来推测用户的背景信息,进而再加以利用。1.2浏览信息浏览信息主要来自于浏览者的单击流(Clic

6、k-stream),这部分数据主要用于考察用户的行为表现。Web上有海量的数据信息,人们在浏览网站时,包含了大量的潜在的信息,如个人姓名和住址,单击了哪一个连接,在哪里浏览时间最多等。通常来说,这些信息可以分为两类:浏览者自身信息和浏览内容信息。在Internet电子商务中,客户访问服务器时就会在服务器上产生相应的服务器数据,这样可以通过网络包分析器和服务器的log文件来收集用户对网站的访问。服务器的log文件:用户每访问一个页面,Web服务器的日志中就会增加一条记录,可通过记录Cookies和CGI的查询参数来描述各个不同用户的行为。例如,通过对购买某产品客户的域名分析,知道来自哪个国家或地

7、区购买者的人数较多,相应的根据此信息调整电子商务中的在线市场策略,增加在哪些地区或国家的商务活动。不过考虑到Web环境中的各种Cach的影响和用POST方法传送的参数没有记录下来,此记录可能不准确。但Log文件是最简单和最方便的数据来源,很多时候只用log文件就能得到分析所用的足够数据。最准确和灵活的Web流量收集方法是网络包分析器。包分析器在网络层监听网络上传输的所有数据包,分析其中所包含的内容,把用户对网站的所有请求(HTTP命令)和Web服务器对用户的应答都记录下来。包分析器能够记录比Web服务器的log更详细的内容,比如记录用户在下载网页的过程中是否单击了“停止”按钮和一张网页的下载时

8、间。通过分析这些数据,企业能更好地了解用户的感受。1.3Internet自身信息这类信息来自于Web自身,包括web内容、Web结构等。Web结构包括www上的组织结构和链接关系中知识的推导。由于超文本文档间的关联关系使得www不仅仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面进行排序、发现重要的页面。Web内容主要包括文档内容和多媒体两类,其中文档内容为主,包括直接文档内容、从文档中抽取的关键信息及用简洁的形式对文档内容进行的摘要或解释。电子商务中的数据挖掘,是将用户注册信息、服务器日志和其自身信息三种来源有效地结合起来进行分析,可以提高挖掘

9、的精度和深度,得出更理想的结果。2电子商务中数据挖掘预处理从电子商务数据源中得到的原始记录,不仅数据量巨大,而且可能存在大量的噪声数据、冗余数据、稀疏数据或不完全数据等,直接在其上进行挖掘非常困难。而事实上数据挖掘最后成功与否,是否有经济效益,数据准备起到了至关重要作用,数据预处理主要包括数据清理、集成、选择和变换。2.1数据清理主要是针对电子商务多个数据源中数据的不规范性、二义性、重复和不完整等问题进行相应的清洗操作,过滤、剔除一些无关数据,平滑噪声数据,识别、删除孤立点,并添加数据中缺失的数据域。2.2数据集成数据挖掘需要对数据进行集成,也就是将多个数据源中的数据进行合并处理,解决语义模糊

10、性并存放在统一的数据存储(如数据仓库、数据库等)中,电子商务的数据源包括页面、图像、图形、多媒体、URL路径及有关的日志文件等,涉及三个方面问题:实体识别的模式集成、删除数据冗余和检测与处理数据值的冲突。2.3数据选择数据选择是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量,通过数据选择可以使数据的规律性和潜在特性更加明显。在缩减数据规模的同时,数据选择应完整,需要覆盖业务目标所涉及的相关数据。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。2.4数据变换将数

11、据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。主要包括:数据离散化、新建变量、转换变量、拆分数据及格式变换。 在数据实际挖掘过程中,数据清理、数据集成、数据选择和数据变换不一定都用到。此外,它们的使用没有先后顺序,某一种预处理可能先后要多次进行。3模糊关联规则挖掘在电子商务中的算法关联规则的目的就是为了挖掘出隐藏在数据间的相互关系,从而找到客户对网站上各种文件之间关联规则。实现关联分析的技术主要是统计学中的置信度和支持度分析。一般来说,只有置信度和支持度均较高的关联规则才可能是用户感兴趣的、有用的连接规则。模糊集是表示和处理不确

12、定性数据的重要方法,以隶属函数概念代表模糊集合,它不仅可以处理不完全数据、噪声或不精确数据,还可以用于开发数据的不确定性模型,能够提供比传统方法更灵巧、更平滑的性能。把传统的关联规则挖掘与模糊集结合起来的一个关键方法是,首先将各属性模糊集中的元素作为数据库的属性对待,然后在关联规则挖掘的剪枝 基于模糊关联规则在电子商务数据挖掘中的研究是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,基于模糊关联规则在电子商务数据挖掘中的研究是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,基于模糊关联规则在电子商务数据挖掘中的研究的论文版权归原作者所有,因网络整理,有些文

13、章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。步骤中将具有相同属性的项集删除。假设D是一个典型事务的集合,即数据库,记为D=,,其中1为D中的第i个事务,数据库所包含的属性为集合R=,,其中1m即数据库中所有字段,为数据项。引入模糊集概念,将R=,中的属性根据领域专家知识划分为若干模糊集,=,h,相应的隶属度函数为fr=fr, f, f,事务数据库D转化为具有更细属性划分的数据库D。在传统的布尔关联规则及量化关联规则的挖掘中,事务对属性的支持计数(vote)是以该事务在所有事务中出现的次数来计算的。规则XY在事务数

14、据库D中的支持度(support)S是事务集中包含X和Y的事务数与事务总数之比,记为S(XY),即S(XY)=|T:XYT,TD|/|D|规则XY在交易集中的可信度(confidence)C是指包含X和Y的事务数与包含X的事务数之比,记为C (XY),即C(XY)=|T:XYT,TD|/|T:XT,TD|。在进行挖掘之前,和传统关联规则挖掘一样,必须定义最小支持度S和最小置信度C。而在模糊关联规则的挖掘中,支持计数是通过具有模糊属性数据库D的数据项对各属性的隶属度来计算的,是一个介于0和1之间的实数。数据库D中数据项对于其模糊属性r的隶属度为:d= f属性r,其中j表示第j个模糊属性集,即第j

15、列,p表示该属性集中的第p个属性。对于任一属性,将全部事务对该属性的支持计数相加后除以总的事务数n,即得到全部事务对该列所对应属性的支持度:vote. R=dn如vote.r=(+d+d+d)/n即为所有事务对属性r的支持度。在得到所有属性的支持度后,将支持度小于S的属性删除,就得到了频繁1-项集。下面的步骤和传统关联规则挖掘相似。对频繁j-项集j(j1)进行连接运算,得到候选(j)项集,计算中的每个项集的支持度:假设,代表一个“项集模糊集”对,是属性x的集合xX,是模糊集a的集合aA。每个事务的支持计数是由x的隶属度函数来计算的,用x来表示第个事务中x的值,Ax是的隶属度,一个事务的支持计数

16、大于,即其满足,。在得到一个事务中所有x的隶属度之后,就可以得到该记录对,的总支持计数:Z=atx将所有记录的支持计数相加,除以总的事务TotalD,就得到了支持度。在得到所有项集的支持度后,对剪枝。剪枝包括三个部分的内容:删除中支持度小于S的项集;删除中的含有非频繁集的项集;删除中含有属于同一模糊集属性的项集,这样的项集对于最后产生的关联规则没有实际意义,既可简化算法,同时也降低了计算量。重复以上步骤,直到=,得到包含最多属性的频繁j-项集(满足j为最大值,且各项集的支持度大于S),由产生频繁项集,最后由产生关联规则。4结束语数据挖掘在电子商务中的应用是一个将信息转化为商业知识的过程。首先,

17、明确数据挖掘的对象,确定商业应用主题;其次,围绕商业主体收集数据源,并对数据进行清理、转换、集成等技术处理,并选取合适的数据挖掘算法,构建数据挖掘模型,从目标数据中提取有价值的商业知识,对结果进行分析和验证,调整数据挖掘模型,从而保证结果的可靠性和实用性。最后,将商业知识集成到电子商务中心,融合专家知识与领域规则,为商业活动提供决策支持。随着电子商务发展的势头越来越强劲,面向电子商务的数据挖掘将是一个非常有前景的领域。参考文献:1 张云涛,龚玲. 数据挖掘原理与技术M. 北京:电子工业出版社,2004.2 朱水林. 电子商务概念M. 北京:清华大学出版社,2004.3 David Hand,

18、Heikki Mannila, Padhraic Smyth. 数据挖掘原理M. 张银奎,廖丽,宋俊,译. 北京:机械工业出版社,2003.4 熊平,朱天清,黄天戍. 模糊关联规则挖掘算法及其在异常检测中的应用J. 武汉大学学报,2005,30(9):841-844.5 黄解军,万幼川. 基于数据挖掘的电子商务策略J. 计算机应用与软件,2004,21(7):12-13.其他参考文献Baker, Sheridan. The Practical Stylist. 6th ed. New York: Harper & Row, 1985.Flesch, Rudolf. The Art of Pla

19、in Talk. New York: Harper & Brothers, 1946.Gowers, Ernest. The Complete Plain Words. London: Penguin Books, 1987.Snell-Hornby, Mary. Translation Studies: An Integrated Approach. Amsterdam: John Benjamins, 1987.Hu, Zhuanglin. 胡壮麟, 语言学教程 M. 北京: 北京大学出版社, 2006.Jespersen, Otto. The Philosophy of Grammar.

20、 London: Routledge, 1951.Leech, Geoffrey, and Jan Svartvik. A Communicative Grammar of English. London: Longman, 1974.Li, Qingxue, and Peng Jianwu. 李庆学、彭建武, 英汉翻译理论与技巧 M. 北京: 北京航空航天大学出版社, 2009.Lian, Shuneng. 连淑能, 英汉对比研究 M. 北京: 高等教育出版社, 1993.Ma, Huijuan, and Miao Ju. 马会娟、苗菊, 当代西方翻译理论选读 M. 北京: 外语教学与研究出

21、版社, 2009.Newmark, Peter. Approaches to Translation. London: Pergmon P, 1981.Quirk, Randolph, et al. A Grammar of Contemporary English. London: Longman, 1973.Wang, Li. 王力, 中国语法理论 M. 济南: 山东教育出版社, 1984.Xu, Jianping. 许建平, 英汉互译实践与技巧 M. 北京: 清华大学出版社, 2003.Yan, Qigang. 严启刚, 英语翻译教程 M. 天津: 南开大学出版社, 2001.Zandvoort, R. W. A Handbook of English Grammar. London: Longmans, 1957.Zhong, Shukong. 钟述孔, 英汉翻译手册 M. 北京: 商务印书馆, 1983.Zhou, Zhipei. 周志培, 汉英对比与翻译中的转换 M. 上海: 华东理工大学出版社, 2003.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1