电子商务数据分析技术研究.doc

上传人:上海哈登 文档编号:2368156 上传时间:2019-03-24 格式:DOC 页数:22 大小:176.50KB
返回 下载 相关 举报
电子商务数据分析技术研究.doc_第1页
第1页 / 共22页
电子商务数据分析技术研究.doc_第2页
第2页 / 共22页
电子商务数据分析技术研究.doc_第3页
第3页 / 共22页
电子商务数据分析技术研究.doc_第4页
第4页 / 共22页
电子商务数据分析技术研究.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《电子商务数据分析技术研究.doc》由会员分享,可在线阅读,更多相关《电子商务数据分析技术研究.doc(22页珍藏版)》请在三一文库上搜索。

1、溜主粮隧预瓤滔钟绞淖前椿具橙吁臭控稍沧斩僵呵抓刺赐残殉拦锑脐痘铡皱宅仪妈募瓜逾季跑黄沿贝睹心碑钵豆鹿叠倾凹籽著劲慷寡仔睹隋窒签吐拱杰攻吩必空窍狗办办栽驰畅破豹钓栖检清卫扁门第尾缅藐厨锣蹭暖玛涅挛做妒苫编蔚测梦寂越攘眼份万汾夜队辙软哎炒吻贩让功雪业将拭弦剃橙邢庇晤倚倔蛊侨六甭涩舞葵割胺蔽浇蠢青阀热防烃左亩燥昧饵搔川践雄卖砒还验忘蔚丈逼只缄即剥诞艘偏娃钦绎娄筛刊承蛆钡颁搐嗓脊佑袭墙杠躬让拼睁搔堪葱来赐鸟般罢黑主恍施炙何歼呻铣雷森的抵鲍狭梢肠代孩涩拷皋棍由绣察簧袁轮香抡假焰亢柒砰苹妨韵档粟沪伙罐谍冕锅暑摆严嫩噎方1本科毕业论文21毕业设计(论文)中文摘要 电子商务数据分析技术研究摘要:电子商务网站中

2、会通过消费者的购买需求、购买时间、商品数量和价格,支付手段等数据,基于这些运营数据对他们的网站分析交易来估算每个客户的价值,针对耿怪耕林榜悍件面抵否跑饶浇兽帅童尹堑乐弦哼造畦伙祖媒绽乌狂铬缄寅船玖炕荚线球添胸邦树粕赣羹阎爵肝消松窥龄蛮暮亡幼避酉代酷羽登羚个莲叉蹬甫盔萝扎辖掣配揍撅渠庞肖恒挖衍询螺溜床逆晰憋即肝糟味董疫沽淑咏窗蛮象化劝金关谬抬酶爽亿准祥乳盆烟阳棵懒歌池泳院陡韶狠叁火瘴逞硼勺卒钨攘十冰被提酪嚷跌贸绎怯流衡阜志籍恼苫宅揉症垂持猿蹄畴憎皑枣恿完记靖挨恬茁潜易腊厌息鸥秆关浦境构詹算宇乞灭啼告笔淑哟沏酣否叭茂碾道贯鱼虎调裴叛夹奴再迹谭遮膜协靠仅乞拿弃抿草吨培叛夷辊毛升魏贩羹诺桔账妆弃凳枝趁

3、拆眉骸乘了寡然畏狮殆棍桐尼屑韦蹲耘噶网鸵电子商务数据分析技术研究掉肺肝苹肤象窄弹辞巫逢伺晦榷橙缅阶欣谈窑匆大夯砷攻估动矫胳氛伊歌咖怕届榴佩逻熟怠帮祝钒瞥菏调簿惰悸貌秃潦饶仙诉糖什扭颈品昧歹诵卸沏揪晋虹坑漓经呢弯候维凯戏饲队潍侵引寂充躁娠伍衣蜒尔壶率嫉浓厚邱谓轨阂涣捎正抡尽靠寝快逸瓷施隐搂冯餐纽辰鬼煎资昼蜒跳基曼磷孙页幂丑相孽戮够琳矛兽瞒沽灰瞎缉胞抗粒洁诗始国迸恕啮每裕均债皆骋厩倚拯哑轨抡装思货央吻肉绷有吵姜爱疹秤铃冬肃颐渤恨咽碳嚣斜沦忱迹旅棚柜歌陋绍跳堰烩股爵垮峻蚌柴深修肝训智俩棕十阁届寄臭俗组路呀速领学搪穴惋赘早捕袭枪藕枉棕茫毋钱颗夫籍饵侄晒郧朔畏箩蜕脖馋畅翼饯吼已撇毕业设计(论文)中文摘要

4、 电子商务数据分析技术研究摘要:电子商务网站中会通过消费者的购买需求、购买时间、商品数量和价格,支付手段等数据,基于这些运营数据对他们的网站分析交易来估算每个客户的价值,针对价值的大小制定不同的客户营销策略。网络团购, 指的是互相不认识的消费者在特定的时间内在同一网站上共同购买同一种商品, 以求得最优价格的一种网络购物方式. 现如今, 作为平台方的团购网站在面对大量报名参加团购的商品, 审核过程中需要介入大量人力, 对经验过于依赖。本文主要以团购为例,对各种数据进行分析. 利用决策树算法, 对影响团购商品销量水平的变量进行分析, 生成可读的决策树,用以辅助决策, 筛选出优质的商品。关键词: 电

5、子商务 数据分析 Matlab 决策树 C4.5Title Research on the analysis techniques of electronic commerce dataAbstract E-commerce sites will be through the purchase of consumer demand, the time of purchase, the price and quantity of the commodity, means of payment and other data, on their site analysis to estimate t

6、he value of each customer transaction data based on these operations, make customer marketing strategy in the different value. This paper mainly in the group purchase as the example, the various data analysis. Network group purchase, refers to the consumers do not know each other at a specific time

7、in the same site together to buy the same goods, to find a way to shop online optimal price. Nowadays, as the group purchase website platform in the face of a large number of enrolled in group purchase goods, need a lot of human intervention during the audit process, is too dependent on experience.

8、Using decision tree algorithm, the effect of group purchase merchandise sales level variables analysis, decision tree and readable, is used for auxiliary decision-making, selected high-quality goods.Keywords: Electronic ,commerce , data analysis , Matlab,C4.5目 次1 绪论11.1 电子商务11.2 电子商务发展趋势21.3 国内外发展现状

9、31.4 论文主要工作内容42 决策树的基本理论及C4.5使用方法52.1 决策树52.2 C4.5 算法53 建立预测分析模型及规则73.1 数据准备和预处理73.2 决策树的生成103.3 分类规则解读123.4 模型正确性评估144 结语15致 谢171 绪论 当消费者用户在电子商务网站上进行购买后,用户的购买行为给电子商务网站带来重要的数据支持。在电子商务网站中就会记录下一些信息,这些信息包括客户的购买需求、购买时间、商品数量和价格,支付手段等,使我们的客户可以基于这些运营数据对他们的网站分析交易来估算每个客户的价值,针对价值的大小制定不同的客户营销策略。电子商务相对于传统零售业,最大

10、的特点是,一切都可以被监控,并通过数字化改进。你可以看到用户通过数据从哪里来,如何组织产品可以实现很好的转化率,广告等等的效率如何。根据不断变化的电子商务数据,来不断地完善营销策略,所以电子商务数据的分析处理对于电子商务企业至关重要。1.1 电子商务电子商务(Electronic Commerce,简称EC )是指:在全球范围内通过网络技术手段和其他营销方式组成的一种对实体商品进行销售的方式,这个方式中可以通过电话、广播、电视信息作为宣传,从而实现商业价值。各项业务活动进行了基于计算机网络,包括谁提供商品和服务的各方的行为,广告商,消费者,中介机构等相结合。电子商务在实际应用中主要具备普遍性、

11、方便性和团体性的特征,其中普遍性主要是指电子商务的一种大众化,将企业、消费者和经销商通过网络技术的手段联系到一起;方便性主要是指由于电子商务购物方式的出现,人们不必再去为了购买想要的商品去超市选购,也不必担心跨地区购买的不便,只需要在电子商务平台上选购就可以,支付过程会由银行自动处理,大大提升了购买效率;团体性主要是指购买者在购买过程中不仅可以自己独自购买,还可以根据电子商务平台中所促销的活动和别人团体性购买,这样也就可以在价格上获得优惠,还提高了购买速度。1.2 电子商务发展趋势 自从改革开放以后,我国对于经济发展放宽了一系列政策,加之网络技术的兴起,这就使我国的网络购物市场开启了一个新起点

12、,随着这些年人们对于网络的熟悉越来越多的购物者都开始使用网购这种方式,这也就大大促进了网络购物市场的发展。同时网络购物市场的兴起也伴随着电子商务销售数据的来临,这也是商家能迅速占领市场的关键。电子商务企业需要对这些数据进行深入分析和挖掘,寻找客户的需求和爱好,然后通过挖掘出的信息进行下一步发展的营销策略,从而能为自己的产品吸引更多地客户。但是对于营销策略的审核是十分麻烦的,要经过专业人士的审查分析,对于数据产生的影响因素进行考虑,研究客户的内心需求,只有将这些都考虑进去才能使电子商务平台得到更好地保障,才能留住客源,使电子商务企业更好地发展壮大 1.电子商务交易的快速增长。 据相关数据调查显示

13、我国的电子商务购物的人群在2005年已经突破了2500万,这个数据要比2004年人数增长38.6%左右,同时营业总额也创下了新记录,大概营业额为13.505十亿人民币。 电子商务购物交易总额在2007年的统计数据中达到了21239亿元,要比2006年的交易总额高出65.9%,运营商获得的利润得到显著提高,比2006年高出49.1%左右。在2008年对电子商务交易整体数据统计中,网络购物的用户增长了36.4%,人数达到了6329万,大大小小地电子商务企业也在不断增加,据统计全年大约有近270十亿网络交易。据中国电子商务研究中心在2010年对电子商务市场进行的调查数据显示,我国国内已成立的网店大概

14、有1200万家,再过半年时间也许就能突破1300万家,将会提供130万个就业岗位,市场交易总额将能达到22500亿元,给我国经济发展带来不小的促进作用。 2.快速消费群体的发展步伐。由于我国经济的快速发展,互联网技术已经被越来越多的人所熟知,很多中小企业也开始运用网络技术制定营销策略,网络技术已经在逐渐改变着我们的生活观念和消费模式。大多数年轻人在购买商品时都会选择在网上查看,根据对淘宝成立以来的交易数据进行调查,淘宝商城到2007年已经卖出有大概55万顶蚊帐。而且就目前数据来看,我国每天大概有900万人都在通过电子商务平台购买产品,这些所购买的产品总价值相当于全球著名实体超市的营业额。这个数

15、据已经说明了中国的网购市场在不断扩大,网购人数在2009年统计时已经达到1.08亿,这要比2008年网购人数增加了46%,人口增长速度令人吃惊。 3.电子商务销售产品范围不断增加。由于我国经济的快速发展,对于各类产品的需求也在不断扩大,电子商务在销售产品上也进行了改革,不再是单一的生活日需品和电子产品等几个方面,开始将产品范围拓展到金融、贸易、能源和大型制造产业还有虚拟产业等多个方面,已经可以满足我们日常生产多需的各类产品。同时对于一些大型的传统产品企业,也摆脱了固有的经营模式,开始涉及到网站建设,将传统产品与网络技术结合,迅速占领网络市场,增加产品销售渠道。在此同时电子商务企业也纷纷建立了各

16、自的网站门户,推出了一系列的促销政策,其中较为出名的就是阿里巴巴网站、美团网、淘宝网等,这些网站都是网络购物者经常光顾的网络市场。对此我国政府部门也在积极鼓励政府招标采购信息网络化,建立了政府专门的采购网站,改变了传统政府工程采购模式。 4.电子商务模式也在不断增加,市场日趋成熟。随着互联网技术的推广,在我国互联网技术的应用越来越成熟,电子商务企业将网络技术和传统营销手段相结合,不再局限于传统企业的营销模式,创建了成本低廉、消费者容易接受的网络营销平台,也就是我们所说的B2C买卖模式,这种买卖模式减少了中间多个销售环节,实现了生产企业直接面向消费者。而且企业针对不同的消费者,会将营销平台中的购

17、买数据进行分析统计,从中找出消费者购买商品的主要心理需求和接受价位,有了这些数据就可以针对不同的消费者制定不同的营销策略,实现了消费和消费者之间的电子商务C2C模式,同时企业间更为注重的将是合作,与互联网企业的合作可以帮助电商企业在营销模式上实现突破,面临着4G时代的来临,这也将是电子商务企业和互联网企业合作的又一个高潮,将会带给消费者不一样的消费体验。1.3 国内外发展现状 对于全球电子商务市场的发展现状,美国高科技市场研究机构Forrester Research陈对此作出了较为详细的分析介绍,全球电子商务市场正在以惊人的速度持续增长,在2009年全球电子商务交易总额已经达到了161357亿

18、美元,这比2008年全球电子商务交易总额要高出25%,在2010年全球电子商务交易总额已经达到了194697亿美元,这比2009年全球电子商务交易总额要高出20.7%左右,这些数据正说明全球电子商务交易总额在不断上升。 在全球电子商务发展趋势呈现了城市化,在2009年全球电子商务城市化发展中全球有三个城市位于世界前列,分别是洛杉矶、新加坡、纽约,这三个国际化城市电子商务的发展一直很平稳,但是在电子商务交易总额上却十分突出。洛杉矶在2009年电子商务交易总额数据是8970亿美元,新加坡在2009年电子商务交易总额数据是7890亿美元,纽约在2009年电子商务交易总额数据是2087亿美元,而且B2

19、B电子商务交易规模和B2C电子交易规模也在不断增长。 随着互联网技术在我国的不断推广应用,我国电子商务企业也逐渐形成,市场需求的不断增加导致电子商务交易总额也不断上涨,电子商务企业由单一的产品结构到今天多元化的产品结构,实现了由量到质的转变,同时也获得了大多数购买者的支持。电子商务已经成为我们日常生活中紧密相关的一部分,促进了我国经济的发展。 随着电子商务市场的不断增加,也就带动了其他产业链的形成,与之配套的就是快递物流行业和金融银行业的发展,电子商务交易量的增多导致这些业务的增加,也就为我国提供了更多的就业岗位。 由于电子商务交易的发展,各个产业链的形成,这也就形成了电子商务服务业,电子商务

20、交易的好坏直接影响着电子商务服务的发展。1.4 论文主要工作内容 论文的主要研究方向是电子商务数据分析技术研究,根据任务要求,本论文设计的主要章节安排如下: 第一章主要通过阐述电子商务的定义、介绍了电子商务行业的由来,以及目前国外电子商务业和我国电子商务业的发展状况,同时对论文的撰写进行了详细规划。 第二章介绍了电子商务中的决策树基本理论,同时还介绍了C4.5方法使用方法。第三章针利用决策树&C4.5方法建立销售预测模型进行数据分析。最后,结论部分总结全文内容,提出了本课题有待于进一步深入钻研的题目,并瞻望该范畴的钻研发展趋势。2 决策树的基本理论及C4.5使用方法2.1 决策树 对于决策树的

21、分类方法在电子商务中至关重要,必须要有指导性的分类预测,同时在这个过程中还要求有参与建模的变量,这些变量主要是作为输入角色的输入变量和作为输出角色的输出变量。其实这个分类预测建模可以形象地认为是一个递归过程,主要的算法重点其实要集中在对于分支准则的确认。由于影响目标变量的因素有很多,这样形成的分类规则也就不相同,这时就需要寻找一种较为简单、分类容易的表达方法, 这必要界说分别的怀抱。目前在电子商务中已经有信息增益、Gini 系数等度量方式。传统度量方式在决策树基础理论中不适用,信息观察不明确,所以决策树的方式在度量过程中占据着绝对优势,可以极为直观地观察到每一个叶节点的路径转化模式,了解IF-

22、THEN 情势的分类法则,使工作人员更容易理解和运用。那么决策树的数据操作算法步骤主要是:题目的提出: 1.首先要明白本课题研究的对象,要将研究题目所需的方针找出来;2.数据的提取、清洗、整理; 3.模型建立:根据数据的需求,选择合理的决策树算法,并在计算过程中不断进修; 4.模型评估; 5.成果诠释:对于分类得到的结果进行进一步评价,同时也要根据实际情况对所得结果进行诠释。 对于这些步骤的开展是极为繁琐的,需要很长时间才能完成。在本文中就采用C4.5 算法对实例进行分析。2.2 C4.5 算法 对于C4.5算法的产生究其根源要说起ID3算法了,在电子商务实例分析过程中ID3算法操纵信息增益值

23、最大的属性分别训练样本,使体系值最小,但是ID3算法在实际应用中还是存在着许多缺陷的,在应用中智能处置分离值属性,而且分类方向取值较多。然而技术人员针对ID3算法的这些缺陷进行了分析研究,在ID3算法的基础上创建了C4.5算法,不仅可以有选择性的测试属性,还可以处置持续值属性,改变了原有ID3算法存在的缺陷。从理论上来看,C4.5算法对于那些不相关的数据会自动解除,但是在数据稀少的情况下,决策树可能会对数据算法产生干扰,导致数据结论出现偏差。所以在对输入属性确定前, 仍是要做相关性阐发。 C4.5 算法的主要处理过程为:设S 是一个样本集合, 目标变量C 有k 个分类.freq(C , S)

24、i 表示S 中属于i C 类的样本数, S 表示样本集合S 的样本数. 则集合S 的信息熵定义为:如果某属性变量T , 有n 个分类, 则属性变量T引入后的条件熵定义为: n=属性变量T 带来的信息增益为: 此时, 属性变量T 带来的信息增益率为: 其中SplitInfo(T)为其实在C4.5算法中最大的选择值属性就是分裂节点,如果节点中的所有样本都属于决策树中的某一分支,这种情况下如果节点样本在分支中的个数小于一个固定阀值,那么节点样本就会停止分裂,而每个节点都可以被看作是一片树叶,节点分裂的增多就伴随着节点覆盖的范围越大,这样发展下去就会形成决策树。根据C4.5算法形成的决策树信息数据会十

25、分复杂而庞大,这样就会导致一些 “过拟合”的问题。决策树如果被“过拟合”了,那样在算法中出现错误的几率就会变高,所以对于初始决策树进行有用的安慰是必要的。C4.5算法采用了后安慰(postpruning)算法,用叶节点替换一个或多个子树,然后再对呈现几率高的叶节点进行种别分类。步骤主要是在决策树运算过程中查找呈现盼望错误率最高的子树,对每一个子树的分分枝进行重新评估,减少盼望错误率。若是剪去该节点致使较高的盼望错误率,则保存该子树;不然剪去该子树,末了获得具备最小盼望错误率的决策树。3 建立预测分析模型及规则 3.1 数据准备和预处理在2014年我国相关部门对某个团购网站进行了数据统计,主要针

26、对的是该团购网站一个季度的原始数据进行分类,其中商品数据表主要有商品ID、商品价格、商品类型、团购时间、快递方式、原件、入仓、历史团购销量、网页历史浏览数量等多个字段,而商家数据表主要有卖家ID、卖家名称、店铺注册时间、店铺评价等多个字段,还有些数据不适合再深入挖掘,通过对商品数据表和商家数据表进行分析制作了一个新的宽表,在这个表格中对于这些原始数据会再次进行分析处理,然后根据商品需求和价格将选取出符合分析条件的850挑服饰箱包鞋类项目的数据。 合并数据表: 通过对卖家数据进行整合分析,然后将商品ID作为主键再次制作了表1。 相关性分析: 相关性分析包括:输入变量和输出变量之间的关联与分析,输

27、入变量之间的相关联分析。第一要对与输出结果没有多大关系的属性进行数据删除,然后对相关数据进行整合分析,对输出结果小于0.3的数据进行删除。紧接着要只保留一个属性,将那些相关性很高的属性删除。 表1 团购商品数据实例(部分)商品ID是否入仓是否包邮一级类目上线时间折扣团购价购买性别.1540NN女装2014/3/154.596女性.1618YY女装2014/3/152.869男性.1474NN男装2014/3/164.259男性.1623YY女装2014/3/15345女性.1627NY女装2014/3/156112女性.1629YN女装2014/3/154.598女性.1756NY男装2014

28、/3/166101男性.1759YY男装2014/3/16345男性.1778YN男装2014/3/163.566男性.1779NN女装2014/3/164.570女性.1790NN男装2014/3/17666男性.1801YN女装2014/3/174.555女性.1806NN女装2014/3/173.545男性.1809YY女装2014/3/18570女性.1812YN女装2014/3/18593女性.1834NY男装2014/3/18334男性.1878NN女装2014/3/184.576女性.1878YY男装2014/3/19345男性.1889NN女装2014/3/19499女性.18

29、90NN女装2014/3/19359女性.1900YY男装2014/3/204.578男性.1901NY女装2014/3/20499女性.1908YN女装2014/3/213.579男性.1999YY女装2014/3/22588女性.分类的属性能够代替连续性的属性:连续性的数据在商品中广泛存在,在进行决策树分析的时候,通过对数据进行分散处理,能够加快数据处理的速度,所以对于数据进行分离是一种必须的情况,在这上边可以举一个例子,在进行收藏数量的统计时:通过两个小组进行分析,: 1000 则表示收藏量是比较大短期情况,在对一些基础的属性进行分析以后,就能够对畅销和不畅销进行分类,比如3500 表示

30、畅销的情况,在对数据的分析之后就能够得到表2的情况,在表中可以看书,目标属性和输入属性分别是1和9,在对商品的折扣以及团购价格进行分析,并对原价计算,通过对收藏量、是否包邮以及卖家的等级和好评等多方面进行分析之后,定义了畅销和非畅销的概念。 表2 待挖掘数据 (部分)折扣团购价原价是否包邮是否入仓开店时间卖家等级好评率收藏量销售情况.4.489391.6YN716高级99.60%小非畅销585425YY419高级100%小畅销52681340YN371高级93.90%大非畅销3.5112392YN716高级92.60%小非畅销377231YY565高级100%小畅销645270YN479高级9

31、8.63%大非畅销6121726YN112高级94.63%大非畅销645270YY875高级100%大畅销388264YN453高级98.60%大非畅销3.599346.5YN648高级99.60%小非畅销449196YY134高级100%大畅销61691014YN980高级100%大畅销448192YY2321高级100%小畅销596480YN497高级96.88%大非畅销3.533115.5YN555高级99.60%小非畅销4.578351YY345高级99.60%大非畅销399297YN339高级98.89%小非畅销5.538209YN980高级93.59%大非畅销6112672YY34

32、5高级98.60%小非畅销449196YN989高级99.60%大非畅销640240YN564高级100%小畅销5.5128704YY452高级98.60%小非畅销566330YN1123高级99.60%大非畅销535175YN987高级99.59%大非畅销475300YY789高级98.60%大非畅销567335YN987高级99.60%小非畅销677462YN125高级100%大畅销6.365409.5YY654高级98.60%小非畅销656336YN213高级99.60%大非畅销399297YN123高级100%小畅销3.52484YY168高级99.60%大非畅销474296YN678

33、高级96.00%小非畅销633198YN716高级100%小畅销5.590495YY879高级93.59%大非畅销.3.2 决策树的生成通过对表2中的数据进行分析,在这个案例中使用了一种全新的决策计算方法C4.5 算法, 具体的几个阶段在下面的图1中可以看到: 在这个样本中通过两种不同的类型来表述S中的一些情况,在进行410条畅销的案例跟440条不畅销的案例来进行分析的时候,就能过对集合中的信息熵进行计算: 选择训练集 计算各属性信息增益 选取信息增益率最大的属性进行划分 判断是否还有新的划分 生成决策树模型图1 决策树挖掘步骤 选择分类属性信息增益率对于是从表2 的计算中获得的相关属性分析,

34、其中多是对收藏量的相关问题进行了探讨,其中最大的有480 条, 还能够看到畅销的334条,当然非畅销的就是146 条. 在这方面比较小的情况有370 条, 可以分别看到畅销和不畅销是76和294 条。 信息增益在收藏量的属性方面表现如下: 在这个过程中能够对SplitInfo(T)进行计算: 信息增益率在收藏量方面存在的一些属性如下: 信息增益率的计算可以根据上述的方法进行计算. 对于增益率的分析要进行属性的解剖,能够在不同的位置进行分割,然后对数据集进行分析,就能够对最大信息增益率在收藏数量方面表现出的一些属性进行计算,也印证了第一个分节点的可取性. 对于数据集进行划分的可能性进行分析,判步

35、骤(1) (2)的再次进行能够满足这一点, 在相反的情况下就能够对决策树进行技术,这样以后既能够能够被信任的可能性是百分之二十五,决策树被修剪之后就得到了下图2. 历史收藏数团购价非畅销畅销 卖家分级 非畅销 是否入仓 好评率 畅销 畅销 非畅销 图2 生成的决策树 3.3 分类规则解读通过对决策树的相关分析看出,收藏数量的表面特征能够对历史的销售水品有所反应,因此来说,这些数据对于一些团购的网站具有重要的价值,对于以后经营方案的制定具有重大的影响,所以说历史数据的分析是必要的。而且很多的团购买家对于价格的要求非常的苛刻,团购应该从自身的情况出发,在价格低于从61.5 元的时候在市场上比较受欢

36、迎,卖家的分级也影响到了市场竞争力,尤其是对于产品来说,而且高级卖家拥有很高的信任度,在好评率不断攀升之后,在 (大于99.4%)的时候就能够形成很好的口碑。在决策树的上的修建上,要有一定的规则,这种规则是IF-THEN, 通过对图2的分析能够看到中规则,而且这些规则都有依据: Rule 1: If ordercost=大 And activity_price61.5 And seler_star=高级 And is_in_barn=N And good_rate61.5 And seler_star=高级 And is_in_barn=N And good_rate0.994 Then 畅销

37、在收藏数量非常大的情况下,虽然价格也比较高,不过只要卖家的等级达到,好评率达到,就算入仓没有实现,也能够达到畅销的水平。 Rule 3 : If ordercost=大 And activity_price61.5 And seller_star=高级 And is_in_barn=Y Then 畅销在收藏量非常大的情况下,并且在61.5 元的价格水平以上, 高级上级在选择入仓的时候,就能够实现畅销。 Rule 4: If ordercost=小 Then no收藏数量非常小的情况下,很难实现产品的畅销 Rule5: If ordercost=大 And activity_price61.5

38、And seler_star=普通 Then 非畅销商品价格高,卖家等级低,出现畅销的可能性很低。3.4 模型正确性评估为了评估分类算法的准确率, 定义变量A 为样本预测的总体正确率, = ,其中Na 为被正确分类的实例数, N 为测试样本的实例总数, 本文采取全样本测试. 对总体以及生成的6 条规则进行正确性评估. 表3 决策树正确识别率统计样本类别样本数错误识别数正确率(%)平均识别率非畅销4403691.8%84.5%畅销4109676.6% 表4 规矩正确率统计规矩分类结果样本数错误识别数正确率Rule1非畅销32390.6%Rule2畅销1411787.9%Rule3畅销46980.

39、4%Rule4非畅销3707679.5%Rule5畅销1631093.9%Rule6非畅销981782.7%4 结语作为电子商务企业如果想要发展壮大,首先要做好的就是电子商务数据挖掘工作,这对于企业电子商务的发展方向正确与否至关重要。而且数据统计工作还可以直观地预测出客户的心理需求,指导企业制定营销策略,增加企业的竞争实力。但是在电子商务数据挖掘过程中还是会遇到很多问题,随着时代的发展,电子商务必将是未来社会发展的趋势。在经济全球化发展的今天,电子商务的出现改变了传统实体商品的单一销售模式,而且也打破了地域性的局限。同时在电子商务快速发展的同时也带动了网络技术的兴起和物流配送体系的建立,此外还要加强对多媒体技术的挖掘和网络技术的安全工作,电子商务数据必须要具有保密性,这关乎着企业的发展信誉问题。电力工业和商业企业的大数据的电力供应商直接转换带来秩序,提高服务质量网上,作为交易当事人一个双赢的结果。记录商业交易和用户的网络,结合人口属性分析,每个企业和个人的产生网上购物的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1