数据挖掘在数据矿山中挖掘蕴藏的知识金块.ppt

资源描述

《数据挖掘在数据矿山中挖掘蕴藏的知识金块.ppt》由会员分享，可在线阅读，更多相关《数据挖掘在数据矿山中挖掘蕴藏的知识金块.ppt（96页珍藏版）》请在三一文库上搜索。

1、数据挖掘 -在数据矿山中挖掘蕴藏的知识金块,主讲：王名扬信息与计算机工程学院,2,腾讯鲜为人知的重武器之 -数据挖掘,腾讯鲜为人知的重武器之 -数据挖掘,中国有三家最重要、也是市值最高的“互联网之水”腾讯、阿里巴巴、百度。这三家公司分别依托IM(Instant Message)、搜索和电子商务，又都同时在试图以全业务的模式进入对方领地，结果他们每家公司都有了自己的搜索、IM和电子商务。过去几年，他们之间已经有过多次小规模的短兵相接。不过在一番试探之后，三家公司均发现对方的实力不俗，强行进入对方领地难度太大。他们都有自己鲜为人知的“重武器”。,腾讯鲜为人知的重武器之 -数据挖掘,“互联网之

2、水”:就像日常生活中人们对水和电的依赖一样，我们要做成互联网上的水和电马化腾自1999年2月QQ上线到现在，10年间，马化腾把一个最轻、最不主流的IM做成了“水一样的内在”，什么是他的重武器？腾讯从一个毫不起眼的“抄袭者”到一个凶猛王者，什么是它的真正原点？,腾讯鲜为人知的重武器之 -数据挖掘,数据挖掘:从大量数据中获取有效的、新颖的、潜在可用的、最终可理解的信息，以辅佐公司战略的数字神经系统。这是一个真正的重武器，即使整个中国互联网，真正拥有这一系统的公司也极少腾讯、百度、阿里巴巴、盛大。,腾讯鲜为人知的重武器之 -数据挖掘,数据是每一家互联网公司安身立命的基础之一。 “数据挖掘”才是

3、腾讯最具门槛性质的技术。 “数据蕴含商机，挖掘决胜千里”。,7,客户关系管理（CRM）,8,什么是CRM？数据挖掘在CRM中的作用？,Problem？,9,求贤若渴势头猛之 -数据挖掘,求贤若渴之 -数据挖掘,北京-知名上市互联网公司聘-互联网海量数据处理、挖掘工程师易方优IT猎头-数据挖掘/分布式/搜索研发/PHP/IOS/互联网产品经理（北京，薪水范围：25-40万/年）全球知名的搜索引擎公司急招数据挖掘/统计研发工程师【北京】IT行业电话销售数据挖掘岗位大规模招聘。,求贤若渴之 -数据挖掘,求贤若渴之 -数据挖掘,13,什么激发了数据挖掘，为什么它是重要的 -需要是发明之母（柏

4、拉图）,时代背景,我们已经生活在一个网络化的时代，通信、计算机和网络技术正改变着整个人类和社会。在美国，广播达到5000万用户用了38年；电视用了13年；Internet拨号上网达到5000万户仅用了4年；国内，1999年初，上网用户为210万，现在已经达到600多万。早在20世纪80年代，全球信息量每隔20个月就增加一倍；而进入21世纪，全世界所存储的数据库及其所存储的数据规模增长更快。,一个中等规模的企业每天要生产100MB以上来自各生产经营等多方面的商业数据；在科研方面，以美国宇航局的数据库为例，每天从卫星下载的数据量就达34TB之多，而为研究，这些数据至少要保持7年之久；纽约时

5、报由60年代的10-20版扩张至现在的100-200版，最高曾达1572版；北京青年报也已是16-40版，等。而在现实社会中，人均日阅读时间通常为30-45分钟，只能浏览一份24版的报纸。据估计，1993年全球数据存储容量约为二千TB，到2000年增加到三百万TB，面对极度膨胀的数据信息量，人们受到“数据过剩”的巨大压力。,“数据过剩”,16,数据爆炸. 知识贫乏,激增的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展

6、趋势。缺乏挖掘数据背后隐藏知识的手段，导致“数据爆炸. 知识贫乏”的尴尬现象。,17,数据.信息.知识,数据仅是人们用各种工具和手段观察外部世界得到的原始材料；信息虽给出数据中有一定意义的东西，但往往和任务无直接联系，不能作为判断、决策和行动的依据；知识是人们作出正确的判断、决策和采取正确行动的依据。,18,数据的丰富带来了对强有力的数据分析工具的需求！,19,数据仓库与数据挖掘,解决方法：数据仓库技术和数据挖掘技术数据仓库和联机分析处理技术；数据挖掘：在大量的数据中挖掘感兴趣的知识（规则，规律，模式，约束）。,（一）数据仓库与OLAP,1.1 为什么要建立数据仓库？,22,从数据库到

7、数据仓库,管理信息的处理类型：（1）事务型处理：业务操作处理，用来协助企业对相应事件或事务的日常商务活动进行处理。是事件驱动、面向应用的，通常是对一个/组记录的增、删、改以及简单查询等，以满足组织特定的日常管理需要（数据库；细节信息）；（2）分析型处理：用于管理人员的决策分析，例如DSS、 EIS和多维数据分析等。帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据，支持复杂的查询分析（数据仓库；宏观信息）。,23,分离示意图,24,转换同时进行的集成,数据仓库的关键特征,关键特征：面向主题；集成的；随时间而变化的（时变的）；不容易丢失的（非易失）。,26,面

8、向主题,关注决策者的数据建模与分析，而不是集中于组织机构的日常操作和事务处理。,27,集成性,一个数据仓库是通过集成多个异种数据源来构造的；关系数据库，一般文件，联机事务处理记录数据仓库中的综合数据不能从原有的数据库系统直接得到，需使用数据清理和数据集成技术对数据进行处理：统一元数据中矛盾之处：确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时，它们要经过转化：进行数据综合和计算。,28,随时间而变化的,数据仓库从历史的角度来提供信息：时间范围比操作数据库系统要长的多操作数据库系统: 主要保存当前数据；数据仓库:从历史的角度提供信息（比如过去 5-10 年）。,29

9、,数据不易丢失,尽管数据仓库中的数据来自于操作数据库，但他们却是在物理上分离保存的操作数据库的更新操作不会出现在数据仓库环境下。只进行两种数据访问：数据的初始装载；查询操作。,1.2 数据仓库模型？,31,回顾：数据库模型,32,数据仓库的三级模型,（1）概念模型：从客观世界到主观认识的映射；（2）逻辑模型：逻辑模型描述了数据仓库主题的逻辑实现；（3）物理模型逻辑模型在数据仓库中的实现，如数据存储结构、存储策略、索引策略、存储分配优化等。,概念-逻辑？,33,数据仓库的概念模型-信息包图,信息包图：信息包图提供了分析人员思维模式的可视化表示。,34,信息包图示例,例试画出销

10、售分析的信息包图。解：首先根据销售分析的实际需求，确定信息包的维度、类别、指标与事实：（1）维度：包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。（2）类别：确定各维的详细类别，如：日期维包括年（10）、季度（40）、月（120）等类别，括号中的数字分别指出各类别的数量；销售地点维包括国家（15）、区域（45）、城市（280）、区（880）、商店（2000）等类别，括号中的数字同样分别指出各类别的数量；类似地，可以确定销售产品、年龄组别维、性别维等的详细类别。（3）度量（指标和事实）：确定用于进行分析的数值化信息，用户最关心的信息，包括预测销售量、实际销售量和预测偏差等。,3

11、5,销售分析的信息包图,36,数据仓库的逻辑模型,数据仓库的逻辑模型主要包括如下几种类型：星型模型；雪花模型；事实星座模型。,37,几个基本概念,1）维和维表：维：关于一个组织想要记录的视角或观点。如公司Allelectronics 创建数据库sales，用以记录商店的销售，则可能涉及time , item , branch , location维。维表：每个维都有一个表与之相关联，称为维表。如，item维表可以包含属性item-name, brand, type。,38,几个基本概念,2）事实和事实表：事实：指的是一些数字度量；如，sales销售数据仓库的事实包括dollars-

12、sold（销售的款项），units-sold(销售量)，amount-budgeted。事实表：包括事实的名称或度量，以及每个相关维表的关键字。,星型模型示例,示例： Allelectronics公司sales销售数据仓库的星型模式。Sales有四个维：time, item, branch, location。该模式包含一个中心事实表sales，该表包含四个维的关键字和三个度量dollars-sold, units-sold，avg-sales。,40,星型模型示例,Sales 事实表,time_key,item_key,branch_key,location_key,units_sold,

13、dollars_sold,avg_sales,Measures,41,数据仓库的多维数据模型,数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中，数据以数据立方体(data cube)的形式存在。如，某公司可能创建一个数据仓库sales，记录商店的销售情况，且涉及time, item, location。则，典型的3-D数据立方体如图：,42,数据仓库的“概念分层”,在数据仓库中，一个概念分层（concept hierarchy）定义一个映射序列，将低层概念映射到更一般的高层概念。对于一个给定的属性或维，根据不同的用户视图，可能有多个概念分层：如，表示location的概念：杭州

14、浙江中国亚洲；概念分层允许我们在各种抽象级审查和处理数据，为不同级别上的数据汇总提供了一个良好的基础。,43,Location维的一个概念分层,city,all,continent,country,Province_or_ state,1.3 OLAP技术,45,为什么需要OLAP?,仅仅把数据存储在数据仓库之中，利用一定的方法对其安全有效的管理，并不是用户的最终目的。建立数据仓库的目的，是要为决策提供必要的支持。为此，必须使用适当的技术和工具，对数据仓库中的数据进行分析，以实现最终的决策支持目标。 OLAP是一门比较成熟的分析技术，在数据仓库领域中应用最广。,OLAP的分析方法,OLAP

15、：（1）切片与切块（Slice & Dice）；（2）钻取 (Drill)；（3）旋转（Rotate）/转轴（Pivot）,47,（1）切片与切块,切片：在多维视图中，如果某个维度上的取值选定了一个固定值，原视图就降低了一个维度，可能就把原来的三维视图变成了二维，四维变成了三维，即进行了切片操作。如在一个(时间，城市，产品，价格)的多维数据集中，其中，时间、城市、产品是三个维度，价格是度量变量。如要分别显示在北京和上海各年各种产品的价格情况，只需要在城市维上取值“北京”、“上海”，则分别形成两个在城市维上的数据切片。,48,（1）切片与切块,切块：如果某个/些维度上的取值范围缩小到

16、一个区间，原视图的维度没有降低，但内容减少了，即进行了切块操作。如，在一个(时间，城市，产品)的多维数据集中，要浏览2001-2003年（北京、上海、广州）的产品（电视机、计算机、数码相机）的销售情况，通过指定时间维的取值为2001-2003，指定城市维（北京、上海、广州），指定产品维（电视机、计算机、数码相机），则这样得到的子集称为该多维数据集的数据切块。,49,（1）切片与切块,50,（2）钻取,钻取包括向下钻取（Drill-down）和向上钻取（Drill-up）/上卷（Roll-up）。钻取的深度与维所划分的层次相对应。下钻：从汇总数据深入到细节数据进行观察或增加新维。上钻：

17、在某一维上将低层次的细节数据概括到高层次的汇总数据。,51,（2）钻取,52,（3）旋转/转轴,数据旋转是改变维的位置关系，使用户可以从不同角度来观察多维数据。如，要形成横向为地理，纵向为时间的报表，可以把横向的时间维与纵向的地理维进行交换。,53,（3）旋转/转轴,（二）数据挖掘,2.1 为什么要进行数据挖掘？,实际需求的驱动,“数据爆炸.知识贫乏”：与日趋成熟的数据管理技术与软件工具相比，人们所依赖的数据分析工具（录入、查询、统计等），无法有效地为决策者提供决策支持所需要的相关知识；被收集并存储在众多数据库中且正在快速增长的庞大数据，已远远超过人类的处理和分析理解能力，而成为“数据坟墓

18、”；数据与信息知识之间的巨大差距迫切需要开发数据挖掘工具，帮助实现将“数据坟墓”中的数据转化为知识财富。,57,2.2 什么是数据挖掘？,59,KDD, Knowledge Discovery in Database,数据挖掘的概念,数据挖掘（从数据中发现知识）；从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。数据挖掘的替换词：数据库中的知识挖掘（KDD）知识提炼、数据/模式分析数据考古数据捕捞、信息收获等等。,2.3 常用的数据挖掘技术？,常用的数据挖掘技术,（1）分类,63,分类是人类很自然的一个过程，不知不觉间就已经在进行了分类的工

19、作。一切生物都在进行着分类，如对食物分为能吃的和不能吃的两种。小孩看电视会分好人，坏人。分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。,64,分类过程示意图,65,分类过程的第一步：学习建模,66,分类过程的第二步：分类测试,（2）聚类分析,67,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。原则：同一个组内的数据对象具有较高的相似度；而不同组中的数据对象是不相似的。 “物以类聚，人以群分”。,68,69,70,（3）关联分析,71,关联分析用以挖掘事务之间存在的有意义的联系和规则。在商业应用中，这些规则通过发掘不同商品之间的联系，以反映顾客的购

20、买行为模式。,（3）关联分析,72,典型例子：购物篮分析如，在同一次购物中，如果顾客购买牛奶，则他同时购买面包（和什么类型的面包）的可能性有多大？ “啤酒与尿布”,（3）关联分析,同时满足用户定义的最小置信度和最小支持度阈值的关联规则，称为强关联规则,74,A,（4）孤立点分析,75,数据库中可能包含一些数据对象，它们与数据的一般行为或模型不一致。这些数据对象被称为孤立点（outlier）。孤立点可能是度量或执行错误所导致的。例如，一个人的年龄为999 可能是程序对未记录的年龄的缺省设置所产生的。孤立点也可能是固有的数据变异性的结果。例如，一个公司的首席执行官的工资自然远远高于公司其他雇

21、员的工资，成为一个孤立点。孤立点常被视为噪声或异常而被丢弃。,（4）孤立点分析,76,任何事物都要一分为二来看，正如一条一个人认为是垃圾的信息对另一个人是如获至宝。在一些应用中，罕见的事件可能比正常出现的事件更有趣，如，信用卡欺诈检测等。,2.3 数据挖掘的典型应用？,1）哪些商品放在一起会比较好卖,沃尔玛：啤酒与尿布购物篮分析,2）库存预测,过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大，很多零售商（从主要财务主管到库存管理员）都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。 SQL Server 2005 Analysis Ser

22、vices 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销，准确性为 98.52%。,3）股票预测,预测一支股票的走势几乎是不可能，但是通过相关分析，可以找出一支股票的走势与另一只股票走势的潜在规律，比如数据挖掘曾经得到过这个结论：“如果微软的股票下跌4%，那么IBM的股票将在两周内下跌5%”。,4）NBA教练的布阵,想象你是NBA的教练，你靠什么带领你的球队取得胜利呢？当然，最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天，NBA的教练又有了他们的新式武器：数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来

23、优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排，在与迈阿密热队的比赛中找到了获胜的机会。,4）NBA教练的布阵,系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为17分,这意味着他俩在场上，本队输掉的分数比得到的分数多17分。然而，当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时，魔术队得分为正14分。在下一场中，魔术队增加了阿姆斯创的上场时间。此着果然见效：阿姆斯创得了21分，哈德卫得了42分，魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入

24、先发阵容，再一次打败了热队。在第五场比赛中，这个靠数据挖掘支持的阵容没能拖住热队，但Advanced Scout毕竟帮助了魔术队赢得了打满5场，直到最后才决出胜负的机会。,5）出了一个新成品，哪些老客户最可能购买,蒙特利尔银行是加拿大历史最为悠久的银行，也是加拿大的第三大银行。在 20 世纪 90 年代中期，行业竞争的加剧导致该银行需要通过交叉销售来锁定 1800 万客户。在应用数据挖掘之前，银行的销售代表必须于晚上 6 点至 9 点在特定地区通过电话向客户推销产品。但是，正如每个处于接受端的人所了解的那样，大多数人在工作结束后对于兜售并不感兴趣。因此，在晚餐时间进行电话推销的反馈率非常低。

25、,5）出了一个新成品，哪些老客户最可能购买,几年前，该银行开始采用 IBM DB2 Intelligent Miner Scoring，基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能性。对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。当进行更具针对性的营销活动时，银行能够区别对待不同的客户群，以提升产品和服务质量，同时还能制订适当的价格和设计各种奖励方案，甚至确定利息费用。,6）登录网站的当前用户现在最可能购买什么东西？,丹佛的 eBags 旨在针对旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。

26、该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、财务系统、客户服务电子邮件和呼叫中心，从而获得客户购买行为习惯方面的信息。数据分析能够帮助公司确定是哪个页面导致了客户的高采购率，并了解是什么内容推动了销售。,6）登录网站的当前用户现在最可能购买什么东西？,丹佛的 eBags 旨在针对旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、财务系统、客户服务电子邮件和呼叫中心，从而获得客户购买行为习惯方面的信息。数据分析能够帮助公

27、司确定是哪个页面导致了客户的高采购率，并了解是什么内容推动了销售。,87,电子商务推荐系统,2.4 几个关系？,（1） DW与DM的关系？,数据仓库：是一种存储技术，它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘：研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。,二者的区别,91,DM与DW关系密切,DW可为DM提供正确的、完整的和集成的数据； DM建立在DW上，扩展DW的功能。,92,注意：,数据仓库并不是数据挖掘的必要条件：数据挖掘不一定必须建立在一个数据仓库上，数据仓库不是必要条件；基于在开发数据仓库过程中所进行的数据集成、清洗和准备，才使得数据仓库对于数据挖掘有着重要的价值。,2. OLAP与DM？,OLAP：假设验证。比如，一个分析师想找到什么原因导致了贷款拖欠，他可能先做一个初始的假定，认为低收入的人信用度也低，然后用OLAP来验证他这个假设。 DM：自动学习。比如，一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素，甚至还可能发现一些分析师从来没有想过或试过的其他因素，比如年龄。,OLAP与DM,95,96,

展开阅读全文