大数据分析概述.ppt

上传人:啊飒飒 文档编号:13061197 上传时间:2021-12-13 格式:PPT 页数:74 大小:8.19MB
返回 下载 相关 举报
大数据分析概述.ppt_第1页
第1页 / 共74页
大数据分析概述.ppt_第2页
第2页 / 共74页
大数据分析概述.ppt_第3页
第3页 / 共74页
大数据分析概述.ppt_第4页
第4页 / 共74页
大数据分析概述.ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《大数据分析概述.ppt》由会员分享,可在线阅读,更多相关《大数据分析概述.ppt(74页珍藏版)》请在三一文库上搜索。

1、大数据引领我们走向数据智能化时代,大数据分析,大数据的定义理解,大数据时代的背景,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天

2、发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据,大数据时代的背景,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。,2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。,大数据时代的背景,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结

3、构化数据的超大规模和增长占总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,大数据的4V特征,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,Value 价值,

4、挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低,是大数据的一个典型特征.,2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。,Variety 多样性,企业内部的经营

5、交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 文本/图片/视频 等非结构化/半结构化数据能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.,非结构化数据,相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。,Velocity 速度,1s 是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时

6、处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.,Volume 数据量,PB是大数据層次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB,大数据不仅仅是“大”,多大?PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,指数型增长的海量数据,所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实

7、上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。,大数据 = 海量数据 + 复杂类型的数据,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:交易数据和交互数据集在内的所有数据集,海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据

8、、科学信息、电子邮件等等。可以告诉我们未来会发生什么。,大数据的构成,大数据的技术与应用,Volume海量的数据规模,Variety多样的数据类型,Value,Velocity快速的数据流转,发现数据价值,大数据技术要解决的问题,软件是大数据的引擎,和数据中心(Data Center) 一样,软件是大数据的驱动力.软件改变世界!,大数据生态:软件是引擎,大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。,大数据技术要解决的问题,技术领域

9、的挑战,1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distributed Database) ,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别

10、大数据应用和传统数据仓库技术、BI技术的关键差别之一。,网络架构、数据中心、运维的挑战:,技术架构的挑战:,人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。,分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算

11、结果展现:云计算;标签云;关系图等,一些相关技术,存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4),大数据的相关技术,数据众包,大数据的相关技术,分布式文件系统,分布式文件系统,分布式文件系统,分布式文件系统,分布式文件系统,非关系型数据库NoSQL,NoSQL,=,非关系型数据库NoSQL,非关系型数据库NoSQL,非关系型数据库NoSQL,非关系型数据库No

12、SQL,非关系型数据库NoSQL,非关系型数据库NoSQL,非关系型数据库NoSQL,一个属性是一个“名称-值”对(name-value pair),“名称”必须是一个字符串,“值”可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例:,非关系型数据库NoSQL,项目由属性构成。必须指定一个属性作为主键,这个主键在DynamoDB表中唯一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也没有关系。项目被存储在表中,表中的所有项目都具有相同的主键机制(primary key scheme)。每个项目

13、都具备一个唯一的主键值。,非关系型数据库NoSQL,非关系型数据库NoSQL,非关系型数据库NoSQL,非关系型数据库NoSQL,非关系型数据库NoSQL,云计算和云存储,云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。,白云下面数据跑,蓝蓝的天上白云飘,如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。,云计算和云存储,云计算和云存储,当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设

14、备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。,实时流处理,实时流处理,大数据的相关技术,A/B Testing,注册按钮由绿色改成红色提高转化率34%,人性化的表格提高11%的转化率。,MapReduce,MapReduce,R语言,R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。,大数据的相关技术,标签云,标签云,标签云,聚类图,空间信息流,热图,热图,三,大数据赋予我们洞察未来的能力,机遇,马云成功预测2008 年经济危机“2008 年初,

15、阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。,人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。大数据时代,挑战,诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进

16、行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!,更多的隐私、安全性问题:我们的隐私被二次利用了多少密码和账号是因为“社交网络”流出去的?2011年4月索尼的系统漏洞导致7700万用户资料失窃2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息2011年CSDN密码泄露事件眼下中国互联网热门的话题之一就是互联网实名制问题,我愿意相信这是个好事。毕竟我们如果明着亮出自己的身份,互联网才能对我们的隐私给予更好保护。,大数据的营销案例,一、未卜先知怀孕案例,塔吉特:比父亲更早知道女儿怀孕曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这

17、家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。,提问:为什么塔吉特能知道这个用户怀孕了?必须有哪几个关键环节A:用户数据收集 B:怀孕特征库 C:怀孕潜在用户筛选 塔吉特在和顾客沟通过程中采用了哪种营销方式A:电子邮件 B:直邮 C:电话营销 D:数据库营销,大数据的营销案例,一、未卜先知怀孕案例,关键环节一:数据信息记录一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?每位顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别编号,内含顾客姓名、信用卡卡号及电子邮件等个人资料。日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容

18、、时间等信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。每个ID号还会对号入座的记录下你的人口统计信息:年龄、是否已婚、是否有子女、所住市区、住址离Target的车程、薪水情况、最近是否搬过家、钱包里的信用卡情况、常访问的网址等等。Target还可以从其他相关机构那里购买你的其他信息:种族、就业史、喜欢读的杂志、破产记录、婚姻史、购房记录、求学记录、阅读习惯等等。乍一看,你会觉得这些数据毫无意义,但在Andrew Pole和顾客数据分析部的手里,这些看似无用的数据便爆发了前述强劲的威力,大数据的营销案例,一、未卜先知怀孕案例,关键环节二:数据模型建

19、立Andrew Pole想到了Target有一个迎婴聚会(baby shower)的登记表。Andrew Pole开始对这些登记表里的顾客的消费数据进行建模分析,不久就发现了许多非常有用的数据模式。比如模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后Andrew Pole选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。,大数据的营销案例,一、未卜先知怀孕案例,关键环节三:建立和用户沟

20、通渠道那么,顾客收到这样的广告会不会吓坏了呢?Target很聪明地避免了这种情况,它把孕妇用品的优惠广告夹杂在其他一大堆与怀孕不相关的商品优惠广告当中,这样顾客就不知道Target知道她怀孕了,大数据的营销案例,一、未卜先知怀孕案例,Target取得的成就:根据Andrew Pole的大数据模型,Target制订了全新的广告营销方案,结果Target的孕期用品销售呈现了爆炸性的增长。Andrew Pole的大数据分析技术从孕妇这个细分顾客群开始向其他各种细分客户群推广,从Andrew Pole加入Target的2002年到2010年间,Target的销售额从440亿美元增长到了670亿美元。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1