大大数据分析报告结课论文设计.docx

上传人:田海滨 文档编号:334618 上传时间:2025-07-17 格式:DOCX 页数:14 大小:33.14KB
下载 相关 举报
大大数据分析报告结课论文设计.docx_第1页
第1页 / 共14页
大大数据分析报告结课论文设计.docx_第2页
第2页 / 共14页
大大数据分析报告结课论文设计.docx_第3页
第3页 / 共14页
大大数据分析报告结课论文设计.docx_第4页
第4页 / 共14页
大大数据分析报告结课论文设计.docx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、Forpersona1.useon1.yinstudyandresearch;notforcommercia1.use大数据论文摘要数据发展到今天,已不再是一个新的概念,基于大数据技术的应用也层出不穷,但作为一项发展前景广阔的技术,其很多作用还有待挖掘,比如为人们的生活带来方便,为企业带来更多利益等.现今,互联网上每日产生的数据已由曾经的TB级发展到了今天的PB级、EB级甚至ZB级.如此爆炸性的数据怎样去使用它,又怎样使它拥有不可估量的价值呢?这就需要不断去研究开发,让每天的数据砂砾变为黄金.那么如何才能将大量的数据存储起来,并加以分析利用呢,大数据技术应运而生。大数据是指无法在可承受的时间围

2、用常规软件工具迸行捕捉、管理和处理的数据集合.大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有.意义的数据进行专业化的处理.本文就大数据技术进行了深入探讨,从大数据的定义、特征以及目前的应用情况引入,简述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方法,并对大数据分析流程和根架、大数据存储模式和服务机制、大数据分析中的多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等做了概述.最后,以网络信息安全为例,阐述了该领域的大数据分析过程和方法。关罐词大数据;雌挖掘;深度学习;大数据分析;网络信息安全一、大数据概述1.1 大数据的定义和特征目前,虽然

3、大数据的更要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭.大数据是f抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与“海H数据和“非常大的数据.这些概念之间的不同.一般意义上,大数据是指无法在有限时间用传统技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合.科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义.通过以下定义,或许可以帮助期口更好地理解大数据在社会、经济和技术等方而的深刻涵。2010年ApacheHadoop组织将大数据定义为,”普通的计算机软件无法在可接受的时间围捕捉、管理、处理的规模庞大的

4、数据集.在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为“大数据:下一个创新、竞争和生产力的前沿的报告,在报告中对大数据的定义进行了扩充。大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集.该定义有两方而涵:(1)符合大数据标准的数据集大小是变化的,会隐着时间推移、技术进步而增长;(2)不同部门符合大数据标准的数据集大小会存在差别.目前,大数据的一股围是从几个TB到数个PB(数千TB)2,根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以及无法依鸵传统的数据库技术进行管理,也是大数据的两个重要特征.大数据价值链可分为

5、4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是隈重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值.在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.大数据的主要特征5个,即5V特征:VOIUme(容f大)、Variety(种类多)、Ve1.oCity(速度快)、难辨识(Veraeity)和最市要的Va1.Ue(价值密度低).VoiUme(容量大)是指大数据巨大的数据量与数据完整性.可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子您

6、个数多.Variety(种类多)意味着要在海量、种类繁多的数据间发现其在关联.大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他雌类型。Ve1.oCity(速度快)可以理解为更快地满足实时性需求.大班的结趣口容等都可动态变化,而且变怫率高、速度快、围广,数据形态具有极大的动态性,处理需要极快的实时性.Veradty(难辨识)可以体现在数据的容.结构、处理、以及所含子数据间的关联等多方面.大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数.数间关联模糊不清、并且可能随时随机变化.Va1.Ue(价值密度低)是指大数据的价值密度低

7、大数据中,往往有用:数据混在一起,因此大数据处理的一项必要工作就是不断地清垃圾、除噪声”.大数据时代数据的价值就像沙里淘金,数据量越大里面真正有价值的东西就越少.大数据除了以上介绍的四个主要特征外,还具有纬度高,多源性,不确定性、社会性等特征.1.2 大数据应用情况大数据的类型大致可分为三类:(1)传统企业数据(TraditiOnaIenterpriSedata):包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等.(2)机器和传感器数抠(Machine-generated/sensordata):包括呼叫记录(Ca1.1.Detai1.Records),智能仪表

8、工业设备1专感器,设备日志(通常是Digita1.exhaust),交易数据等.(3)社交数据(Socia1.data):包括用户行为记录,反饿数据等.如Twitter,Facebook这样的社交媒体平台.大数据挖掘商业价值的方法主要分为四种:(1)客户群体细分,然后为每个群体H定制特别的服务.(2)模拟现实环境,发掘新的需求同时提高投资的回报率.(3)加强部门联系,提高整条管理链条和产业链条的效率.(4)留时艮务成本,发现隐藏线索进行产品和服务的创新.从三大产业的角度将大数据的核心商业价值分类讨论.大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程,从理论上来:所有

9、产业都会从大数抠的发展中受益.但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发额度才的于第三产业来说会迟缓一些.具体实例洛杉矶警察局和力mIJ福尼亚大学合作利用大数据预测3网的发生。goog1.e流感趋势(GOogIeFIUTrendS)利用搜索关键词预测禽流感的散布.统计学家特.西尔弗(NateSiIVer)利用大数据预测2012美国选举结果.麻省理工学院利用手机定位数据和交通数据建立城市规划.梅西百货的实时定价机制.根据需求和座存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。医疗行业早就遇到了海员数据和非结构化数据励触,而近年来很多国家都在积极推进医疗信息化发展

10、这使得很多医疗机构有资金来做大数据分析.二、大数据分析方法统计方法:指标对比分析法指标对比分析法统计分析的八种方法一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法.是通过有关的指标对比来反映事物数量上差异和变化的方法,有比较才能鉴别。指标分析对比分析方法可分为静态比较和动态比较分析.静态比较是同一时间条件下不同总体指标比较,如不同部门、不同地区、不同国家的比较,也叫横向比较;动态比较是同一总体条件不同时期指标数值的比较,也叫纵向比较.二、分组分析法指标对比分析法分组分析法指标对比分析法对比,但组成统计总体的各单位具有多种特征,这就使得在同一总体围的各单位之间产生了许

11、多差别,统计分析不仅要对总体数量特征和数量关系进行分析,还要深入总体的部进行分组分析。分组分析法就是根据统计分析的目的要求,把所研究的总体按照一个或者几个标志划分为若干个部分,加以整理,进行观察、分析,以揭示其在的联系和规律性。统计分组法的关犍问题在于正确选择分组标值和划分各组界限.三、时间数列及动态分析法时间数列。是将同一指标在时间上变化和发展的一系列数值,按时间先后顺序排列,就形成时间数列,又称动态数列.它能反映社会经济现象的发展变动情况,通过时间数列的编制和分析,可以找出动态变化规律,为预测未来的发展趋势提供依据。时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列.时间数列速度

12、指标。根据绝对数时间数列可以计算的速度指标:有发展速度、增长速度、平均发展速度、平均增长速度.动态分析法.在统计分析中,如果只有孤立的一个时期指标值,是很难作出判断的.如果编制了时间数列,就可以进行动态分析,反映其发展水平和速度的变化规律指数分析法指数是指反映社会经济现象变动情况的相对数。有广义和狭义之分。根据屐所研究的围不同可以有个体指数、类指数与总指数之分.指数的作用:一是可以综合反映复杂的社会经济现象的总体数量变动的方向和程度;二是可以分析某种社会经济现象的总变动受各因素变动影响的程度,这是一种因素分析法。操作方法是:通过指数体系中的数量关系,假定其他因素不变,来观察某一因素的变动对总变

13、动的影响.用指数进行因素分析.因素分析就是将研究对象分解为各个因素,把研究对象的总体看成是各因素变动共同的结果,通过对各个因素的分析,对研究对象总变动中各项因素的影响程度进行测定.因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析,对平均指标变动的因素分析。五、平衡分析法平衡分析是研究社会经济现象数量变化对等关系的一种方法。它把对立统一的双方按其构成要素排列起来,给人以整体的概念,以便于全局来观察它们之间的平衡关系.平衡关系广泛存在于经济生活中,大至全国宏观经济运行,小至个人经济收支.平衡分析的作用:一是从数地对等关系上反映社会经济现象的平衡状况,分析各种比例关系相适应状况

14、二是揭示不平衡的因素和发展潜力;三是利用平衡关系可以从各项已知指标中推算未知的个别指标.六、综合评价分析社会经济分析现象往往是错综匏杂的,社会经济运行状况是多种因素综合作用的结果,而且各个因素的变动方向和变动程度是不同的。如对宏观经济运行的评价,涉及生活、分配、流通、消费各个方面;对企业经济效益的评价,涉及人、财、物合理利用和市场销售状况.如果只用单一指标,就难以作出恰当的评价.进行综合评价包括四个步骤:1 .确定评价指标体系,这是综合评价的基4蹄口依据.要注意指标体系的全面性和系统性.2 .搜集数据,并对不同计量单位的指标数值进行同度量处理,可采用相对化处理、函数化处理、标准化处理等方法.

15、3 .确定各指标的权数,以保证评价的科学性。根据各个指标所处的地位和对总体影响程度不同,需要对不同指标赋予不同的权数.4.对指标进行汇总,计算综合分值,并据此作出综合评价。七、景气分析经济波动是客观存在的,是任何国家都难以完全避免的.如何避免大的经济波动,保持经济的稳定发展,一直是各国政府和经济之专家在宏观调控和决策中面临的重要课题,景气分析正是适应这一要求而产生和发展的。景气分析是一种综合评价分析,可分为宏观经济景气分析和企业景气调查分析.宏观经济景气分析。是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分析报告,对宏观经

16、济运行状态起到晴雨表和报警器的作用,便于国务院和有关部门及时采取宏观调控措施.以经常性的小调整,防止经济的大起大落.企业景气调查分析.是全国的大中型各类企业中,采取抽样调查的方法,通过问卷的形式,让企业负责人回答有关情况判断和预期。容分为两类:一是对宏婚济总体的判断和预期1.是对企业经营状况的判断和预期,如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等。八、预测分析宏观经济决策和微婚济决策,不仅需要了解经济运行中已经发生了的实际情况,而且更需要预见未来将发生的情况,根据已知的过去和现在推测未来,就是预测分析.统计预测属于定量预测,是以数据分析为主,在预测中结合定性分析。统计预

17、测的方法大致可分为两类:一类是主要根据指标时间数列自身变化与时间的依存关系进行预测,属于时间数列分析;另一类是根据指标之间相互影响的因果关系迸行预测,属于回归分析。挖掘方法:在大数据时代,数据挖堀是最关键的工作.大数据的挖娓是从海量、不完全的、有噪声的、模版的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程.其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策.目前,在很多领域尤其是在商业领域如银行、电信、

18、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则等.这些方法从不同的角度对数据进行挖掘.(1)分类.分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中.可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量.(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系.它可以应用到对数

19、据序列的预测及相关关系的研究中去。在市场营谓中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变.(3)聚类.聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别.屈于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低.(4)关联规则.关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现,关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则.关联规则挖底技术已经

20、被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销.神经网络方法:神经网络方法.神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问逊,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、蝴机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfie1.d的离散模型和连续模型为代表.第三类是用于聚类

21、的自组织映射方法,以ART模型为代表.虽然神经网络有多种模型及法,但在特定领域的数据挖堀中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程.基于深度学习框架的方法:深度学习是多学科领域的交叉,比如神经网络、人工智能、图建模.最优化理论、模式识别和信号处理.需要注意的是本文所描述的深度学习是在信号和信息处理容中学习出一种深度结构.它不是对信号和信息处理知识的理解,尽管某些意义上说它俩相似,但深度学习重点在于学习出一种深度网络结构,是实实在在存在的一种计算机可存储结构,这种结构表示了信号的某种意义上的涵.从06年开始,深度结构学习方法(深度学习或者分层学习方法)作为机器学习

22、领域的新的研究方向出现.由于三种主要领域的技术进步(比如芯片处理性能的巨大提升,数据海炸性增长和机器学习与信信号处理研究的进步),在过去的短短几年时间,深度学习技术得到快速发展,四深深的影响了学术领域,其研究涉及的应用领域包括计算机视觉、语音识别、对话语音识8!1、图像特征编码、语意表达分类、自然语言理解、手写识Sik音频处理、信息检索、机器人学。深度学习的具体模型有自动编码器(稀疏自动编码器、降嗓自动编码器)、深度置信网络以及卷积神经网络.3、简述大数据分析流程和框架、大数据存储模式与服务机制、大数据建模分析方法和深度学习理论大数据的处理麝可以定义为在合适工具的辅助下,对广泛异构的数据源进行

23、抽取和集成,结果按照一定的标准统一存储.利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户.可分为三个主要环节:IeenZweCkenverendetwrde11Pour16UdeerechercheUngUement3desfinspersonne1.1.es;asdesfm$commercia1.eoboa11aKVjeM.KOTOpbiewcnob3y)c5ao6yMHif1.HixneAoeaHVMHeAHtKCnoCb30B311c父KOMvepHecKMXUeJ1.Hx.以下无正文仅供个人用于学习、研究;不得用于商业用途。Forpersona1.useon1.yinstudyandresearch:notformmercia1.use.Nurfurdenperson1.ichenfurStudieo.Forschung,zukommerzeenZweCkenverendetwrde11Pour16UdeerechercheUngUemeNdesfinsper$onnd1.e$;pas(iesfinsCommerciatesoboa11aKVjeM.KOTOpbiewcnob3y)c5ao6yMHif1.HixneAoeaHVMHeAHtKCnoCb30B311c父KOMvepHecKMXUeJ1.Hx.以下无正文

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 大学论文

宁ICP备18001539号-1