杨华大数据时代技术与应用.pptx

上传人:rrsccc 文档编号:8786965 上传时间:2021-01-15 格式:PPTX 页数:73 大小:6.21MB
返回 下载 相关 举报
杨华大数据时代技术与应用.pptx_第1页
第1页 / 共73页
杨华大数据时代技术与应用.pptx_第2页
第2页 / 共73页
杨华大数据时代技术与应用.pptx_第3页
第3页 / 共73页
杨华大数据时代技术与应用.pptx_第4页
第4页 / 共73页
杨华大数据时代技术与应用.pptx_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《杨华大数据时代技术与应用.pptx》由会员分享,可在线阅读,更多相关《杨华大数据时代技术与应用.pptx(73页珍藏版)》请在三一文库上搜索。

1、大数据大数据时代:技术与应用时代:技术与应用 大大数据营销数据营销 纸牌屋是“大数 据”时代下的产物, 其制作公司Netflix公 司通过对3000万付费 用户的收视习惯、剧 情评论、演员喜好等 数据精准分析定制内 容,将全部13集内容 一次全部推出而大获 成功。 现代海洋科技现代海洋科技 浅蓝 深蓝 透明海洋 Too much Volume (I have too much data) Too much Velocity (Its coming at me too fast) Too much Variety (Its coming at me from too many places in

2、 too many formats) What is “Big Data”What is “Big Data” 数据爆炸:互联网催生大量数据 “COPYRIGHT RESERVED”,“一键分享” 1995年,Windows 95,MB 2004,Google上市,GB 2014,大数据,TB,PB 大数据分析大数据分析 字节(B)、千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)、拍字节 (PB)、艾字节(EB)、泽它字节(ZB,又称皆字节)、尧它字节(YB)表示、千亿 亿亿字节(BB) 封面故事: 利用海量数据的最新策略 研究人员怎样才能应对现代 方法所产生的大量数据流? 大

3、数据分析大数据分析 不是随机样本,而是全体数据 不是精确性,而是混杂性 不是因果关系,而是相关关系 大数据分析大数据分析 1. Analytic Visualizations(可视化分析) 2. Data Mining Algorithms(数据挖掘算法) 3. Predictive Analytic Capabilities(预测性分析能力 ) 4. Semantic Engines(语义引擎) 5. Data Quality and Master Data Management(数 据质量和数据管理) 大数据分析大数据分析 可视化:可视化:NASANASA公布全球洋流图公布全球洋流图 语义

4、搜索引擎语义搜索引擎 数据挖掘数据挖掘 案例分析:电子商务领域案例分析:电子商务领域 大大数据数据之用户之用户行为分析行为分析 数据挖掘:机器学习算法数据挖掘:机器学习算法 学习方式 1、监督式; 2、非监督式; 3、半监督式; 4、强化; 算法类似性 1、回归算法; 2、基于实例的算法; 3、正则化方法; 4、决策树学习; 5、贝叶斯方法; 6、基于核的算法; 7、聚类算法; 8、关联规则学习; 9、人工神经网络 数据挖掘:机器学习算法数据挖掘:机器学习算法 输入数据,被称作“训 练数据”,并进行标 识。 在建模时,将预测结果 和实际结果进行比较, 不断调整,直到预期的 准确率。 应用:分类

5、、回归 算法:逻辑回归、反向 传递神经网络等 监督式学习监督式学习 非监督式学习非监督式学习 数据不被标识,学习模 型是为了推断出数据的 内部结构。 应用场景:企业数据, 如关联规则学习、聚类 半监督学习半监督学习 数据部分被标识,部分不被 标识。 模型先学习数据的内部结构 ,再用于预测 应用场景:图像识别,回归 和分类 算法:对标识数据进行建模 ,然后对未标识数据进行预 测。 强化学习强化学习 数据: 直接作为模型的反馈 模型: 必须对数据做出直接反应 应用场景: 动态系统和机器人控制 机器学习算法机器学习算法 学习方式 1、监督式; 2、非监督式; 3、半监督式; 4、强化; 算法类似性

6、1、回归算法; 2、基于实例的算法; 3、正则化方法; 4、决策树学习; 5、贝叶斯方法; 6、基于核的算法; 7、聚类算法; 8、关联规则学习; 9、人工神经网络 回归分析回归分析 Regression AnalysisRegression Analysis 物理意义: 试图采用对误差的衡量 来描述变量之间的相关关系 步骤 确定变量 建立预测模型 进行相关分析 计算预测误差 确定预测值 回归分析回归分析 Regression AnalysisRegression Analysis SIM手机的用户满意度与相 关变量的线性回归分析 因变量:“用户满意度” 自变量:“质量”、“形象 ”和“价格”

7、 回归方程: 用户满意度=0.008形象 +0.645质量+0.221价格 指标显显著性水平意义义 R20.89 “质量”和“形象 ”解释了89% 的“用户满 意 度”的变化程 度 F248.530.001 回归方程的 线性关系显 著 T(形象)0.001.000 “形象”变量对 回归方程几 乎没有贡献 T(质质量)13.930.001 “质量”对回归 方程有很大 贡献 T(价格)5.000.001 “价格”对回归 方程有很大 贡献 回归分析回归分析 Regression AnalysisRegression Analysis 指标显显著性水平意义义 R0.89 “质量”和“形象 ”解释了89

8、% 的“用户满 意 度”的变化程 度 F374.690.001回归方程的 线性关系显 著 T(质质量)15.150.001“质量”对回归 方程有很大贡 献 T(价格)5.060.001“价格”对回归 方程有很大贡 献 SIM手机的用户满意度与相关 变量的线性回归分析 因变量:“用户满意度” 自变量:“质量”、“形象 ”和“价格” 回归方程: 用户满意度=0.008形象+ 0.645质量+0.221价格 决策树决策树 Decision Decision T Treeree 决策树决策树 Decision Decision T Treeree EMV(建大厂)=(0.4)*($100,000)+(

9、0.6)*(- $90,000)=-$14,000 EMV (中型厂)=(0.4) *($ 60,000)+(0.6)* (- $10,000)=+$18,000 EMV( 建小厂)=(0.4)* ($40,000)+(0.6)*(- $5,000)=+$13,000 EMV (不建厂)=$0 如果建一个大厂且市场较好就可实 现$100,000的利润。如果市场不好 则会导致$90,000的损失。 但是,如果市场较好,建中型厂 将会获得$ 60,000,小型厂将会 获得$40,000,市场不好则建中型 厂将会损失$10,000,小型厂将会损 失$5,000。 当然,还有一个选择就是什么也 不干。

10、最近的市场研究表明市场好 的概率是0.4,也就是说市场不好的 概率是0.6。 决策树决策树 Decision Decision T Treeree 根据EMV标准 公司应该建一个中型厂 复杂网络复杂网络Complex NetworksComplex Networks A spatial complex dynamical network with time-varying (switching) topology 复杂网络复杂网络Complex NetworksComplex Networks Consensus Correct consensus (True learning) Contro

11、l Manipulation Misinformation 复杂网络复杂网络Complex NetworksComplex Networks POWER OF BIG DATA OF THE DATA Wisdom of crowds BY THE DATA What u need to change FOR THE DATA Quality matters most 工商数据分析应用案例简介 活跃度分析包括资本活跃度CRI(Capital Relative index)和主体数量活跃度QRI(Quantity Relative index )。 活跃度指数是衡量市场环境的体检表,也是实体经济

12、的晴雨表,是一项重要的经济先行指标。活跃度指数与企业生 存环境和市场投资环境密切相关,在市场环境转好时,投资踊跃,资本活跃度指数升高;反之,指数下降,表示投资人不 愿向经济体注入资金,反映市场环境趋于恶化。 案例一 市场主体活跃度模型 分析案例市场主体活跃度模型 活跃度指数与很多市场经济指标有相当密切的关系。 CRI与财政收入呈现明显的相关关系。 CRI与存款准备金率、CPI等也有明显相关关系。 案例一 市场主体活跃度模型 案例分享企业生命周期 企业生命周期是反映某一国家或地区 中市场环境优劣的重要指标,一般来 讲,长寿企业对于区域市场经济秩序 的稳定有一定积极作用,相对的非长 寿企业对经济秩

13、序的平稳有相应的负 面影响。对不同维度中的企业分析其 生命周期,可以客观反映区域细分市 场的经济秩序,从而协助决策者准确 把握影响区域市场经济秩序的主要因 素。 案例二 市场主体退出路径 案例分享企业生命周期 常规 统计 一般趋 势分析 生存规 律挖掘 基于规 律的知 识发现 企业生命周期的分析层次 基于工商登记数 据分析企业生命周期,一 般有两种常见的分析层次 :常规统计、一般趋势分 析。通过对数据的深度分 析,还可以挖掘出区域企 业的生存规律,并可以根 据生存规律进一步总结出 直观的,可用于实际监管 工作的“知识” 。 善于发现数据背后的规律与价值 案例二 市场主体退出路径 Chapter

14、 #7 案例分享企业生命周期 常 规 统 计 一 般 趋 势 分 析 案例二 市场主体退出路径 Chapter #7 案例分享企业生命周期 生 存 规 律 挖 掘 基 于 规 律 的 知 识 发 现 死亡高风险时间段-政 府监管介入的最佳时机 案例二 市场主体退出路径 不同产业,不同区域,不同规模市场主体存活率的研究有助于判别市场生 态环境发生了哪些变化。产业生命周期模型对于政府产业扶持政策的出台也有 着较强的参考意义。 案例二 市场主体退出路径 u 用2000-2007年的数据预测2001-2007年成立企业在2008年末的存活数。 u 预测2001-2007年成立企业在2008年末的存活总

15、数为363322,实际存活个数为 364927,误差为-0.44%。 开业年开业数存活率预测存活个数实际存活个数误差个数误差 200170,5060.419129,55028,8097412.57% 200274,1110.462734,29333,5937002.08% 200385,3060.510043,50842,6418672.03% 200499,4850.569556,66055,4131,2472.25% 200596,3560.643461,99763,941-1,944-3.04% 200681,6980.749361,21563,288-2,073-3.28% 20078

16、5,3530.891676,09877,242-1,144-1.48% 案例二 市场主体退出路径 预测验证 “偏好” (Preference)一词源自经济学术语,反映用户对某种物品或劳务的喜爱或不喜爱程度,这种喜爱或不喜 爱与物品或劳务的价格及用户收入无关。偏好模型主要用于分析不同类型群体之间的结构差异。 投资偏好等于1时,表明没有显著差异。当投资偏好1时,表明该群体有着显著的比较优势。 案例三 区域产业偏好分析模型 案例五 波士顿矩阵分析洞察产业变迁 A类(优势行业) B类(支柱行业) C类(潜力行业) D类(弱势行业): 案例五 波士顿矩阵分析洞察产业变迁 北京市2008、2009年重点行

17、业产业迁移情 况。 如,2009年租赁和 商务服务业优势地位近 一步增强; 科学研究、技术服 务行业由支柱行业向优 势行业转化; 制造业则逐步从支 柱行业向弱势行业转 化。 案例五 智波士顿矩阵分析洞察产业变迁 案例五 智波士顿矩阵分析洞察产业变迁 利润率 % 可视化案 例 GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化 根据市场主体GIS信息进行密度分 析。叠加其他面数据信息,可直观 看出主体的区域分布热点。 密度分析:根据输入的点要素的分布 ,计算整个区域的数据分布情况,从 而生

18、成一个连续的表面。 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体密度分析叠加网格数据,点数据 GIS for SAIC GIS

19、 of Beijing Administration for Industry and Commerce 市场主体3D分析 根据市场主体GIS信息进行3D分 析。按照其属性值进行3维拉伸,直 观展现主体的区域分布差异。 3D分析:根据输入的点要素的分布 ,计算整个区域的数据分布高程情况 ,从而生成不同高度的3D图形。 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(区县) GIS for SAIC GIS of Beijing Administra

20、tion for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(工商所) GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(网格) GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析 外资 2008-2010 新增企业注册资本美国 2008-2010 新增企业注册资本 银行业分布地形图果蔬业分布图 GIS for SAIC 案例九族谱探寻算法 分析案例族谱图 案例九 族谱探寻算法 分析案例族谱图 沈阳化工集团有限公司 案例九 族谱探寻算法 Thank you!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1