陈昭宇:企业应用Hadoop的最佳模式.pdf

上传人:椰子壳 文档编号:3335810 上传时间:2019-08-13 格式:PDF 页数:56 大小:9.76MB
返回 下载 相关 举报
陈昭宇:企业应用Hadoop的最佳模式.pdf_第1页
第1页 / 共56页
陈昭宇:企业应用Hadoop的最佳模式.pdf_第2页
第2页 / 共56页
陈昭宇:企业应用Hadoop的最佳模式.pdf_第3页
第3页 / 共56页
陈昭宇:企业应用Hadoop的最佳模式.pdf_第4页
第4页 / 共56页
陈昭宇:企业应用Hadoop的最佳模式.pdf_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《陈昭宇:企业应用Hadoop的最佳模式.pdf》由会员分享,可在线阅读,更多相关《陈昭宇:企业应用Hadoop的最佳模式.pdf(56页珍藏版)》请在三一文库上搜索。

1、Hadoop的典型应用与企业化之路 Etu 知意图 首席顧問 陳昭宇 2 主题 大数据与Hadoop 企业应用Hadoop的挑战 Etu Appliance 知意图大数据一体机 Etu 知意图行业解决方案 3 大数据时代来临 Structured (结构化) Relational Database File in record format Semi-structured (半结构化) XML Logs Click-stream Equipment / Device RFID tag Unstructured (非结构化) Web Pages E-mail Multimedia Instant

2、 Messages More Binary Files 移动/互联网 Mobile/Internet 物联网 Internet of Things 4 什么是大数据 所谓“大数据”,是指数据量太大以至于目前手头的 数据管理工具已经不便于管理数据。 大数据处理技术代表了新一代的技术架构,这种架构 通过高速获取数据并对其进行分析和挖掘,从海量形 式各异的数据源中更有效地抽取出富含价值的信息。 海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。 Google 首席经济学家 Hal Varian Volume(大容量):数据体量巨大 Variety(多形式):包含结构化、半结构化和非结构化数据

3、Velocity(高速率):海量数据需要在有效时间内处理完成 Value(价值):需要从低价值的原始海量数据中进行深度挖掘和 计算,总结出具备高价值的数据 从大量数据中挖掘高价值知识是各界对于大数据的一个共识。 4V 维度 5 大数据的挑战 每天几百 GB、 几 TB 的资料,且持续成长中 存储 需要在一定时间内完成大量数据的处理运算 计算 如何快速构建并且保证系统的安全简便可用 管理 如何从大量数据中挖掘出隐藏的巨大商业价值 分析 6 大数据处理的最佳工具Hadoop 由 Doug Cutting 所发起的开源分 布式计算框架 储存并处理海量结构与非结构信息 执行数据分析程序于分布式系统上

4、简化分布式系统的管理与资源调度 线性化的扩充能力 高可用性与容错性 HIVE Big Data Applications Pig! Zoo Keeper SQL RAW 7 Hadoop的企业定位 音频文件 视频文件 图形文件 文档文件 文本数据 XML文件 网站日志 点击事件 社交网络 关联图谱 新闻内容 传感器 嵌入设备 射频标签 地理信息 GPS 定位 事件信息 其他 分布式软件架构 并行计算框架 分布式存储 横向扩容(Scale-out) 架构 数据分享 数据检索 数据分析 数据展现 8 企业应用Hadoop的挑战 先期咨询、需求分析、项目验证、与教育训练等 服务来源欠缺 Hadoop

5、 群集规划、部署、管理的技术门坎高 企业对 Hadoop 架构普遍陌生 部署 没有MapReduce 程序设计能力或相关技术薄弱 缺乏能够提供完整大数据解决方案设计与实施的专 业厂商 应用 缺乏专业、有实践经验的本地 Hadoop 技术支持 厂商 Hadoop集群管理与系统调校的技术门坎高 运维 9 Team Development Hadoop 准备好了没 ? HDFS 概念与管理 MapReduce 概念与管理 HBase 概念与管理 Hive/Pig/Sqoop 概念与管理 Security 概念与管理 Zookeeper 概念与管理 丛集管理与自动化 丛集系统与服务监控 硬件规格与选购

6、研究 高可用性的基础概念与管理 系统网络架构规划与整合 Study on 技术问题与障碍排除 丛集系统与服务的扩充管 理 系统网络与储存环境监控 硬件维护 Opera;on on 技术问题与障碍排除 丛集系统与服务的扩充管 理 系统网络与储存环境监控 硬件维护 Opera;on on 技术问题与障碍排除 丛集系统与服务的扩充管 理 系统网络与储存环境监控 硬件维护 Opera;on on Opera;on on Opera;on on Opera;on & Management 16 Etu Appliance 企业搭建Hadoop平台的最佳模式 自建Hadoop集群 采用Etu一体机 技术门

7、槛 极高 低 人才招聘 困难 容易 上线时间 漫长 迅速 系统性能 欠佳 良好 17 Etu 知意图 Etu知意图,专为企业提供一站式大数据解决方案的领导品牌,由一群累 计拥有30年以上Big Data技术经验的专业人士所组成。其核心成员早在 Apache Hadoop发明以前,就已经深入Big Data处理技术的研究。 专业服务 Hadoop 一体机 解决方案 18 一体机特性 快速部署 一键部署,独家EtuTM OS,裸设备支持 10 分钟可部署 100+ 个节点 性能优化 软硬件针对 Hadoop 完全优化 参数最佳化调校, 独家 DataFlow 技术 水平扩展 单节点存储 4TB 4

8、0TB 海量数据 不宕机扩展至 上千 个节点 容错机制 自治备份,数据不丢失 高度整合,软硬全方位的HA设计 安全简便 支持Kerberos验证机制,支持LDAP服务 全图形化管理界面 19 特别适用于海量数据处理的高性能一体机特别适用于海量数据处理的高性能一体机 集群的自动化部署 大数据处理的最优性能 全面的高可用性 企业级的安全性 Etu 知意图大数据一体机 端到端一站式大数据解决方案 20 高扩展性高扩展性 - 云服务级的技术架构 高可靠性高可靠性 - 运营商级的卓越品质 高效益性高效益性 - 企业等级的优质绩效 每节点可处理数据 4 40 TB Etu 知意图大数据一体机 端到端一站式

9、大数据解决方案 21 Etu 知意图大数据一体机 端到端一站式大数据解决方案 起步低,易开始 1 + 2 管理节点 + 工作节点 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 22 管理节点 交换机 工作节点 工作节点 工作节点 工作节点 Etu 知意图大数据一体机 端到端一站式大数据解决方案 横向扩展更简单 1,000+ 工作节点 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 23 Etu 知意图大数据一体机 端到端一站式大数据解决方案 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 EtuTM OS 专为执行Hadoop大数据处理任务而设计 312X 计算性能

10、每节点可处理数据 4 40 TB 24 Etu 知意图大数据一体机 端到端一站式大数据解决方案 创新技术 EtuTM 一键部署一键部署 快速完成操作系统与Hadoop所有组件的安装与配置 10分钟 可部署完成 100 +节点 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 25 Etu 知意图大数据一体机 端到端一站式大数据解决方案 EtuTM Log Collector 快速、准确的数据采集能力 每节点每秒钟可接收UDP封包 60,000+ 并且丢包/错误率 0.01% 创新技术 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 26 Etu 知意图大数据一体机 端到端一站式大

11、数据解决方案 创新技术 EtuTM HA 全系统的高可用设计,从计算、存储到系统服务、网络连接,全面避免单 点故障 数据 服务。 网络。 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 27 Etu 知意图大数据一体机 端到端一站式大数据解决方案 创新技术 EtuTM GUI 基于浏览器的集中管理控制台 深受 程序员与 系统管理员 喜爱 易扩展易扩展 高性能高性能 高可用高可用 高安全高安全 28 Etu 知意图大数据一体机 端到端一站式大数据解决方案 创新技术 EtuTM 多租户多租户 安全性安全性 支持Kerberos验证与LDAP集成 用户 账号 验证。 授权。 。 易扩展易扩展

12、 高性能高性能 高可用高可用 高安全高安全 29 知意图大数据解决方案的行业客户 30 一体机对Hadooper 的益处 全自动的集群部署和简单的图形化管理界面 简化部署与配置 有效保证关键性Map/Reduce任务的平稳运行 轻松实现高可用性 支持Kerberos验证与LDAP集成,实现数据隔离,保障数据安全 企业级的安全性 从操作系统到参数调校的全程优化, 显著提升Map/Reduce任务处理 性能 提升大数据处理性能 适应业务负载的增长,随时按需横向扩充 高弹性可扩展的系统架构 31 Etu 知意图大数据一体机 v2.0 的新特性 管理节点管理节点HAHA 增加管理节点HA模式的的自动部

13、署与配置; 新增安全功能新增安全功能 支持 LDAP 与 Kerberos 验证,满足企业安全需求; 新的数据源工具新的数据源工具增加Syslog与FTP方式的数据源,内置独家的Etu Dataflow 数据采集服务,实现自动化数据导入,并且易于与现有 环境集成; 全新用户体验全新用户体验全新图形化管理控制台,内置 HDFS 文件管理与 HBase 表格管理功能。 32 管理节点高可用架构 Etu MasterEtu Master Etu WorkerEtu WorkerEtu Worker Synchronised File System ActiveStandby Orchestratio

14、n Services (fully redundant network) Heartbeat Heartbeat Cluster-ware Big-Data Services Failover Service Disablement Service Enablement 33 Terasort 性能测试 0 10 20 30 40 50 60 70 80 CentOS + Etu Default EtuOS + Etu Default EtuOS + Etu Optimal Terasort Performance (MB/s per node) 1TB Source Data 9 DataN

15、odes H/W per node 8 cores 32G memory GbE network 4x2TB SATA HDD Kernel Optimized OS Optimized FS Optimized Network Optimized HDFS Optimized MapReduce Optimized Default to 3.5x Optimal to 12x 34 软件系统架构软件系统架构 Mahout HBase MapReduce Pig HDFS 数据源管理 数据存储数据存储 数据处理数据处理 管理控制台管理控制台 SNMP 账户管理 配置管理 HA管理 任务计划管理

16、 数据源数据源 Hive Meta Store Sqoop Etu OS Kernel FTP Syslog Hive QL 文件管理 群集管理 数据库管理 安全管理 Etu Dataflow 系统管理系统管理 35 Etu 知意图大数据一体机硬件规格知意图大数据一体机硬件规格 管理节点管理节点 Etu 1000M 规格:1U机架式 CPU:Intel E5-24201.9GHz 2x6 Core 内存:48GB 硬盘:300GB / SAS 3.5“ / 15K RPM 2 网络:Dual Port / 1Gb Ethernet 1 电源:冗余式双电源 500W (80+ SILVER) 软

17、件:Etu OS / Etu Big Data Software Stack 工作节点工作节点 Etu 2000W 规格:2U机架式 CPU:Intel E5-24201.9GHz 2x6 Core 内存:48GB 硬盘:2 TB / SATA 3.5“ / 7.2K RPM 8 网络:Dual Port / 1Gb Ethernet 1 电源:非冗余式单电源 500W (80+ SILVER) 软件:Etu OS / Etu Big Data Software Stack 工作节点工作节点 Etu 1000W 规格:1U机架式 CPU:Intel E5-24201.9GHz 2x6 Core

18、 内存:48GB 硬盘:2 TB / SATA 3.5“ / 7.2K RPM 4 网络:Dual Port / 1Gb Ethernet 1 电源:非冗余式单电源 500W (80+ SILVER) 软件:Etu OS / Etu Big Data Software Stack 知意图 Etu Appliance 行业解决方案 37 数据仓库负载分流解决方案 数据仓库是电信行业的 核心系统; 主流数据仓库都是基于 RBDMS构建的; 随着业务发展,数据仓 库需要处理的数据量日 益增大。 传统关系型数据库面对TB级的数据量,其处理时间呈几何级增长而非线性; 对于大量的半结构化与非结构化数据,关

19、系型数据库更是无能为力; 传统关系型数据库很难被替代,但扩容成本极高并且扩容能力有限; 电信行业同质化竞争严重,需要从大数据中寻找差异化经营“蓝海”。 数据 文件 数据表 业务应用 数据加 载 关联关联 数据仓库域 业务应用 业务应用 汇总 汇总 统计 统计 截取 截取 图图:主流数据仓库的典型架构 主流数据仓库的典型架构 38 数据仓库负载分流解决方案 增加数据预处理平台,分担数据仓库的运算压力,并且减少其承载的数据量; 预处理平台要支持多结构数据的处理,以应对未来新业务的需求; 数据预处理平台需要支持横向扩展,能够以较低的成本实现灵活的系统扩容; 解决方案须遵循“最小化对现有系统与业务逻辑

20、的影响”这一指导原则。 数据加 载 Etu Etu 知意图知意图 大数据一体机大数据一体机 业务应用 数据表 数据 文件 数据表 关联关联 汇总 汇总 统计 统计 截截 取 取 业务应用 图图:数据仓库的改进架构 数据仓库的改进架构 业务应用 39 数据仓库负载分流解决方案的特性与收益 l 无需改变现有的业务逻辑 l 对既有系统架构的改造小 l 支持先进的横向扩展架构 l 低成本的高性能与大空间 l 最通用的大数据处理平台 业务人员无需学习新系统,零适应期 ,不影响业务运转; 解决方案容易实现并且最大化保护了 已有投资; 投入较低的成本即可实现一个运算与存 储都可灵活扩展的大数据处理系统; 满

21、足数据量大和数据格式多样的需求 ,能够支撑未来更多的增值业务。 强大的运算性能极大的缩短了处理时间, 数十小时的任务现在仅需几十分钟; 40 电信业IP溯源解决方案 客服单位需要根 据Public IP 反查用 户的MSISDN与上网 记录; 需要支持多人并发查 询并且保证响应速度; 需要保证一定时期内 的海量数据实时在线。 普通设备无法实时接 收快速产生的日志 文件; 传统数据仓库处理海 量日志文件速度很慢; 传统RDBMS在存储 上亿条记录后,无法 支撑高并发查询需求; 使用传统数据仓库存 储海量数据的成本 太高。 41 电信业IP溯源解决方案 Node B 智能手机 平板电脑 3G终端

22、UMTS GGSN Internet Gi Gi Domain Border Router (NAT/PAT) Syslog/UDP FTP Etu Log Collector Etu Cluster 数字仪表板 Copy to HDFS Etu Log Collector (UDP) Etu Log Correlation Cluster Etu Log Analyzer Cluster Professional Service 使用Etu Log Collector 实时接收大量、快速产生的日志; 使用Etu知意图大数据一体机构建海量日志存储、处理平台; 使用分布式数据库存储处理结果并保证

23、查询响应速度; 使用第三方仪表板工具定制用户界面完成数据展现。 42 电信业IP溯源解决方案的特性与收益 l 特殊设计的Etu Log CollectoEtu Log Collecto r r能够支持60,000+60,000+ UDP events per second并且丢 包率小于0.01%0.01%; l 专为处理海量数据而设计 的Etu ApplianceEtu Appliance能够高效高效 处理海量结构、半结构、非 结构化数据; l 系统兼容性强兼容性强,可使用客户 现有数据仪表板或按需选择 最合适的工具构建数据展现 门户。 Etu Big Data整体解决方案,能够以 较低的成

24、本解决海量数据从接收到处 理直至展现的所有问题; 将溯源请求的响应时间从几天缩短到 几小时,满足了通信监察的需求; 客服人员能够及时查询用户的网络访 问记录,有效解答用户对流量的疑问 ,提升了用户满意度; 满足了海量数据实时在线需求的同时 也保证了数据查询的快速响应能力。 43 智能DNS系统数据分析解决方案 开展3G用户上网行为分析及IC P资源分布情况挖掘,优化网 络服务质量; 需要多角度分析网内用户汇聚 行为,提取关注特点以支持ID C资源引入决策; 需要对已引入资源是否提供正 确服务进行资源服务评估; 需要统计DNS错误种类及原因。 面对海量的DNS日志,传统 数据仓库无法在有效的时间

25、 内处理完成。 44 智能DNS系统数据分析解决方案 FTP Dataflow Etu Log Correlation Cluster Etu Log Analyzer Cluster Professional Service Etu Etu 知意图知意图 大数据一体机大数据一体机 数字仪表板数字仪表板 使用Etu知意图大数据一体机构建海量日志处理平台; 通过FTP协议定期将DNS日志导入Etu Cluster进行处理; 处理后的数据导入Splunk; 使用Splunk定制用户界面完成数据展现。 45 智能DNS系统数据分析解决方案的特性与收益 l 自动化的FTP数据流设计 ,减少手动工作量;

26、 l 高效的大数据处理平台, 保障海量日志的处理时效; l 标准数据输出格式,支持 多种数据仪表板工具。 通过有针对性的专题分析,寻求最优 的第三方疏导或资源引入方式,提升 资源访问质量; 实现从不同业务的数据流量、流向、 成分梳理出关键优化指标,为资源访 问质量优化指明方向,提供优化建议; 通过分析结果预测用户对ICP资源的 需求趋势,及早做好资源的引入 部署,助力互联网业务发展; 完善了资源优化工作的PDCA机制, 实现以数据指标为依据,检测资源优 化手段成果。 46 Etu Recommender 在电子商务中的运用 Etu Recommender Etu Recommender App

27、licationApplication 协同过滤协同过滤 分析分析 CollaborativCollaborativ e Filteringe Filtering 转化率分析 转化率分析 数数 据据 采采 集集 推推 荐荐 结结 果果 推荐引擎 推荐引擎 知意图大数据一体机知意图大数据一体机 Etu Recommender Etu Recommender 商品页面商品页面 分类页面分类页面 结果页面结果页面 购物车页面购物车页面 邮件确认页邮件确认页 邮件营销推送邮件营销推送 历史订单历史订单 实时实时数据 数据 实时订单实时订单 浏览浏览 放入购物车放入购物车 结算结算 在线评在线评价价 检

28、索检索 47 转化率分析 分析管理后台 48 转化率分析 推荐商品转化率 全站商品转化率:8.86% 推荐商品转化率:18.94% 推荐系统对商品转化率的贡献度推荐系统对商品转化率的贡献度: 28.24%-16.69%=10.08%10.08% 49 转化率分析 推荐订单转化率 全站商品转化率:0.59% 推荐商品转化率:2.40% 推荐系统对订单转化率的贡献度推荐系统对订单转化率的贡献度: 22.87%-5.78%=1.81%1.81% 50 转化率分析 推荐订单总金额 全站订单总金额:1227773 推荐订单总金额:781100 推荐系统对订单总金额的贡献度推荐系统对订单总金额的贡献度:

29、781100 / 1227773=63.62%63.62% 51 转化率分析 推荐订单平均金额 全站订单平均金额:¥104.62 推荐订单平均金额:¥160.52 推荐系统对订单平均金额的贡献度推荐系统对订单平均金额的贡献度: 167.40 104.62 = 55.9055.90 52 Etu Recommender 的主要特性 Etu Etu RecommenderRecommender 独立服务器独立服务器,高保密性高保密性 精准的分析精准的分析,智能推送智能推送 处理大数据处理大数据,快速灵活快速灵活 线上与线下线上与线下,完美整合完美整合 采集与推荐采集与推荐,高效便捷高效便捷 对于复

30、杂且多样化的海量数据,能快 速并稳定的灵活处理; 精准的分析并预测消费者需求,给予个性化的满足; 7*24计算着消费者的行为数据,高效管 理商品生命周期; 整合线上与线下数据,运用于推 荐系统中,服务于电商企业; 拥有独立的服务器,有效的加强 电商企业数据的保密性; 53 更多应用 产业 应用方向 金融服务 Financial Services 规范与法规遵循报表 风险分析与管理 诈骗侦测与安全分析 CRM 与客户红利计划 信用评等与分析 交易监控 电信 Telecommunications 营收确保与费率优化 客户断约预防 营销活动管理 客户红利计划 CDR 负载分流 网络效能与优化 电子商

31、务 E-Commerce 用户行为分析(精准营销) 产品关联推荐 政府 Government 诈骗侦测与网络安全 规范与法规遵循分析 能源使用与碳足迹管理 健康与生活科学 Health & Life Sciences 病人照护质量分析 供应链管理 药品发觉与发展分析 54 Etu,世界级的 Big Data 专业团队 亚洲最完整的 Hadoop 产品水平 支持团队 3 Cloudera Certified Developers for Apache Hadoop 1 Cloudera Certified Administrator for Apache Hadoop 拥有累计超过 30 年 Big Data 处 理经验 本地化服务的 Hadoop 技术支持 Hadoop 产品开发原厂团队 同时提供产品、解决方案与专业服 务的团队 55 E: T: +86 10 8441 7988 F: +86 10 8441 7227 北京市朝阳区东三环中路24号乐成中心B座2602室 100022 联系我们

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1