大数据处理框架之spark.ppt

上传人:本田雅阁 文档编号:2313720 上传时间:2019-03-19 格式:PPT 页数:13 大小:2.09MB
返回 下载 相关 举报
大数据处理框架之spark.ppt_第1页
第1页 / 共13页
大数据处理框架之spark.ppt_第2页
第2页 / 共13页
大数据处理框架之spark.ppt_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据处理框架之spark.ppt》由会员分享,可在线阅读,更多相关《大数据处理框架之spark.ppt(13页珍藏版)》请在三一文库上搜索。

1、大数据处理框架之spark 分享人:黄宇鹏 目录 n背景 nHadoop回顾 nSpark简介 nSpark原理 nSpark on Yarn nYarn 生态系统 n建议 背景 n大数据时代 nHadoop在数据挖掘中的不足 q多次迭代,I/O延时大 q中间结果的序列化和反序列化 q简单的MR模式 VS 复杂的数据挖掘算法 q函数式编程 q图计算 Hadoop回顾 nMapReduce过程 qMap()函数 qReduce()函数 q执行一次,结果写入磁盘 nShuffle过程 q序列化和反序列化 q写磁盘 Spark简介 n基于内存的分布式计算框架 q适合多次迭代的计算 q支持多种操作,例

2、如:map,filter,join等 q提供多种数据处理工具,SQL,Streaming等 q支持多种开发语言Scala,java,python. n与hadoop结合进行数据处理 q对hdfs,hive,hbase进行访问 n处理速度快 Spark 简介 n运行模式 qStandalone模式 qSpark On Mesos模式 qSpark On Yarn模式 Spark 原理 nSpark主从结构 qDriver n 任务调度 n 容错处理 qWorker n 执行各种操作 n 保存数据 Spark 原理 nRDD(Resilient Distributed Datasets) q弹性分

3、布式数据集:一个只读、可分区的记录集 合(对象) q可进行多种操作:transformation(map,filter等 )和action(count,save等) q可持久化和进行分区 nDAG(Directed Acyclic Graph) qRDD依赖关系 Spark原理 nSpark调度过程 Spark on Yarn nSpark在Yarn的执行 Yarn简介 n资源管理器 q任务调度(多种调度算法) q资源分配(cpu,内存等) n可以运行多种分布式计算平台 qHadoop qSpark qStorm q Yarn 生态系统 建议 n大数据处理平台 q计算机基础 q深入底层源码 q读论文、结合应用 n模型和算法 q数学基础(高数、统计学、线代等) q深入模型与求解方法 q多读论文、结合应用(利用大数据平台)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1