Spark介绍与应用案例分析.pdf

资源描述

《Spark介绍与应用案例分析.pdf》由会员分享，可在线阅读，更多相关《Spark介绍与应用案例分析.pdf（42页珍藏版）》请在三一文库上搜索。

1、 Spark技术研究与实践分享 About Me 田毅亚信科技-田毅 Spark社区Contributor 北京SparkMeetup的发起人主要关注SparkSQL与Spark Streaming 提纲为什么选择Spark Spark实践分享使用Spark的建议为什么选择Spark 多种计算场景的结合多数据源的计算中心活跃的社区支持多种计算场景的结合 SQL 批处理 Streaming 流处理 MLlib 机器学习 GraphX 图计算 Spark Core （SparkContextRDDDAG） User Application 用户应用随着信息技术的发展, 越来越多

2、的企业面临着复杂计算场景的考验 1 机器学习的不断发展和应用 2 信息时效性决定了流处理技术的重要性 3 传统业务人员操作熟练的SQL编写能力多种计算场景的结合假设场景：与新浪微博合作，通过一个消息队列实时接收微博信息，根据指定关键字过滤消息传统方案：使用Storm读取消息队列内容，设定Bolt进行关键字过滤微博消息队列 Storm 消息队列多种计算场景的结合假设场景：与新浪微博合作，通过一个消息队列实时接收微博信息，根据指定关键字过滤消息，再通过实时配置SQL对微博进行统计分析，生成实时报表传统方案：使用Storm读取消息队列内容，设定Bolt进行关键字过

3、滤，将结果写入HDFS 使用Hive或者Impala实现SQL统计分析微博消息队列 Storm H D F S Hive/ Impala 多种计算场景的结合假设场景：与新浪微博合作，通过一个消息队列实时接收微博信息，根据指定关键字过滤消息，通过机器学习，对关键字不断进行调整，再通过实时配置SQL对微博进行统计分析，生成实时报表；传统方案：使用Storm读取消息队列内容，设定Bolt进行关键字过滤，将结果写入HDFS 使用Hive或者Impala实现SQL统计分析使用Mahout实现机器学习算法，将训练后的算法模型回传给Storm 微博消息队列 Storm H D

4、 F S Hive/ Impala Mahout 多种计算场景的结合 Spark方案：优势： 1 同一套架构，学习成本较低 2 资源可统一规划 3 流计算与Machine Learning数据交互简单微博消息队列 Spark Streaming MLlib 消息队列商业产品：Databricks Cloud 开源产品：zeppelin https:/ zeppelin 多数据源的计算中心对于大多数公司来说, 数据会根据应用场景被存储到多种数据源以我们熟悉的电信行业举例: 但是, 这些数据单独应用只能满足企业内部若干独立的应用场景想要真正的从数据中获得最大的价值, 必

5、须让所有数据关联到一起进行计算分析数据类型举例应用场景存储方式单据类数据通信详单, 账单随机查询 HBase, Cassandra 日志类数据信令数据, 应用日志汇总分析 HDFS 关系类数据用户资料, 订购关系实时更新, 关联查询 RDBMS 多数据源的计算中心 HDFS HBASE RDBMS MR ETL 计算引擎复杂的数据同步流程极大消耗网络带宽和存储资源多数据源的计算中心 Spark 1.1.0 通过扩展RDD实现外部数据访问 HDFS HBASE RDBMS Spark HadoopFileRDD 使用RDD扩展存在的问题: 只能全量获取, 网络压

6、力大,无用传输太多引用Cheng LianDatabricks在Meetup上的slide 多数据源的计算中心 BaseRelation PrunedScan TableScan PrunedFilteredScan Spark 1.2.0 External Datasource API 全量扫描指定列扫描根据Filter指定列扫描 (Parquet and ORC) 尽可能将列过滤与行过滤在Server端进行, 降低传输大小可以更好的利用数据源的特性引用Cheng LianDatabricks在Meetup上的slide 多数据源的计算中心 SPARK Hbase user_bil

7、l 查询所有开通GPRS用户中,各项增值业务的用户数,平均年龄,总花费 select t2.businame, count(t2.user), avg(age), sum(t2.fee) from ( select businame, user, sum(fee) as fee from user_bill where busitype in (sms,gprs) group by businame, user ) t1 left outer join ( select user, age from user_info where user_usegprs=1 ) t2 on t1.user

8、 = t2.user where t2.user is not null group by t2.businame DB2 user_info DB2Relation requiredColumns=(user,age) filter=(“user_usegprs=1”) SQL ResultSet RDD HBaseRelation RDD RowSet Filter requiredColumns filter 多数据源的计算中心企业级数据计算中心 SPARK HBase RMDBS Json Parquet Cassandra HDFS 活跃的社区支持 2013年6月 2014年6月

9、2014年12月 Contributor数量 68 255 368 参与贡献的公司 17 50 未统计代码行数 63000 175000 239000 活跃的社区支持活跃的邮件列表: userspark.apache.org devspark.apache.org 日均70+的邮件 JIRA问题收集: 日平均报告/解决 issue 15个 Github Pull Request: 日平均merge pull request 10个活跃的社区支持 11月刚刚推出的模块维护人制度, 确保每个模块都有至少2个committer专门跟踪维护 - Spark core public API:

10、Matei, Patrick, Reynold - Job scheduler: Matei, Kay, Patrick - Shuffle and network: Reynold, Aaron, Matei - Block manager: Reynold, Aaron - YARN: Tom, Andrew Or - Python: Josh, Matei - MLlib: Xiangrui, Matei - SQL: Michael, Reynold - Streaming: TD, Matei - GraphX: Ankur, Joey, Reynold Spark实践分享使用Sp

11、ark实现信令数据的实时营销使用Spark实现广告竞价效果实时反馈平台使用Spark实现信令数据的实时营销场景描述: 输入数据用户信令数据: 每秒钟5w条业务需求沉淀: 形成用户实时位置信息和行为轨迹匹配: 合适的业务, 对用户进行主动营销需要支持多业务的扩展输出数据用户实时位置信息用户历史行为轨迹需要进行业务营销的用户信息难点大量的数据查询更新业务架构消息队列主流程消息队列业务流程1 业务流程2 业务流程3 数据清洗数据增强数据筛选业务判断数据筛选业务判断数据筛选业务判断数据沉淀技术架构1.0 外围系统消息队列增量数

12、据增量数据增量数据 Spark Streaming HBase 关联数据预处理消息队列业务流程业务流程增量数据 HDFS 关联数据1 关联数据2 关联数据n 输出数据输出数据输出数据技术架构1.0实践优化： Spark优化 Kafka接收数据优化：多Topic，多Dstream，Repatition Task并行数量优化 Hbase优化预建多分区 balance 表现：集群处理吞吐能力无法满足要求分析 : 集群规模较小, Spark最大并发任务数不到300, 同时Hbase操作平均不到150 Hbase单次request处理时间1-2ms, 每秒处理

13、700(单线程) 总计处理100000每秒实际需求: 5w * 4 = 200000每秒结论：机器数量有限时，有限的任务并行度会限制Hbase的吞吐能力技术架构2.0 外围系统消息队列增量数据增量数据增量数据消息队列 HDFS 动态数据只读数据增量数据广播变量 RDD File Spark Streaming 预处理业务流程业务流程输出数据输出数据输出数据实现信令数据的实时处理预处理流程业务: 沉淀用户实时位置信息和行为轨迹在流数据上增加用户历史位置信息实现方式: val cogroup = leftRDD.cogroup(righ

14、tRDD).map (lout, rout) cogroup.cache() cogroup.flatMap(_._1) cogroup.flatMap(_._2) 流入数据用户历史输出数据用户历史更新 COGroup 实现信令数据的实时处理子流程业务(举例): 判断是否校园用户(根据校园基站列表) 判断是否营销对象(根据用户资料表与营销规则表) 对比更新营销结果表(避免重复营销) 数据通过Kafka发给营销系统实现方法: inputDStream.foreachRDD(rdd= rdd. . registerAsTable(”inputTable“) val tempRS = s

15、ql(“xxxxx”) tempRS . . registerAsTable(”tempTable“) val result = sql(“xxxxx”) ) 流入数据关联表1 关联表2 临时数据 SQL SQL 输出数据使用Spark实现广告竞价效果实时反馈平台广告位目标网站 XX 网站 DSP 平台广告交易平台浏览网页点击广告跳转竞价请求出价浏览记录购买记录竞价成功报表系统使用Spark实现广告竞价效果实时反馈平台业务需求1： 1 实时收集所有出价记录，竞价成功记录，浏览记录和购买记录 2 按广告位统计：最近2000次的竞价成功次数最近2000

16、次的平均成功价格最近2000次的点击比率 3 将实时统计结果反馈到竞价模块对竞价策略进行调整业务需求2： 1 按广告主统计: 出价次数花费金额转化率等等指标 2 将实时统计结果更新到报表模块展示技术难点： 1 数据量较大，每秒消息数量在3-5万 2 不按照常用的时间窗口统计，而按照竞价次数统计 Spark Streaming 技术架构 DSP 平台 HDFS 日志1 Spark Streaming 日志1预处理日志2 日志3 日志4 日志2预处理日志3预处理日志4预处理 Spark Streaming 竞价统计反馈报表统计消息队列技术架构 DSP 平台 HDFS 日志

17、1 Spark Streaming 日志1预处理日志2 日志3 日志4 日志2预处理日志3预处理日志4预处理竞价统计反馈报表统计 UNION &CACHE 预处理数据清洗： DStream.filter: 清洗非法格式数据 DStream.map: 清洗不使用的数据字段数据聚合： DStream.reduceByKey: 对数据进行统计聚合维度: 广告位广告主格式转换： DStream.map: 将数据转换格式为统一格式数据清洗数据聚合格式转换数据获取竞价统计反馈数据获取数据聚合数据输出数据获取： DStream.filter: 按需获取需要的数据数据聚

18、合： DStream.updateStateByKey: 对每个广告位的状态 (统计信息)进行更新其中State可以是自定义的class 数据输出： DStream.mapPartition: 将数据输出到指定的接口（http或者JDBC） SparkStreaming实施中的问题 Hdfs 文件正在生成时文件后缀问题 java.io.FileNotFoundException: File does not exist: / user/streaming/tmp/test/bidinput/2bid.gz._COPYING_ 产生原因: SparkStreaming读取目录时没有过滤正在拷

19、贝的文件 Patch: SPARK-4314 SparkStreaming实施中的问题 FileInputDStream只能读取单级目录对于这样的目录层级, 无法使用SparkStreaming读取 -data |-20141201 |-20141202 |-20141203 |-20141204 Patch: SPARK-3586 SparkSQL相关Patch HashOuterJoin优化SPARK-4483 通过单表遍历的方式, 替换原有两边HashMap的Join方式 100万 join 1万性能对比, 性能提升16%, 内存消耗减少70% master: 耗时: 12671 m

20、s 耗时: 9021 ms 耗时: 9200 ms Current Mem Usage:787788984 after patch：耗时: 10382 ms 耗时: 7543 ms 耗时: 7469 ms Current Mem Usage:208145728 SparkSQL相关Patch BroadcastHashOuterJoin优化SPARK-4485 通过Broadcast实现小表在Map端实现OuterJoin 性能对比, 性能提升7倍 Original: left outer join : 15439 ms right outer join : 9707 ms Optimize

21、d: left outer join : 1992 ms right outer join : 1288 ms SparkSQL相关Patch 重要Feature: 动态分区功能SPARK-3007 Window函数功能SPARK-1442 使用Spark的建议如何与社区互动参加meetup活动如何与社区互动最简单的方法：加入spark-user邮件组发送邮件到：user-subscribespark.apache.org (引用连城404 在beijing meetup上的分享Spark社区协作指南) 更多人关注,可以及时得到丰富翔实的答案更易于积累,供自己和他人日后检索篇幅不

22、受限的富文本支持,可以清晰详尽地描述问题英语?不是问题（惧怕英语才是问题）参加meetup活动 2014年8月开始，在北京组织了中国首个 Spark Meetup小组，活动的宗旨是：更好的推广Spark技术，推进中国Spark使用者的技术交流。 12月13日刚刚举行了第4次 meetup（SparkSQL专题）活动活动得到Databricks公司的多名技术人员支持，并且汇集了多名国内Spark技术专家国内Spark Meetup人数最多且最活跃的小组，全世界Spark Meetup人数排名第7 全国范围目前还有上海，杭州，深圳组织了各种活动 http:/ 搜索 beijing spark 按照惯例加入我们的团队 Email to : 我们有：大量的大数据项目实践机会 50+的Spark Patch提交记录请和我们一起把Spark做的更好谢谢

展开阅读全文