大数据系统引擎技术简介-高光荣.pdf

上传人:来看看 文档编号:3333005 上传时间:2019-08-13 格式:PDF 页数:33 大小:2.50MB
返回 下载 相关 举报
大数据系统引擎技术简介-高光荣.pdf_第1页
第1页 / 共33页
大数据系统引擎技术简介-高光荣.pdf_第2页
第2页 / 共33页
大数据系统引擎技术简介-高光荣.pdf_第3页
第3页 / 共33页
大数据系统引擎技术简介-高光荣.pdf_第4页
第4页 / 共33页
大数据系统引擎技术简介-高光荣.pdf_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《大数据系统引擎技术简介-高光荣.pdf》由会员分享,可在线阅读,更多相关《大数据系统引擎技术简介-高光荣.pdf(33页珍藏版)》请在三一文库上搜索。

1、大数据系统大数据系统引擎引擎技术技术简介简介 高光荣高光荣 ACM Fellow、IEEE Fellow 中国计算机学会(CCF)海外杰出贡献奖获得者 特拉华大学终身教授 CAPSL实验室主任 ET International公司 创始人 CCF-大数据-12-13-2014 1 Outline Motivation: 大数据大数据Hype Cycle的最新预测的最新预测 Symbiotic trend between big data and big compute Background:大数据系统大数据系统面面临的严重挑战临的严重挑战 大数据系统核心技术简介大数据系统核心技术简介 数据数据

2、流与大数据引擎的创新流与大数据引擎的创新 大数大数据系统发展在据系统发展在中国的机遇与挑中国的机遇与挑战战 总结总结 CCF-大数据-12-13-2014 2 CCF-大数据-12-13-2014 3 Gartner Report Hype Cycle and Big Data This Hype Cycle sits mainly on the Peak of Inflated Expectations. And big-data has just passed the peak. We encourage department-level experimentation without e

3、nterprise commitment over the next three to five years. CCF-大数据-12-13-2014 4 Challenges and Opportunities Symbiotic of Bigdata and Big compute Symbiotic HPC computing and data-Intensive processing Heterogeneity: including sensors, controllers, mobile devices, etc. Massive opportunity of concurrency

4、Vast dynamic and distributed environment Asynchronous stream processing Realtime continuous interaction with environment Energy efficiency, resiliency and security challenges Supercomputing 2014 特邀论坛,特邀论坛,Gao,11/19/2014 5 Outline Motivation: 大数据大数据Hype Cycle的最新预测的最新预测 Symbiotic trend between big dat

5、a and big compute 大数据系统引擎面临挑战大数据系统引擎面临挑战 大数据系统核心技术简介大数据系统核心技术简介 数据数据流与大数据引擎的创新流与大数据引擎的创新 大数大数据系统发展在据系统发展在中国的机遇与挑中国的机遇与挑战战 总结总结 CCF-大数据-12-13-2014 6 基础需求基础需求 能从大数据中 挖掘出有价值 的信息 性能需求性能需求 不仅关注要如 何挖掘数据, 更关注这个过 程有多快有多快 功能需求功能需求 对实时数据的对实时数据的 复杂分析复杂分析正成 为最普遍的需 求 成本需求成本需求 大数据技术需 要的大量的处 理资源对成本 造成压力 进一步提高性能,降低

6、成本,让“大象”飞起来进一步提高性能,降低成本,让“大象”飞起来 新的需求需要新的技术 CCF-大数据-12-13-2014 7 让大象飞起来的让大象飞起来的关键关键 8 适合飞行的引擎 新的模型:从地面动力学模型 到空气动力学模型 新的结构:从腿到翅膀、热气 球、滑翔伞? CCF-大数据-12-13-2014 Outline Motivation: 大数据大数据Hype Cycle的最新预测的最新预测 Symbiotic trend between big data and big compute Background:大数据系统大数据系统面面临的严重挑战临的严重挑战 大数据系统核心技术简介

7、大数据系统核心技术简介 数据数据流与大数据引擎的创新流与大数据引擎的创新 大数大数据系统发展在据系统发展在中国的机遇与挑中国的机遇与挑战战 总结总结 CCF-大数据-12-13-2014 9 大数据引擎的核心技术 大 数 据 引 擎 大数据引擎执行 模型和结构技术 大数据引擎系统 软件技术 大数据引擎编程 模型和优化技术 CCF-大数据-12-13-2014 10 CCF-大数据-12-13-2014 11 Terminology Clarification Parallel Model of Computation Parallel Models for Algorithm Designer

8、s Parallel Models for System Designers Parallel Programming Models Parallel Execution Models Parallel Architecture Models Execution Model API Abstract Machine Models Programming Environment Platforms Users Users Execution Model Programming Models 12 CCF-大数据-12-13-2014 Execution Model API Abstract Ma

9、chine Models Programming Environment Platforms Users Users Execution Model Programming Models High-Level Programming API (MPI, Open MP, CnC, Xio, Chapel, etc.) Software packages Program libraries Utility applications Compilers Tools/SDK Hardware Architecture Machine Runtime System Language Runtime 1

10、3 CCF-大数据-12-13-2014 引擎执行模型引擎执行模型API 抽象引擎模型抽象引擎模型 Programming Environment Platforms Users Users Execution Model Programming Models High-Level Programming API (MPI, Open MP, CnC, Xio, Chapel, etc.) Software packages Program libraries Utility applications Compilers Tools/SDK 引擎硬件结构引擎硬件结构 引擎运行时系统引擎运行时系

11、统 Language Runtime 14 CCF-大数据-12-13-2014 并行执行模型及结构并行执行模型及结构技术技术挑战挑战 可扩展 能效 弹性 兼容性 可编程 显著减少那些 影响编程效率 的障碍 使应用能很 好的扩展到 超大规模并 行平台 最大化利用 动态节能机 会,平衡能 效、弹性和 性能 对软件栈的 全部组件提 供良好的管 理、故障检 测和恢复 去除或显 著减少移 植到未来 平台的约 束要求 挑战 CCF-大数据-12-13-2014 15 系统软件多核时代的挑战 17 多核、众核系统引发的挑战 多核、众核处理 器芯片(CPU)使 得传统的操作系 统面临空前的根 本性挑战 大规

12、模片上细粒 度并行打破了传 统OS控制的一 统天下 对于系统软件, 如何充分利用大 规模并行实现高 性能、高扩展性、 低能耗、弹性、 可编程性和效率? Intel 8核处理器 AMD 12核处理器 英伟达448核 众核处理器 由多核众核处理器 组成的多核、众核系统 CCF-大数据-12-13-2014 系统软件美国和西方技术走势 18 执行模型及结构技术的创新:运 行时系统软件独立技术和学科的 兴起和迅速发展。 系统软件在 美国和西方的 最新技术走势 对于并行多核系统软件构思,必 须打破操作系统一统天下的栺局! 动态细粒度执行模型、结构的 运行时系统技术的研发。 面向应用在实用案例中摸索前进。

13、 以实用性为前提,全面考虑高性 能、高扩展性、低能耗、弹性、 可编程性和效率的需求。 避免研发误区。 CCF-大数据-12-13-2014 并行编程模型和优化技术概述 当 前 优 化 技 术 集 中 在 静 态 优 化 方 法 目标机器动态调度 能耗自感知和弹性控制 自适应并发和资源管理 BSP执行模型 计算机系统结构 CCF-大数据-12-13-2014 19 并行编程模型和优化技术挑战 20 多核时代为并 行编程模型和 优化技术带来 巨大挑战 并行编程模型和优化并行编程模型和优化技术如何技术如何动态动态 利用这样的机会?利用这样的机会? 静态静态的并行编程模型和的并行编程模型和优化技术优化

14、技术不不 能适应能适应多核时代大规模并发资源的多核时代大规模并发资源的 编程和管理编程和管理 多核多核芯片对于芯片对于片上并发和其它片上并发和其它资源资源 管理是管理是空前的机会空前的机会 CCF-大数据-12-13-2014 并行编程模型和优化并行编程模型和优化技术技术最近走势最近走势 细粒度 并行编 程模型 编程模型和优化技术 主要针对动态细粒度 执行模型及结构 避免研 发误区 避免盲目跟进,以实 际应用为导向,避免 研发误区 综合考虑 多方面的多方面的 性能需求性能需求 以实用性为前提考虑 高性能、高扩展性、 低能耗、弹性、可编 程性和效率的需求 与系统软 件技术交 叉前进 并行编程模型

15、和优化技术的 创新,正在与运行时系统软 件技术密切交叉前进 解决重大重大 实际应用问实际应用问 题题的能力 面向应用在实用案 例中摸索前进 CCF-大数据-12-13-2014 21 我们的有关工我们的有关工作举例作举例 22 我们的工作我们的工作 一、核心技术基地一、核心技术基地 建成数据流为背景数据流为背景动动态细粒度态细粒度 多线程引擎核心技术的基地 (1996-2010) 二、巨型计算机二、巨型计算机 承担全套以细粒度多线程系细粒度多线程系统统 软件软件总体设计和工程实现- 成 功用于世界领先采用众核芯片 技术的巨型计算机(ETI获投资 总额超过3千万USD,2004- 2011)。

16、三、研发三、研发超超并行并行执执行模型行模型 承担超大型以数据流为背景的数据流为背景的 引引擎执行模擎执行模型型(codelets) 的 重大研发课题(2010-2015) 四、研发超并行四、研发超并行引擎引擎 承担以数据流为基础的数据流为基础的 runtime系统软件重大研发课 题: (DART/Dynax/SWARM, 2013-2015) CCF-大数据-12-13-2014 Outline Motivation: 大数据大数据Hype Cycle的最新预测的最新预测 Symbiotic trend between big data and big compute Background:

17、大数据系统大数据系统面面临的严重挑战临的严重挑战 大数据系统核心技术简介大数据系统核心技术简介 数据数据流与大数据引擎的创新流与大数据引擎的创新 大数大数据系统发展在据系统发展在中国的机遇与挑中国的机遇与挑战战 总结总结 CCF-大数据-12-13-2014 24 Inspiration: Jack Dennis CCF-大数据-12-13-2014 General purpose parallel machines based on a dataflow graph model of computation Inspired all the major players in dataflow

18、 during seventies and eighties, including Kim Gostelow and I UC Irvine By Arvind: ISCA 2006 Keynote 25 25 26 Evolution of Multithreaded Execution and Architecture Models Non-dataflow based CDC 6600 1964 MASA Halstead 1986 HEP B. Smith 1978 Cosmic Cube Seiltz 1985 J-Machine Dally 1988-93 M-Machine Da

19、lly 1994-98 Dataflow model inspired MIT TTDA Arvind 1980 Manchester Gurd & Watson 1982 *T/Start-NG MIT/Motorola 1991- SIGMA-I Shimada 1988 Monsoon Papadopoulos & Culler 1988 P-RISC Nikhil & Arvind 1989 EM-5/4/X RWC-1 1992-97 Iannucis 1988-92 Others: Multiscalar (1994), SMT (1995), etc. Flynns Proces

20、sor 1969 CHoPP77 CHoPP87 TAM Culler 1990 Tera B. Smith 1990- Alwife Agarwal 1989-96 Cilk Leiserson LAU Syre 1976 Eldorado CASCADE Static Dataflow Dennis 1972 MIT Arg-Fetching Dataflow DennisGao 1987-88 MDFA Gao 1989-93 EARTH CARE PACT95, ISCA96, Theobald99 Marquez04 HTVM/ TNT-X Gao et. al. 12/18/201

21、4 CCF-大数据-12-13-2014 CCF-大数据-12-13-2014 27 CPU Memory Fine-Grain non-preemptive thread- The “hotel” model Thread Unit Executor Locus Coarse-Grain vs. Fine-Grain Multithreading A Pool Thread CPU Memory Executor Locus A Single Thread Coarse-Grain thread- The family home model Thread Unit Gao: invited

22、talk at Fran Allens Retirement Workshop, 07/2002 以堵为主?还是以疏为主? 数据流关键技术之一 29 CCF-大数据-12-13-2014 Title 避开洪水的同时避开洪水的同时 保持数据流畅保持数据流畅 30 CCF-大数据-12-13-2014 数据流关键技术之二流水线并行 31 大数据的初级解决思路 每次将一杯清水 倒入烧杯 每次倒出一杯 调制好的糖水 每次调制一杯糖水 这对有处理海量数据需求的用户而言,这的确是雪中送炭;但这种方法 难道就是十全十美的吗? 数据流的解决思路 管道不断从清水瓶中 抽出清水到烧杯中 在烧杯中不断地 调制糖水

23、管道不断的从烧杯中 抽出调制好的糖水 流水线的方式调制糖水提供了一种更好的大数据处理解决方案,虽然对“调 制糖水”的工艺要求更高、更精确但是所带来的性能提升亦令人满意。 CCF-大数据-12-13-2014 数据流数据流-大数大数据技据技术优术优势的初势的初步步例证例证 HT vs. Spark的加速比 1.5 2 2.5 3.7 1.3 2.6 3.7 5.2 1.7 1.7 6.2 7.4 1.7 1.5 8.2 11.4 2 1.6 9.8 14.5 1 3 5 7 9 11 13 15 17 WordcountTerasortK-meansPageRank 加速比 加速比统计结果 第一

24、组 第二组 第三组 第四组 第五组 图注:在各个测试用例中,测试数据量大小由第一组至第五组逐渐增大 CCF-大数据-12-13-2014 32 HT HT vs.MapReducevs.MapReduce 051015 时间 成本 比MapReduce 成本下降1/4 比MapReduce 提速十倍 CCF-大数据-12-13-2014 33 HT Outline Motivation: 大数据大数据Hype Cycle的最新预测的最新预测 Symbiotic trend between big data and big compute Background:大数据系统大数据系统面面临的严重挑

25、战临的严重挑战 大数据系统核心技术简介大数据系统核心技术简介 数据数据流与大数据引擎的创新流与大数据引擎的创新 大数大数据系统发展在据系统发展在中国的机遇与挑中国的机遇与挑战战 总结总结 CCF-大数据-12-13-2014 34 数据流大数据流大数数据技术在据技术在中国落中国落地和起飞地和起飞 的的可行方可行方案案 35 他山之石可以攻玉 跨越式发展 引进国外最先进的数据流大数据引擎技术,实现高起点的大 数据产业,“消化吸收再创新”,避免陈旧技术的革新负担 。 从从中国制造到中国创造,再到中国标准,建立新的大,再到中国标准,建立新的大数据数据 技术技术标准,实现标准,实现跨越式发展跨越式发展,最终技术上反,最终技术上反超超国外。国外。 CCF-大数据-12-13-2014 大数据在中国的产业应用 正化蛹成蝶,呼之欲出! 36 CCF-大数据-12-13-2014

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1