集群感知的内存计算系统.pdf

上传人:椰子壳 文档编号:3335864 上传时间:2019-08-13 格式:PDF 页数:31 大小:1.58MB
返回 下载 相关 举报
集群感知的内存计算系统.pdf_第1页
第1页 / 共31页
集群感知的内存计算系统.pdf_第2页
第2页 / 共31页
集群感知的内存计算系统.pdf_第3页
第3页 / 共31页
集群感知的内存计算系统.pdf_第4页
第4页 / 共31页
集群感知的内存计算系统.pdf_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《集群感知的内存计算系统.pdf》由会员分享,可在线阅读,更多相关《集群感知的内存计算系统.pdf(31页珍藏版)》请在三一文库上搜索。

1、CLAIMS:集群感知的内存计算系统 CLAIMS:CLuster-Aware In-Memory System for High Performance Data Analysis 周敏奇 华东师范大学云计算与大数据研究中心 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)分析的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 实时数据分析型应用 批处

2、理式分析-交互式分析 实时交互式数据分析(Human Real-time):思 绪的时速(Speed of Thought) Gartner:2012年实时商务智能软件市值$130 亿 股票交易异常检测客户关系管理供应链优化 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)计算的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 机架式服务器内存容量 2

3、CPU服务器,768 GB内存,内 存价格 $6,000 4 CPU服务器,1.5 TB内存,内 存价格$12,000 8 CPU服务器,3 TB 内存,内存 价格$24,000 服务器具备大容量内存的扩展能力, 价格已在可接受的范围之内,内存内存 时代已经来临。时代已经来临。 RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM QPI CPU CPU 2 Intel IVY Bridge处理器,768 GB内存 1232GB1232GB CPUCPU R

4、 A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M CPUCPU QPIQPI

5、 CPUCPU CPUCPU CPUCPU CPUCPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R

6、 A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R

7、 A M 4 IVY Bridge,1.5 TB内存8 IVY Bridge,3 TB内存 Source: http:/ 2014年间,DDR3内存价格将有13%的下降 DDR4内存价格将有10%的下降 华东师范大学云计算与大数据研究中心 超大规模内存集群的出现 1000节点集群,传统X86 1U服务器需要24机架 1000节点集群,HP Gemini仅需一个机架 单个微服务器,18核处理器,432GB内存, 11TB磁盘 单个Gemini机架,128TB内存,1PB磁盘 面向大数据的内存集群计算时代已经来临面向大数据的内存集群计算时代已经来临 传统X86系统扩展HP Gemini 服务器扩展

8、 降低 94% 空间 89% 能耗 63% 成本 华东师范大学云计算与大数据研究中心 具有充沛的计算能力 单CPU,12核,24超线程,2.7Ghz时钟 频率已商用 单CPU具备的累积时钟频率:64.8Ghz 处理器技术已具备100核的扩展能力,但市 场依旧需保持单核的高频率(历史单线程 程序),但但处理器已具备充沛的内存数据处理器已具备充沛的内存数据 处理能力,未来将更为富足处理能力,未来将更为富足 Cache(s) Arch states (Registers) Arch states (Registers) Core 1 ALU Cache(s) Logical Processor 1

9、Logical Processor 2 Arch states (Registers) Arch states (Registers) Core n ALU Cache(s) Logical Processor 1 Logical Processor 2 NUMA RAMNUMA RAM 众核处理器架构 Source: http:/ Number of Cores inside CPU Source:In-memory data management: an inflection point for enterprise applications. 华东师范大学云计算与大数据研究中心 内存访问

10、带宽充足 单通道,1 DIMM,1600内存, 带宽:25.6GB/s 单通道,3 DIMM,800内存, 带宽:12.8GB/s 单CPU,4通道内存带宽: 51.2GB/s 单服务器,2CPU NUMA内存 带宽:102.4GB/s 多通道的内存控制能提供足够的 内存带宽 CPU RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM CPU RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM

11、 RAMRAM RAMRAM QPI Channel A Channel B Channel C Channel D Channel E Channel F Channel G Channel H DIMM 3DIMM 2DIMM 1DIMM 1DIMM 2DIMM 3 1600 Mbps 1333 Mbps 800 Mbps 1DIMM/ch 1333 Mbps800 Mbps 800 Mbps 2 DIMM/ch3DIMM/ch 单通道内存带宽 单条内存带宽 Intel E5-2697, IVY Bridge 处理器 Source: Samsung DDR4 SDRAMbrochure,2

12、013.6 IMC QPILC QPILC IMC 华东师范大学云计算与大数据研究中心 内存访问延迟严重 过去30年内,内存访问带宽增速比访 问延迟高200倍 低访问延迟可以提升访问带宽 高访问带宽无法降低访问延迟 访问延迟受硬件制成cache命中率,TLB 命中率等影响 内存访问延时很大,形成内存墙问题 TLB Phys. Virt.Core L1 cache L2 cache L3 cache TLB Phys. Virt.Core L1 cache L2 cache NUMA RAMNUMA RAM CPU L1 D Cache (clk) L2 Cache (clk) L3 Cache

13、 (clk) Memory (clk) 顺序访问 4 clk11 clk 14 clk16.2 clk 页内随机访问 4 clk11 clk 18 clk59.4 clk 完全随机访问 4 clk11 clk 38 clk178 clk Intel E5-2697内存访问结构 Intel E5-2697,2.7Ghz, 内存访问延迟 内存墙问题,始自1994年 华东师范大学云计算与大数据研究中心 数据中心网络部署 10 按照数据中心普遍铺设10G网络计算,节点与节 点之间的最大数据传输带宽为1.2GB/S 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)计算的应

14、用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 Amdahls Law:平衡系统定理 Amdahls Law:平衡的系统需配备1 CPU周期1 bit的I/O带宽 CPU RAID NUMA RAMNUMA RAM Ethernet CPU RAID NUMA RAMNUMA RAM Ethernet 4clk/bit 2 Intel E5-2697 处理器(2.7Ghz,12核,24

15、线程), 24 32GB RAM(1600),1072k disk,10GB Ethernet 27clk/bit 13clk/bit 以磁盘为数据存储媒介, 系统瓶颈在于磁盘I/O 集中式环境下,以内存为 数据存储媒介,系统瓶颈 在于内存 分布式环境下,以内存为 数据存储媒介,系统瓶颈 在于网络 内存集群计算的瓶颈在于通讯, 但Hadoop的瓶颈在于磁盘 华东师范大学云计算与大数据研究中心 通讯墙问题 13 CPU Memory Node CPU Memory Node Communication Wall 设单个节点:2处理器,12核, 24超线程, 768GB内存,10G 以太 网 拥有

16、的内存访问带宽 102.4GB/S 拥有网络带宽1.2GB/S 拥有处理资源48核 数据处理选择率1.2%时 网络传输成为瓶颈 通讯墙(Communication Wall):内存集群计 算环境下,通讯成为整个系统的瓶颈 华东师范大学云计算与大数据研究中心 通讯瓶颈实验 数据访问性能比较 硬件: 2CPUs, 16GB Memory, 1G bps Ethernet 数据表: 4GB 表文件,包含可变长度的记 录,存储于本地磁盘和远端内存 数据记录大小影响 数据获取性能 随机磁盘数据性能 干扰很大 Disk I/O Bottleneck: Vulnerable to the random di

17、sk access Memory Wall: Vulnerable to the data placement in the memory (partly because of the length of the record) Communication Wall: Limited network bandwidth comparing to tremendous large data movement in the cluster. 华东师范大学云计算与大数据研究中心 通讯墙对并行度的影响 Amdahls Law:并行系统性能提升率(Soverall), 由不可并行因子(1-F)和可并行因

18、子(F) 的并行度(Sopt)决定: 多任务启动时间开销 0Time nodes 启动时间处理时间 其他不可并行因子:数据倾斜,处理干扰具 有相类似的作用 内存集群系统与磁盘集群系统相比具有更低 的可扩展度,为此数据布局方面,针对不同 大小的数据集采用不同的并行度。 内存集群系统Hadoop系统 任务启动时间 数据处理时间 任务启动时间 数据处理时间 华东师范大学云计算与大数据研究中心 通讯墙对索引的影响 在内存中扫描64MB数据块仅需50-100ms 获取数据的起始时间段内性能较为不稳定 现有CPU缓存较大,索引访问可获得较高的稳定速度 结论:访问起始时间段内,较高选择率时,索引依然适用;对

19、于需多遍访问数 据的操作符,索引有效;集群环境下,每个参与处理节点,需要分配较多操作 符,以降低中间结果数量 单机索引与顺序扫描性能对比,4GB文件多机远程索引数据获取性能 与选择率50%的顺序 扫描对比,索引性 能依然更高 集群环境下,索引 性能受限于网络 华东师范大学云计算与大数据研究中心 通讯墙对执行引擎的影响 全局分块并行系统,如Hadoop,Spark,Shark等系统,在数据传输前需等待 全局流水线并行系统,如Volcano,SCOPE,DYRAD,CLAIMS, SCAN Filter Map SCAN Filter Map SCAN Filter Map Join Reduce

20、 Join Reduce FilterFilter Map Aggregat ion Reduce Map Synchronization e.g., Tendem, SQL Server, Gamma, Spark 分块并行中嵌入流水线并行 流水线并行中嵌入分块并行 Aggregation Exchange Filter SCAN Node Filter SCAN Node Filter SCAN Node Filter Join Node Filter Join Node Exchange Partitioned Partitioned e.g., Volcano, SCOPE, DYRA

21、D,CLAIMS 华东师范大学云计算与大数据研究中心 通讯墙对查询优化的影响 任务执行节点的选择和组合,影响数据传输量 流水线式并行处理,数据传输具有时效性 与传统查询优化相比,需要动态的优化策略; 与MapReduce优化相比,需要优化Reduce端的数据局部性 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)计算的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大

22、数据研究中心 CLAIMS简介 CLAIMS:CLuster-Aware In-Memory System for high performance data analysis 应用目标:OLAP型应用,类似于Teradata 数据类型:关系型数据为主,可以扩展到 非结构化数据 数据存储:按列存储 优化目标:解决通讯墙问题 20 华东师范大学云计算与大数据研究中心 CLAIMS的定位 CLAIMS与Shark(Spark),Hive(Hadoop)在同一层次上 应用目标:对接现有MySQL客户端,R统计分析包,报 表软件 性能目标:对海量关系型数据实现实时分析 数据来源:1.操作数据库系统的关

23、系型数据 2. 抽取自非结构化数据 HANA HDFS CLAIMS HDFS Spark Hadoop MR SharkHive Teradata Application SQL Client Report R Package SQL 华东师范大学云计算与大数据研究中心 对非结构化数据的支持 底层存储采用HDFS 现有大量的数据存储于HDFS之中 希望能融入Hadoop生态圈 简化多类源数据的融合问题 数据抽取:实现HDFS非结构到内存关系数据转换 Distributed File System (e.g., HDFS) Memory Data Memory Data Open Next C

24、lose ExtractorInputState LoadInputState Schema Open Next Close ExtractorInputState LoadInputState Schema Memory Data Open Next Close ExtractorInputState LoadInputState Schema 华东师范大学云计算与大数据研究中心 系统架构 硬件: 面向高性能集群,通过高速网络互连. 每个节点拥有多个处理器和大容量内存. 架构: Master/Slave结构,由无共享节点组成的集群 优点:高可扩展性、高性能、解决通讯墙问题 Master Sl

25、aveSlaveSlave Distributed File System (e.g., HDFS) SlaveSlave Scheduler Operator Expander Clients Data Exchanger Memory DataMemory DataMemory DataMemory DataMemory Data Optimization Query Parser Resource Manager SQL Program Data Flow Control Flow Results 华东师范大学云计算与大数据研究中心 性能对比实验 任务启动时间 数据集 证交所交易数据 1

26、天(5GB数据), 1周(40GB数据) 1月(90GB数据) 查询 证交所分析查询 集群 10 HP DL388P,2 4核 CPU,16GB,5 1TB磁盘, 1GB以太网 华东师范大学云计算与大数据研究中心 性能对比(1) 数据导入内存速度 数据导入磁盘速度 华东师范大学云计算与大数据研究中心 性能对比(2) Filter操作时间Join操作时间 Shark在40GB,90GB数据集上未能完成 华东师范大学云计算与大数据研究中心 性能对比(3) Aggregation时间对比 真实查询性能对比 华东师范大学云计算与大数据研究中心 性能提升原因分析 采用C+编码,实现有效内 存控制,包括布

27、局、回收、 替换 实现非一致内存访问 (NUMA)优化, 通过Data Exchange操作符, 实现仅需求数据传输 通过Operator Expander操作 符,实现操作符扩展,以充 分利用网络带宽 数据传输、数据局部性的全 局优化 索引支持(hash索引) 28 分块并行 华东师范大学云计算与大数据研究中心 时间表 内存集群计算组成员: 周傲英,周敏奇,王立(博士生),董少婵(硕士生, 女),顾伶(硕,女),李永峰(硕),张磊(硕),张 新洲(硕)。 系统开发时间表: 2012年9月-11月,需求分析 2012年11月-13年3月,系统架构设计 2013年3月-11月,系统主体开发完成 2013年12月-14年4月,代码整理,文档整理,工具开发 2014年4月-5月,第一个开源版本发布 华东师范大学云计算与大数据研究中心 结论 内存集群计算是应用需求和硬件发展的必 然趋势 通讯墙问题成为内存集群计算的主要瓶颈 内存集群系统的可扩展性比磁盘集群系统差 流水线式并行处理可有效利用带宽 动态查询优化可有效解决通讯墙问题 CLAISMS系统在实时处理数据分析方面已获 得较高性能 希望大家多多支持国货。 华东师范大学云计算与大数据研究中心

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1