大规模高性能计算系统主动容错优化方法研究.docx

上传人:scccc 文档编号:11960194 上传时间:2021-11-21 格式:DOCX 页数:4 大小:12.53KB
返回 下载 相关 举报
大规模高性能计算系统主动容错优化方法研究.docx_第1页
第1页 / 共4页
大规模高性能计算系统主动容错优化方法研究.docx_第2页
第2页 / 共4页
大规模高性能计算系统主动容错优化方法研究.docx_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大规模高性能计算系统主动容错优化方法研究.docx》由会员分享,可在线阅读,更多相关《大规模高性能计算系统主动容错优化方法研究.docx(4页珍藏版)》请在三一文库上搜索。

1、大规模高性能计算系统主动容错优化方法研究近年来, 为了应对各应用领域飞速增长的计算能力需求 ,高性能计算 HPC(High Performanee Computing)系统的规模不断增大导致可靠性问题逐渐凸显 容错已成为新型HPC系统的必备能力。然而,系统规模增长导致故障率增加的同 时, 又会引起容错开销不断增大。如何解决容错导致HPC系统实际性能大幅下降的问题,已成为高性能计算面 临的主要挑战之一。 基于故障预测对可能出现的故障进行提前处理的容错方式被 称为主动容错。与被动容错相比 , 主动容错能够降低相关容错操作的执行频率 , 在容错开销 方面具备一定优势。随着HPC系统规模进一步增大,由

2、于缺乏高效的主动故障处 理方法 PA(Proaetive Aetion )和相应的优化策略 , 现有主动容错方法的开销依 然不理想。本文面向大规模HPC系统,对主动容错的开销优化方法进行了研究。本文的 主要奉献和创新点有 :1. 提出了一种基于预测故障类型的主动容错方法 PTFPF。针对PTFPF的优化问题,提出了开销平衡的PA选择策略OBPAS以及收益感 知的两级主动检查点存储策略 GTPCS由于HPC系统会发生多种类型的故障,且 目前尚不存在一种能够以较小开销处理所有类型故障的 PA,采用单一 PA的主动 容错方法的开销并不理想。由于超大规模系统的故障率很高 , 这种主动容错方法被用于此类

3、系统中时容 错开销较大。本文对主动协同CR和任务迁移相结合的主动容错方法进行了研究 提出了一种基于预测故障类型的主动容错方法PTFP F并提出了相应的优化方法。首先,针对预测故障类型失误问题对 PTFPF开销的影响,本文建立了 PTFPF 的性能模型,并基于模型提出了开销平衡的 PA选择策略OBPASSOBPAS通过对 不同PA的开销期望进行估计,使系统始终能够选择开销期望较小的 PA处理预测 结果。然后,本文针对PTFPF中检查点存储开销较大的问题,研究了多级主动检查 点存储方法 , 并针对预测引擎误判故障等级的问题提出了收益感知的两级主动检 查点存储策略GTPCS GTPC冷亡够估算存储不

4、同等级检查点可能产生的优化收益 和额外开销 , 并能够基于估算结果推导存储等级的切换时机。针对PTFPF的有效性评估说明:在预测引擎无法准确判断故障类型的情况 下,0BPASSh够降低PTFPF勺8%1 勺容错开销;系统物理处理器数量超过一百万的 情况下,PTFPF相比于现有主动容错方法最多能够降低约 20%勺容错开销。针对多 级主动检查点存储方法的有效性评估说明:GTPCS能够减少故障等级误判对两级 PTFPF容错开销的影响;系统物理处理器数量到达两百万的情况下,基于GTPC的 两级主动检查点存储方法能够进一步降低 PTFPF约12%勺容错开销。2. 研究了面向预测时间失真的主动非协同 CR

5、方法PUCRDg出了极小集消息 记录法MSL以及主动消息存储优化策略SPPM。由于潜在的多米诺效应问题,非 协同CR需要与消息记录方法配合工作。针对现有消息记录方法开销较大的问题 , 本文面向主动容错提出了极小集消 息记录法MSL并基于MSL提出了主动消息记录方法 PML MSL能够基于预测引擎 的定位能力,通过仅记录故障相关消息的方法减少消息记录开销。然后,为了进一步优化PUCR的容错开销,本文研究了 PML勺消息存储优化问 题,提出了一种主动消息存储优化策略 SPPMLSPPM通过估计不同消息存储方式对PUCR容错开销的影响,指导系统按需地调整消息存储方式仿真结果说明:MSL能够降低PML

6、勺83%勺消息记录开销;与HMPL 方法相比,基于MSL勺PML能够降低超过95%勺消息记录开销;相对于传统消息存 储策略,SPPML能够降低PUCR约6%勺容错开销。综合评估说明,在系统物理处理 器数量超过一百万的情况下,PUCRD勺容错开销比现有主动容错方法低约 25%3. 研究了统一主动时间冗余容错方法 UTPF提出了常用时间冗余PA的统一 性能模型UMTPA常用时间冗余PA的统一运算周期优化方法 UPOT以及面向PML 的UTPF最少分组策略MGSUP由于现阶段缺乏能够统一描述主动时间冗余容错 方法开销的抽象模型,本文基于层次化CR思路,研究了统一的主动时间冗余容错 方法UTPF并提出

7、了常用时间冗余PA的统一性能模型UMTPAUMTPAg用于三种常用的基于时间冗余的 PA主动协同CR主动非协同CR以及任务迁移。为了进一步优化UTPF的开销,本文提出了常用时间冗余 PA的 统一运算周期优化方法UPOTPUPOT通过模型微分的方法对UTPF的最优运算周期进行估计。虽然本文通 过研究发现PML的开销会随着分组数量的增加而降低,但由于增加分组数量会增 加故障定位失误的概率,并且UTPF的开销无法随分组数量的增加而线性降 低,UTPF不适合使用最大分组策略。为了平衡它们之间的关系,本文面向PML提出了 UTPF勺最少分组策略MGSUP MGSU通过对UTPF勺容错开销与分组数量之间的

8、关系进行评估,使系统能够在尽 量减少分组数量的情况下获得较好的开销优化效果。仿真结果说明:UMTPA能够较准确地描述三种时间冗余 PA的容错开销;UPOTP 能以较小误差估计常用时间冗余 PA的最优运算周期。此外,虽然基于MGSU获得 的分组数量G*v/sup的值较小,却能够有效优化UTPF勺开销。如果最大分组策略能够获得的优化效果为 1,那么UTPF通过G*v/sup 获得的优化效果超过0.98。综合评估说明,与PTFPF和PUCR方法相比,在系统 物理处理器数量到达两百万的情况下 UTPF能够分别获得约22呀口 17%勺开销优势。4. 提出了基于时间片和相关性表的稀疏表示方法 SRTC并提

9、出了基于SRTC 的日志预处理方法SRCP0志预处理方法中过滤无效记录的准确率和召回率不 仅会影响事件路径法仿真实验中基于日志的事件路径的有效性 , 还会影响预测引 擎的虚警率和漏警率。针对现有日志预处理方法过滤准确率较低的问题 , 本文提出了改良的稀疏表 示方法SRTCSRTC不仅能够提高日志预处理方法的过滤准确率,而且能够保障过 滤召回率所受的影响很小。实验结果说明:相对于现有预处理方法,SRCP能够在过滤召回率降低幅度小 于2%勺情况下提高约8%勺过滤准确率以及3.5%的F1测度。因此,SRCP能够改善 事件路径仿真方法中基于日志的事件路径的有效性。进一步实验说明,与现有预处理方法相比,使用SRCPW处理后的日志构建预 测引擎能够降低故障漏警率约 7%,同时虚警率几乎不受影响

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1