1、可编辑NetAppNETAPP存储说明March20,2024O2013NetAppAllrightsreserved本文档包含NetApp公司的商业及技术机密。未经NetApp公司许可,不得向第三方泄漏或使用。目录1E5460概述22高性能42.1 外部性能因素42.2 E5400硬件性能注意事项42.3 E5400针对性能的固件和配置参考52.3.1 RAID等级52.4 Lustre高性能计算解决方案112.5 E系列性能估算123高可靠性134案例分析144.1 性能184.1.1 MetaData性能184.1.2 读写性能191E5460概述高带宽应用和HPC平台需要高性能、高可靠
2、性和可扩展的存储系统。基于E5400的存储系统满足这些要求,它支持: 每控制器标准的4个8Gb的主机接口 每个控制器可选的主机接口模块o4端口8GbFC模块o2端口40GbIB模块说明:如果使用旧模块,板我的FC端口会被禁用 每套存储最大支持384块磁盘 多种RAlD级别(0、1、10、3、5和6)以及DDP(动态磁盘池) 不同容量、转速的磁盘 数据保证(TlO-PI数据完整性检查) 介质校验和纠错能力强 丰富的事件记录 恢复大师自带的系统诊断和恢复能力 硬件冗余 每个控制器6GB的高速缓存内存(12GB可选),以最大限度地提高读/写性能 NVSRAM和内置的USB驱动器在停电时保存系统配置如
3、下图所示,E5400控制器提供三种规格(E5460,E5424和E5412)o它们都支持双控制器、双电源和风扇以确保硬件冗余。这些控制柜分别支持60个、24个或12个磁盘。多个磁盘扩展柜(DE6600、DE5600和DE1600)可以连接到控制柜以扩展额外的存储容量。CE5460-4U60个磁盘,每抽屉12个双E5400控制器前视图背视图在默认情况下,E5400的每个控制器有4个板载的8GbFC端口,用于主机连接。此外,E5400还支持一个扩展模块,4个8GbFC端口或者2个40GblB端口(如果安装了IB模块,板载的FC端口会被禁用)。下图说明了E5460控制器及可选的扩展模块:E54604
4、咖箱背视图及双E5400控制器E5400控制器及4端口 8Gb FG扩展模块E5400控制器及2堵口 40GblB扩展模块2高性能2.1 外部性能因素存在以下外部的因素会影响E5400存储系统的整体性能,其中包括物理组件,比如网络架构,存储本身底层的设定和配置。通常情况下存储调优可被定义成以下的40/30/30原则,40%是在存储级别的调整和配置,30%在文件系统层面,最后30%在应用层面。以下部分主要描述和存储特性有关的40%。在一个高的层面,必须包括文件系统和应用层的考虑: I/O大小。E系列存储系统主要是响应系统,需要一台主机来提出I/O请求操作,以完成它的操作。从主机来的单个I/O请求
5、的大小极大的影响每秒的I/O操作(IOPS)或者吞吐率(通常描述为兆字节每秒MB/S或者千兆字节每秒GBs).更大的I/O通常会导致更低IOPS,反过来也成立(即更大的I/O吞吐量会导致更低的IOPS)这种关系被定义为等式吞吐率=K)PSXI/O大小。 请求的读和写。除了I/O大小外,在存储系统层面处理的I/O请求里面读写的比例也会潜在的影响存储系统,这些在设计方案的时候也必须考虑进去。 数据流是随机还是顺序的。主机针对磁盘底层介质的逻辑地址(LBAS)请求的顺序性(或者缺失)会明显的影响存储系统层面的性能。在物理介质的效能方面,能最低延迟有效的响应请求,同样的有效的还有存储系统的缓存算法。可
6、能是由于固态介质设备的原因,会有增加随机请求延迟的例外情况,这不会是机制上导致的延迟。 当前I/O操作的数量。针对特定卷的未响应的I/O操作数量会因为下面因素而不同。即文件系统是否应用了原始的,缓冲式的,或者直接I/O。通常,大部分的E系统存储系统的卷会条带化方式跨几个硬盘。每个磁盘个体提供最小数量的突出IO将导致磁盘资源的低利用率,在结果上就会导致低于预期的性能特征。2.2 E5400硬件性能注意事项磁盘数量和介质类型对于任何存储系统来讲(包括E系列),在最重要的因素中有2个是来获取存储性能的,它们是存储控制后端的磁盘数量和对应的磁盘的转速。存储系统最大的可能达到的性能主要依附于这些特定的物
7、理资源,到某种程度要么总线达到饱和或者是存储控制的CPU成为抑制的因素。RandomRandom Sequentai SequentaiWrte Rd VWite Read Single 15K RPM disk driveSingle 7 2K RPM disk drive如上图显示,IO大小为16KB的时候,单个7200转的NL_SAS硬盘可以提供单个15000转SAS硬盘的大概45%左右的IOPS性能,同时IO数值越大,它们顺序的传输速度性能更加接近。提示:请基于预期的负载和容量需求来选择硬盘类型。主机接口类型E5400支持多种的主机接口类型,包括一个可选的8Gb光纤通道主机卡和一个40
8、GblnfiniBand(IB)主机通道卡。InfiniBand具有更高的主机接口带宽。2.3E5400针对性能的固件和配置参考23.1 RAlD等级E5400支持RAID0、1、10、5、6,随着NetAPPSANtriCitylO.83和相关控制器固件的发布,一种取名为动态磁盘池(DDPS)新的逻辑磁盘组发布了。RAIDO概览RAlDO将数据条带分散在多块磁盘上,并且至少需要1块磁盘来组成。RAlDo通过使用多个磁盘将写性能最大化,同时因为没有数据校验保护算法而最小化了过载。不过,如果1个磁盘故障发生的话,存储在该卷上的数据将丢失。因此关键业务数据不应该被存储在RAIDO卷组上。在下图中可
9、以看到,在卷组中的每个磁盘上的条带中都承载了用户的数据,并没有提供任何校验和保护措施。Segment根据以下原则来使用RAID0: 选择RAIDO当卷组中有1个或者多个磁盘的时候; 选择RAIDO当存储非业务核心数据; 卷组中RAIDO的最大磁盘数量依赖于硬件型号; 虽然在大多数应用中RAIDO并不适用,但是RAIDO可以在同样硬件上获得磁盘数量最多的卷组。 RAID1/10概览RAIDl通过镜像磁盘提供了一对一的数据镜像拷贝;至少需要2块磁盘来组成。在E系列系统中,如果4个或更多的磁盘被选择来组成RAIDl卷组,则RAID级别会自动提升到RAID100那就意味着数据被条带化分布在4个或者更多
10、的镜像磁盘上。如果发生1个磁盘故障,存储系统可以立即切换到镜像磁盘。在这个阶段,卷组将被降级但是仍旧可以提供数据存取。如果镜像的2个磁盘同时故障的话则数据将丢失。如果在RAID1/10卷组中当1个磁盘故障时有热备磁盘存在,E系列存储系统会自动的将热备磁盘顶替故障磁盘,并从镜像磁盘中恢复数据到该热备磁盘上。一旦故障磁盘被更换好以后,存储管理员可以设定之前的热备磁盘为卷组中的成员,而更换好以后的磁盘为新的热备磁盘。或者,管理员可以使用ucopyback,功能把数据从之前的热备磁盘上拷贝到更换好以后的磁盘上,恢复热备磁盘的功能。在下图中,每个条带被镜像到了卷组中另一个磁盘上。根据以下原则来使用RAI
11、D1/10: 选择RAID1/10当卷组中拥有2个或者更多的磁盘; 选择RAID1/10来满足高性能的写操作同时又能实现镜像的数据保护; RAID1/10的最大磁盘数理论上为该存储系统最大支持磁盘数量的一半。然而卷组并不会经常如此配置; 在手工创建卷组的时候需要考虑磁盘柜的故障保护。 RAID5概述RAID5是将数据条带化后,跨多个磁盘存储,当数据写入条带时,通过异或(XoR)运算生成校验位(P,如下图)。系统为每个卷组并行的存储校验数据和生产数据。因为RAID5这种数据保护方式需要生成校验位,所以需要使用额外的存储空间。这个额外空间我们称为“开销”,在规划存储容量时需要考虑在内。一个RAID
12、S卷组至少需要3块硬盘,因为每个卷组的保护数据会使用相当于一块硬盘的容量。理想情况下,当一次全条带写的时候生成校验数据,此时该条带的所有数据均位于控制器的内存中,这种情况下,异或(XOR)操作无需从底层物理介质中进行额外的读取操作。而当全条带写不可能的情况下,条带中的其余数据必须先读入内存,然后进行校验数据的计算,这个过程我们称为读-改-写或部分写,这两种情况就会对写的性能造成负面的影响,因为对于一个主机I/O会带来一些磁盘I/O(需要从磁盘读写数据),会引起额外的等待而且针对底层介质的其他请求可能会造成延迟。出于这个原因,通常对于那些主要为随机的、小块的数据写的应用不建议使用RAlD5.E系
13、列系统使用校验数据来恢复当单个磁盘故障造成生产数据的丢失。在这些场景中,受到影响的卷组会被置为降级模式,直至坏盘被替换而且数据重建完毕。此时,数据对于应用仍然是可用的,如果在一个RAID5卷组中有两块盘故障,那么数据就会丢失。如果在RAlD5卷组中有热备盘,那么当单磁盘故障发生时,E系列存储会自动的将热备盘加入到受影响的卷组,并且立即通过校验数据启动数据重建。而一旦故障盘被新的盘替换,存储管理员可以将之前的热备盘(也就是重建盘)永久的加入卷组,而将新的盘作为新的热备盘。或者管理员也可以使用“copyback”功能将之前的热备盘(重建盘)的数据拷贝到新的磁盘,然后将重建盘重新作为全局热备盘。在下
14、图中,请注意每个条带中的一段用于存放校验信息。而且条带中的校验段的物理位置是在整个卷组的磁盘中循环存放。根据以下原则来使用RAID5: RAID5卷组至少有3块或以上硬盘。 当需要高性能I/O时,选择使用RAID5. RAID5提供单盘故障数据保护能力 在一个RAID5卷组中不要超过30块磁盘。 当手动创建卷组时,需要考虑当一个磁盘柜或磁盘抽屉故障时的情景。 不要创建超过需要大小的卷组,否则当卷组中单盘故障后,卷组的数据重建时间会被延长。 RAID6概览RAID6组合条带功能跨多个磁盘,采用在写数据的时候生成2个校验位的保护机制(P和Q,如下图所示)。在每个阵列的卷中系统并行的存放校验数据和生
15、产数据。因为这个级别的保护产生的校验位会额外的占用存储空间。和运用在RAID5上的一样,P值由一个XOR运算得到。而Q值由一个里德所罗门复正交多项式计算获得。在RAID6卷组中最小硬盘数量是5个,因为数据保护使每个卷组会消耗2个硬盘容量。理想状况是,P和Q校验在一个完整的条带写中生成,其中特定条带中的所有数据同样以这种方式位于存储控制器的缓存中,这样无须为了保证条带的完整性而需从底层物理介质来执行单个读或者多个读操作来计算获得这2个校验值。在某些整条带写不可能实现的的情况下,为了计算校验某些过程中的特定条带数据必须先读入缓存,这被称为读-改-写或部分写这两种情况都对写性能有负面的影响,因为某些
16、磁盘I/O可能被用于处理单个的主机I/O,潜在的会引起延迟并且可能会使其他请求延缓到底层的介质层。由于这个原因,RAID6通常不被推荐到用于那些由小的随机写组成的应用场景。在某些双硬盘失效场景下E系列系统应用校验数据去恢复生产数据。在这些场景,当失效磁盘被更换掉且当数据重建时,受影响的卷组被置于降级模式。在这段时间,数据对应用程序依旧可用。在RAID6卷组中如果超过2个硬盘失效,将发生数据丢失。当一个磁盘失效时,在RAID6卷组中如果热备盘可用,E系列存储系统会自动指定可用的热备盘和受影响的卷组从现存的校验数据中重建数据。一旦失效磁盘更换,存储管理员就可以永久的指定前面的热备盘(即,重建的那个
17、磁盘)到这个卷组,将更换的磁盘指定为热备盘。另外一种选择,管理员可以应用“Copyback功能将数据从重建的磁盘拷贝到新的磁盘,将重建的那个磁盘返回给热备磁盘池中。在下图中,RAlD6的布局类似于RAID5的布局,但它有另外-一段的校验信息,在每个条带中,由字母Q来表示BTn二三根据以下原则来使用RAID6: RAID6卷组至少包括5个硬盘 当有高性能的I/O需求的时候选择RAID6 当需要在双硬盘失效的场景下保护数据的时候选择RAID6 RAID卷组的最大磁盘数量是30在手工生成卷组的时候考虑磁盘柜和磁盘抽屉失效时的保护不要创建大于实际需求的卷组,这样就会在磁盘失效发生的时候需要更长的时间重
18、建卷组动态磁盘池(DDP)概览动态磁盘池(DDP)技术是将多个磁盘组成一个池,在其中分布式存放数据,校验信息和热备空间。数据卷被建立在磁盘池的基础上。DDP由多个底层的元素所组成,首先的一个元素是D-PieCe.一个D-piece包含多个512MB的数据分片,每一个数据分片由磁盘上的4,096个128KB的数据段组成。在一个池中,智能优化算法会在整个池中不同的磁盘上平均选择10个D-pieces,然后将其组合,形成一个D-Stripe,一个D-Stripe的大小是4GBo在一个D-Stripe内,10个D-piece的数据分布方式类似于8+2的RAID6,其中8个D-piece存放了用户数据,
19、1个D-piece存放了RAID校验信息,还有1个D-piece存放了RAID6算法中的Q校验信息。在DDP上创建的卷或者LUN是由多个4GB的D-Stripes聚合组成,一个卷的大小可以手工指定,最大不超过整个DDP的最大值。D-PieceD-Stripe一一DynamicOiSkPool二百 三三= TI上图描述了一个由12块磁盘组成的DDP的结构,10个D-PieCeS组成了一个D-Stripe,分布在随机的10个磁盘中,周而复始,从而形成了每一个4GB的D-StriPe注意:从上图中看,虽然每一个D-PieCeS和D-StriPeS都大约是平均分布的,但是在某些情况下,这并不是一定的。
20、一旦存储管理员完成了DDP的设置,比如定义了由多少块磁盘组成一个池,D-piece和D-Stripe会自动进行初始化,就像创建传统的RAID卷组时,其条带的初始化过程一样。当DDP被定义好之后,就可以在其中创建卷。这个卷会由多个4GB的D-Stripes组成,这些D-stripes分布在池中的不同磁盘上,例如,一个500GB的卷会包含125个D-stripes,这些D-StriPeS的选择会从最低的可用的逻辑区块寻址开始,直到达到所建卷的大小。一个DDP中可以创建多个卷,一套存储系统内可以创建多个DDP。同时,存储管理员也可以选择既创建传统的RAID卷组,又创建DDP。例如,一个有24块相同容
21、量大小磁盘的E5424存储,可以支持以下组合方式: IjRAIDlO,4+4和IXl6块磁盘的DDP 1个24块磁盘的DDP 2个12块磁盘的DDP 1个RAID5,4+1,1RAIDlO,2+2和1个15块磁盘的DDP RAlD级别总结下表总结了不同RAID级别的性能和功能期望的特性RAIDORAID1/10RAID5RAID6DDP随机读性能随机写性能顺序读性能顺序写性能最大支持的磁盘数量系统最大系统最大3030系统最大可用空间容量100%50%(N-1)NN是一个RAID中总磁盘数(N-2)NN是一个RAID中总磁盘数80%减去DDP中保留的空间容量2.42.5 1.ustre高性能计算
22、解决方案NetApp所提供的Lustre高性能计算(HPC)解决方案采用高容量和高性能的E系列存储平台,使Lustre文件系统能够满足建模与仿真环境高扩展性和极高的I/O吞吐量的要求。这种扩展性和高可靠性设计可满足现在和未来的性能和增长需求。下图描述了典型的Lustre工作负载。IB FabricNetApp E5460Luslre Object Storage ServersLustre Metadata Failover ServerLustre Routers (LNET)Lustre IB Clients Cluster System 目目目目Lustre LAN ClientsLus
23、tre LAN Clients口33口Luslre Clients Supercomputers 目自自自自目NetApp所提供的基于E系列平台的Lustre高性能计算解决方案,是专为可扩展、可靠的高性能计算环境的极高I/O性能和巨量文件系统性能的需求而设计。政府、教育、研究和商业组织会发现Lustre高性能计算解决方案能够很好的应对支持数以万计的1.ustre客户端以每秒数千GB的I/O吞吐量访问数百PB的存储数据所带来的挑战。2.6 E系列性能估算一台E5400设备可提供的最高性能是单个存储系统可达到的绝对最大限度。在很多案例中,由于本文档之前所讲到的原因,在生产环境中不能达到这些最大值。
24、所以下表所提供的数据仅供参考。主机接口类型InfiniBand突发吞吐量读缓存(512KB)6,200MBs持续吞吐量磁盘读(512KB)6,000MBs持续吞吐量磁盘写(512KB)3z100MBs再次强调,上表所示只是E5400存储系统的绝对最大性能数值。获得这些数值的测试是在理想的实验环境,所以这些结果可能在生产环境负载或与测试环境配置不同的时候较难获得。如果之前所描述的解决方案负载与您的工作负载不能很好的匹配,而您需要E系列的解决方案,下表所示数据可以用来粗略的估算满足特定的性能所需的磁盘数量,最大达到E5400控制器所支持的最大值。3高可靠性NetApp的E系列存储系统是通用的、强大
25、的、基于块的存储系统,在设计上就具有的高性能和高可用性。目前有接近400,000系统在运行,这是市场证明了的系统的健壮性。根据系统的运行情况,我们的分析统计结果如下:项目E5460配置60块3TBNL-SASMTTFIl-I(Khrs)MTTRepair4HoursMTTCriticaIFaiIure801.1(Khrs)MTTDataLoss953.0(Khrs)Availabilitywith4hourservicecontract99.9995%MTBF全称是MeanTimeBetweenFaiIure,即平均无故障工作时间。就是从新的产品在规定的工作环境条件下开始工作到出现第一个故障的
26、时间的平均值。MTBF越长表示可靠性越高,正确工作能力越强。MTTR一一全称是MeanTimeToRepair,即平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR越短表示易恢复性越好。MTTF一一全称是MeanTimeToFaiIure,即平均失效时间。系统平均能够正常运行多长时间,才发生一次故障。系统的可靠性越高,平均无故障时间越长。MTBCF全称是MeanTimeBeforeCriticaIFaiIure,即严重故障平均时间间隔。一个严重故障被定义为任何条件下,阻止子系统的操作,并防止对数据的访问,直到修复。严重故障的计算,假设有98%的磁盘驱动器的
27、覆盖范围和100%的数据故障是不可恢复的。ML一一全称是MeanLife,即平均寿命。平均寿命通常为5年或者43z800小时的操作时间。MTTDL一一全称是MeanTimeTODataLoss,即平均数据丢失时间。数据丢失被定义为在任何条件下,破坏或永久防止对数据的访问。可靠性最初是确定一个系统在一个特定的运行时间内有效运行的概率的一个标准。可靠性的衡量需要系统在某段时间内保持正常的运行。目前,使用最为广泛的一个衡量可靠性的参数是,MTTF(meantimetofailure,平均失效前时间),定义为随机变量、出错时间等的“期望值”。但是,MTTF经常被错误地理解为,”能保证的最短的生命周期M
28、TTF的长短,通常与使用周期中的产品有关,其中不包括老化失效。MTTR(MeanTimeToRepair,平均恢复前时间),源自于IEC61508中的平均维护时间Cmeantimetorepair),目的是为了清楚界定术语中的时间的概念,MTTR是随机变量恢复时间的期望值。它包括确认失效发生所必需的时间,以及维护所需要的时间。MTTR也必须包含获得配件的时间,维修团队的响应时间,记录所有任务的时间,还有将设备重新投入使用的时间。MTBF(MeanTimeBetweenFaiIures,平均故障间隔时间)定义为,失效或维护中所需要的平均时间,包括故障时间以及检测和维护设备的时间。对于一个简单的可
29、维护的元件,MTBF=MTTFtMTTRo因为MTTR通常远小于MTTF,所以MTBF近似等于MTTF,通常由MTTF替代。MTBF用于可维护性和不可维护的系统。4案例分析1.awrenceuvermoreNationalLaboratory的红杉系统IBM推出的20千万亿次超级计算机系统,红杉,将有利于继续确保国家的核威慑力量的安全性和可靠性。红杉选址在劳伦斯利弗莫尔国家实验室,并在2012年秋季部署。红杉最初的交付系统,黎明,一个500万亿次浮点运算的BlUeGene/P系统,为目前正在使用红杉数千万亿次的运算奠定应用基础。红杉为世界上最强大的超级计算机之一,相当于6.7亿人在地球上用手工
30、计算器和一起计算,每天24小时,一年365天,工作320年的工作量相当于红杉一小时内的工作量。红杉将侧重于加强基础预测模拟复杂的非常大的系统,被称为不确定性定量化研究(Q)o此外,将用于武器的科学计算,需要建立更精确的物理模型。这项工作是一个基石,国家核安全局的核储备管理计划,以确保美国核武库的今天和未来没有地下核试验的安全性,保密性和可靠性。红杉有1.6千兆字节的内存,96机架,98,304个计算节点,160万芯。虽然订单级的ASCPUrPIe和蓝色基因/L,比原先的系统功能更强大,红杉将是PUrPle的160倍以上的功率效率比和17倍以上的BlueGene/Lo红杉具有55PB的Lustr
31、e+ZFS文件系统,其结构如下:LLNL Sequoia LustreMetadata Targets (MDT) ZFS MIRROR SSD/JBODMetadata Servers (MDS)Today: 1 + backupSkMDS 1 MDS 2ArchitectureObject Storage Object Storage Servers (OSS) Targets (OST) 768768s , SeB68PBraw72 TB OST size1.12 PB Scalable Unit55PBusableZFS Striped Over 3x HardwareRAID-6 8
32、2 Groups Nearline SASSequoia的存储硬件平台(OSS)采用如下的配置:NetAppE5400o4U机箱支持60个磁盘o双RAID控制器o3TB近线SAS磁盘o180TB裸容量(高密度)oIB主机接口ApproGreenBIadeolntelXeonE5-2670(SandyBridge)o双Socket,8核2.60GHZo64GBRAMoQDRMellanoxConnectX-SIBo双口QDRConneCtX-24.1性能4.1.1MetaData性能MDTEST Parallelcreate/stat/unlink 1,000,000files Singled
33、irectory 52ClientsFIDHashing Verypoorhashdistribution FixedupstreamDeadlocks ZFS+LustreVMIntegration 1.ockinversionsMultipleObjectIndexes StoresFIDtoobjectmapping ImplementedwithaZAP ZAPs- Designedtoscaleforcapacity- Concurrentupdatescontend- InsertionmayrequireadiskI/Owhenleafblockisondisk SystemAt
34、tributes 1.ustrereliesheavilyonxattrs ZFSxattrsareflexiblebutslow Storethexattrwiththednode70060050000400300002100ZFSInit谕ZFSCH+SAZFSIrvtiai匚ZFSQSAZFSInitialZFSInitialZFSInitialZFSInitialZFSOI+SALDISKFS Paralleldirectoryimprovements ptlrpcimprovements ZFS 1.ockcontentiononMDTlimitingcreatesandunlink
35、s HigherlevelLustrelayersareclearlycapable ImprovementstargetedfortheZFSlayers4.1.2读写性能4.1.2.1 写性能1800016000140S120o100第8000S6000400020O700ZFSInitialZFSCH+SALDISKFS16014012000I(XXX)80604020OZFSInitial-ZFSOI+SALDISKFS50000400003002001.0060000ZFSInitialZFSCH+SALDISKFSSingle shared file IOR (10G block, IM transfers)Client Tasks LDISKFS+RAI D6ZFS+RAID6SequoiaWorkload DefensivecheckpointI/O 1,572,864ComputeCores 768OSSNodes 2048TasksperOSS 1.DISKFS IncreasingtasksperOSSdegradesperformanceZFS Constantperformance4.1.2.2读性能LDISKFS+RAID6ZFS+RAID6ZFS+RAIDZ2