1、NetApp技术报告高可用性(HA)对控制器配置概述和最佳实践NetApp公司MeghanLiese2013年4月|TR-3450摘要NetApps高可用性(High-AVaiIabiMy,HA)对控制器配置为业务关键型环境提供了强劲可靠的高可用性数据服务。在正常操作期间,高可用性对配置中两个相同存储控制器中的每一个存储控制器都独立提供数据。一个存储控制器出现故障时,数据服务进程会从出现故障的存储控制器转移到无故障的配对存储控制器上。高可用性对控制器配置也可以防止出现其他硬件故障,包括网络接口卡、FC-AL环路、磁盘架I/O模块C目录1简介41.1 范围41.2 本文档中使用的术语52高可用性
2、对控制器概述52.1 互连的工作原理52.2 高可用性对如何处理NVRAM62.3 用于高可用性对同步信息的邮箱磁盘存储72.4 高可用性对与集群模式DataONTAP的关系72.5 集群故障转移(ClusterFailover,CFO)和存储故障转移(StorageFailover,SFO)82.6 集群模式DataONTAP.高可用性对和集群仲裁92.7 高可用性对控制器网络概述122.8 高可用性对和基础架构故障恢复能力133高可用性对和集群可扩展性153.1 单节点到双节点无交换机集群(Two-NodeSwitchlessCluster,TNSC)153.2 双节点集群(有交换机或无交
3、换机)到四节点集群154可满足各种业务需求的高可用性对解决方案164.1 选择满足业务需求的高可用性对解决方案164.2 标准高可用性对控制器174.3 多路径高可用性对控制器184.4 高可用性对控制器(含SyncMirror)204.5 光纤MetroCIuster215了解客户端影响235.1 最大限度减少客户端影响的最佳实践236高可用性对控制器配置的无中断升级(NDU)266.1 无中断升级概述266.2 无中断升级的要求286.3 无中断升级的DataoNTAP支持列表296.4 无中断升级的限制296.5 无中断升级的最佳实践296.6 无中断升级的注意事项和考虑因素297命令行
4、界面(CLI)30结论30参考资料31版本历史31表格目录表1)本技术报告中使用的术语5表2)存储故障转移和集群故障转移事件9表3)在高可用性对控制器配置中可能触发故障转移的硬件组件13表4)根据业务需求建议采用的高可用性对解决方案17表5)多路径高可用性对配置选项比较20表6)高可用性对控制器互连适配器的特性和距离限制23表7)适用于高可用性对配置的常见CLI用法30插图目录图1)正常操作下的高可用性对控制器配置6图2)故障转移中的高可用性对控制器配置7图3)在一个集群中连接四个节点的集群网络8图4)高可用性对控制器和集群仲裁10图5)移动Epsilon以保持集群仲裁11图6)以7-模式运行
5、的系统的网络层次结构12图7)集群模式DataONTAP的网络层次结构13图8)标准高可用性对控制器配置的硬件和布线概览18图9)多路径高可用性对配置的硬件和布线概览19图10)使用SyncMirror的高可用性对控制器配置的硬件和布线概览21图11)光纤MetroCIuster配置的硬件和布线概览22图12)高可用性对的NDU步骤26图13)在集群模式DataONTAP中运行的操作系统的滚动升级步骤281简介在当今环境下,企业需要保证数据全天候可用。存储行业为所有业务应用程序和目标所需的数据存储基础架构提供了基础组件。因此,要保证不间断地提供数据,首先要构建有利于无中断运行(Nondisru
6、ptiveOperations,NDO)的存储系统。无中断运行具有三个主要目标:硬件故障恢复能力、硬件和软件生命周期操作以及硬件和软件维护操作。本技术报告重点介绍硬件故障恢复能力以及硬件和软件维护操作,其中,在无中断运行期间实现持续数据可用取决于以下构成要素C性能。从数据可用性角度,性能可分为两个主要方面。第一方面就是客户有具体的性能要求,客户必须满足这些性能要求,才能满足需要随时访问存储系统数据的应用程序的需要。数据可用性中断意味着,存储系统仍然可以响应前台I/O,但已无法满足依赖该系统的应用程序正常运行必须达到的要求。第二方面是,如果系统性能受到影响,以致于停止响应前台I/O,则表示出现数
7、据可用性中断.、 故障标复能力。从数据可用性角度而言,故障恢复能力是指系统在遇到一个或多个故障时以降级状态继续响应前台I/O的能力。系统承受故障的能力取决于大量选项和功能;本文档将通篇对它们进行讨论。.可恢复性。可恢复性用于定义系统从故障中自动恢复以及在存储系统中执行恢复操作期间继续响应前台I/O的能力。数据可用性的三个层面又进一步受到以下三个因素的影响。 存储子系统。存储子系统层提供了与存储系统内部相关的所有硬件组件及软件功能。从物理角度而言,这一层可视为从HBA向下贯穿到所连接的存储阵列;也可视为与NetAppDataONTAP操作系统中的存储和RAID软件层相关。从根本上说,这一层让系统
8、能够支持控制器与所连接的存储阵列进行内部通信。 系统。系统层可为存储系统提供抵御故障的能力。这一层主要侧重于控制器级别的故障,这一级别的故障会影响系统继续进行外部通信的能力。这一层适用于单控制器和高可用性(HA)对配置以及有助于进行外部控制器通信的组件(如网络接口)。 站点。站点层可为处于同一位置的一组存储系统提供抵御故障的能力。这一层主要侧重于与分布式存储系统架构相关的功能,这一架构可以抵御整个存储系统的故障。此类故障可能与站点级别事故(如自然灾难或恐怖活动)有关。NDO的核心基础是高可用性对控制器配置,此配置可在计划内和计划外停机事件期间提供高可用性解决方案。本报告的其余部分对高可用性对配
9、置的技术概念进行了概述和说明,并针对不同业务要求提出了建议的最佳实践和解决方案。1.1 范围在系统级别,NetApp为任务关键型环境提供了强劲可靠且高度可用的数据解决方案,称为高可用性对控制器配置。在正常操作期间,高可用性对配置中两个相同存储控制器中的每一个存储控制器都独立提供数据。一个存储控制器出现故障时,数据服务进程会从出现故障的存储控制器转移到无故障的配对存储控制器上。高可用性对配置也可以防止出现其他硬件故障,包括网络接口卡、FC-AL环路和磁盘架I/O模块。本文档包括以下内容: 高可用性对配置的硬件及软件组件概述 用于评估满足客户环境需求的高可用性对解决方案的最佳实践 故障转移和交还操
10、作期间的客户端交互 最大限度降低客户端中断的最佳实践 无中断升级(NOndiSnJPtiVeUpgrade,NDU) 7-模式下运行的DataONTAP与集群模式DataONTAP之间命令行界面(COmmandlineinterface,CLI)之对比有关存储子系统的故障恢复能力和可恢复性的信息,请参见TR-3437:存储子系统故障恢复能力指南o1.2 本文档中使用的术语表1)本技术报告中使用的术语术语所指:可互换术语控制器的物理实体存储控制器、FAS系统、节点、配对节点某一节点在其配对节点因计划内或计划外事件而停机时接管其磁盘的功能接管,故障转移某个节点在其配对节点经历计划内或计划外事件后重
11、新启动时,交还其配对节点的磁盘的功能交还,故障恢复高可用性对控制器配置内的控制器节点,配对节点对7-模式DataONTAP中的卷进行故障转移或对集群模式DataONTAP中的CFO策略卷(节点根卷)进行故障转移的机制控制器故障转移,CFO对集群模式DataONTAP中的卷进行故障转移的机制存储故障转移,SFO更新系统及相关存储中DataONTAP软件和固件的机制无中断升级,NDU在集群内的多个高可用性对控制器上以并行方式执行DataONTAP升级的过程滚动升级,滚动批处理升级2高可用性对控制器概述高可用性对控制器配置由一对匹配的FAS存储控制器(本地节点和配对节点)组成;这些节点中的每个节点都
12、必须连接到另一个节点的磁盘架。两个节点上的DataONTAP和固件版本必须相同。同样,每个节点上的互连适配器也必须相同且配置有相同的固件版本,互连适配器必须通过相应的互连缆线正确连接。有关布线详细信息,请参见高可用性配置指南。在高可用性对控制器环境中,每个节点上的DataONTAP都通过在存储控制器间通过互连卡和缆线进行传输的检测信号来监控其配对存储控制器的可用性状态。然后将此信息存储到专门的邮箱磁盘上。FAS存储控制器使用电池后备非易失性RAM(NonvolatileRAM,NVRAM)来防止在创建最近一致点后可能会丢失任何数据输入/输出请求。高可用性对中各控制器节点的NVRAM数据始终会镜
13、像到配对节点上。发生故障转移时,无故障节点会接管故障节点上的磁盘控制权,并保持与镜像NVRAM间数据的一致性。有关NVRAM的更多详细信息,请参见TR-300LNetAppFAS2000和FAS3100版本系列控制器不使用互连卡。检测信号和NVRAM数据通过集成的以太网端口在节点间传输。2.1 互连的工作原理互连适配器属于高可用性对控制器中最关键的组成部分。DataONTAP使用这些适配器在配对节点间传输系统数据,进而维护两个控制器上NVRAM内的数据同步。其他重要信息也通过互连适配器进行交换,其中包括检测信号、系统时间以及由于待定磁盘固件更新而导致磁盘临时不可用的相关详细信息。下面一节解释了
14、两个节点上的NVRAM必须相同的原因。由于NVRAM5和NVRAM6卡提供集成的互连硬件功能,因此,除非使用光纤MetroCIuster-配置(在本文档下文中介绍),否则在使用NVRAM5或NVRAM6卡时不会(或不需要)使用独立互连卡。2.2 高可用性对如何处理NVRAMDataONTAP使用WAFL(WriteAnywhereFileLayout,任意位置写入文件布局)文件系统来管理数据处理,并通过NVRAM确保在向磁盘提交写入前数据保持一致。NVRAM中的数据通过直接内存访问(DirectMemoryAccess,DMA)复制到系统内存。如果存储控制器遇到电源故障,NVRAM会保护最新的
15、数据并维护文件系统的完整性。在高可用性对控制器环境中,每个节点都会为配对节点的数据预留NVRAM总大小的一半,以保证两个存储控制器上的NVRAM具有完全相同的数据。因此,在高可用性对控制器中,本地节点只使用一半的NVRAMc将NVRAM一分为二来提供数据一致性会导致性能降低约2%到3%o发生故障转移时,如果无故障节点接管故障节点,则NVRAM中存储的所有WAFL检查点都会转储到磁盘。无故障节点随后会合并拆分的NVRAM并恢复损失的性能C无故障节点将磁盘控制和数据处理恢复到已恢复的故障节点后,属于配对节点的所有NVRAM数据都会在交还操作期间转储到磁盘。单节点集群可扩展性和NVRAM单节点集群可
16、以在其自身的集群中具有一个节点。单节点集群不具备高可用性故障恢复能力;因此,单节点集群不会拆分节点的NVRAMo随着时间的推移,单节点集群可能无法满足业务需求,这就需要从单节点转换到故障恢复能力更强的双节点集群。为此,每个存储控制器上的NVRAM将就进行划分,以便正确镜像配对节点的数据。要进行相应更改,以便将每个节点转换为HA配置并重新划分结构,NVRAM需要重新启动控制器。在单节点转换为双节点集群后,就会具备HA控制器配置所提供的所有NDO功能。下图说明了NVRAM和高可用性对控制器配置间的关系。图1)正常操作下的高可用性对控制器配置A环跪珠路所分第髭对节点NVRAM M姻 的NVRAM主机
17、务本图2)故障转移中的高可用性对控制器配置A环络B球路拆分的配对节点NVRAM M 的NVRAM主机IC本2.3 用于高可用性对同步信息的邮箱磁盘存储为使高可用性对控制器配置中的两个节点维护彼此的最新正确状态,节点状态和检测信号信息会存储在各节点的邮箱磁盘中;在协调接管或交还操作时会使用一组冗余磁盘。如果一个节点停止运行,无故障的配对节点会使用邮箱磁盘上的信息执行接管处理,从而创建一个虚拟存储系统。邮箱检测信号信息会防止在互连失败时出现不必要的故障转移。此外,如果邮箱磁盘上存储的HA信息在启动时不同步,高可用性对节点会自动解决这一问题。FAS系统的故障转移过程极为强劲可靠,可以防止出现“脑裂”
18、间氤2.4 高可用性对与集群模式DataONTAP的关系DataONTAP8.0引入了新一代的存储系统,可将大量的高可用性对横向扩展到一个集群中。以前,集群这一概念与高可用性对同义,但集群模式DataONTAP对高可用性对和集群进行了明确区分。高可用性对由两个配对节点组成,而集群则由许多高可用性对构成。高可用性对通过一个后端网络(称为集群网络)连接在一起。高可用性对是构成更大的逻辑实体(称为集群)的物理组成部分。高可用性对在系统级别提供存储故障恢复能力,以提高集群的整体可用性。高可用性对控制器配置具有与7模式系统相同的故障恢复能力。每个高可用性对直接通过缆线连接存储,并利用多路径布线来实现更强
19、的故障恢复能力。下图显示了一个四节点集群,其中包括节点1、节点2、节点3和节点4。节点1和节点2构成高可用性对;节点3和节点4构成高可用性对。所有四个节点均通过集群网络进行连接。图3)在一个集群中连接四个节点的集群网络集群网络HA虽然传统7-模式高可用性对控制器配置的物理架构是集群的基础组件,但是横向扩展架构不但具有传统7模式架构的优点,而且还可提供更多优点。高可用性对中的每个节点均链接到集群网络中,以便于集群中各节点之间进行通信。后端集群网络是节点间前台和后台I/O的通信基础。例如,集群模式DataONTAP可提供的另一项优点是,可以在集群中无中断地移动数据,从而增强高可用性对解决方案的能力
20、以及NetApp存储系统的NDO能力。对于集群中的任何节点,都可以通过集群网络执行卷移动和数据复制操作。有关数据移动性解决方案的详细信息,请参见TR-3975:WataMotionforVolumes概述o2.5 集群故障转移(ClusterFailover,CFO)和存储故障转移(StorageFailover,SFO)存储资源与网络资源之间还存在一个虚拟化层,这两种资源均与集群中的存储控制器相连。利用集群网络,可以通过集群中的网络资源访问存储资源。因此,要访问所需的数据,可以通过集群中任何节点上的网络接口接收前台I/O请求,然后将该请求定向到适当的存储控制器(和关联的存储资源)。集群故障转
21、移是指与7-模式系统中的卷相关的策略。存储故障转移是指与集群模式DataONTAP系统中的卷相关的策略C但是,集群模式DataONTAP系统中的节点根卷将保留CFO策略。在7-模式系统中,所有聚合将一起进行故障转移和交还操作。只有所有聚合均返回到配对节点之后,故障转移或交还过程才完成。或者,在集群模式DataONTAP中,聚合将按顺序交还到配对节点:首先交还的是卷策略为CFO的聚合(全部并行进行)。节点根聚合最好不包含用户数据。使根聚合恢复联机的过程涉及将某些信息与集群中的其他节点进行同步,可能需要一些时间;因此,转换期间根聚合无法提供数据。如果所有用户数据都位于采用SFO策略的聚合中,则配对
22、节点仍会继续为包含用户数据的卷所在的所有聚合提供数据,直到节点根卷恢复联机,并且节点恢复到集群中且可以接收剩余聚合。此时,每个聚合将按顺序返回到配对节点,在配对节点(原主节点)上恢复联机时,每个聚合都会发生短暂的转换。从DataONTAP8.2开始,集群模式DataONTAP的高可用性对控制器的计划内接管事件将应用此过程。下表总结了集群模式DataONTAP的故障转移和交还顺序。表2)存储故障转移和集群故障转移事件高可用性事件事件说明计划外事件所有聚合并行故障转移到配对节点。计划内事件(集群模式DataONTAP8.1)所有聚合并行故障转移到配对节点。计划内事件(集群模式DataONTAP8.
23、2)每个聚合均按顺序进行故障转移,根聚合在所有包含用户数据的聚合故障转移到配对节点之后进行故障转移。交还首先交还根聚合;在节点恢复到集群中之后,会按顺序将包含数据的每个聚合交还到配对节点。2.6 集群模式DataONTAP,高可用性对和集群仲裁集群可以包含一个节点、两个节点或更多节点。单节点集群的可用性取决于单个节点是否持续正常运行。如果此单个节点发生了计划内或计划外事件并导致该节点关闭,则位于相连存储中的任何数据都不可用。对于包含两个或更多节点的集群,每个节点可通过与故障转移和交还相关的高可用性功能来提高可用性。如果发生节点故障,将进行故障转移,而数据仍可继续通过配对节点来访问。节点间的通信
24、是集群模式DataONTAP的一个重要部分。如果一定数量的节点(取决于集群大小)处于关闭状态,则集群通信能力以及数据可访问性将会受到影响。引入仲裁概念是为了控制集群在任何此类因素之下的状态,以及在每种状态期间可以执行哪些操作。集群可处于有仲裁或无仲裁状态。如果集群具有仲裁,则对集群进行的配置更改也可以应用于任何处于运行状态的节点,也就是说,这些节点尚未被其配对节点接管。可以将Epsilon重新分配给集群中的其他节点。如果包含Epsilon的节点要在发生计划内事件(如DataONTAPNDU)时故障转移到其配对节点,则可能需要这样做。移动Epsilon可以增加集群保持仲裁的可能性。例如,如果您有
25、一个包含四个节点的集群(节点1、节点2、节点3和节点4),并将Epsilon分配给节点1。执行NDU时,节点1将故障转移到节点2;但Epsilon不会进行故障转移。此时,仍会保持仲裁;但集群中任一其他节点发生故障,都会导致集群丢失仲裁,因为包含Epsilon的节点已关闭。如果将Epsilon重新分配给节点2、节点3或节点4,则在节点1关闭期间,即便其他任一节点发生故障,集群都仍会保持仲裁,但前提是,重新分配了仲裁的节点并不是已关闭的节点。下图对此情况进行了详解图4)高可用性对控制器和集群仲裁集群1Epsilon234glFl IliIpj节点2.节点3或节点4出现故障会使集群进入无仲裁状态图5
26、移动Epsilon以保持集群仲裁如果节点2或节点4出现故阵,集群仍保持有仲裁状态.集群保持仲裁意味着,如果高可用性对的一方处于运行状态并能处理I/O请求,即可正常提供数据。例如,节点1、节点2、节点3和节点4是一个由四个节点组成的集群;节点1和节点3故障转移到各自的配对节点,而节点4持有Epsilono集群将保持仲裁,并且所有数据均可使用。配置有故障转移组的网络接口将故障转移到相应的无故障节点。对于处于无仲裁状态的集群,其预期行为各不相同。配置将处于锁定状态,在集群恢复仲裁状态之前,无法更改集群配置。所接管的存储上的数据可供使用(如果已连接到已故障转移的节点)。双节点集群不具有Epsilon
27、的概念,这种情况下必须启用一个称为集群高可用性的特殊选项。这样,可以持续监控节点的状态;如果任一节点关闭,则剩余节点具有对所有存储、逻辑接口和管理功能的完全读写访问权限。高可用性对控制器配置和无限卷使用无限卷的集群采用相同的高可用性对控制器配置。对于使用无限卷的集群,在发生计划内和计划外事件时,高可用性对控制器仍可提供高可用性故障转移故障恢复能力。2.7 高可用性对控制器网络概述高可用性对中的每个节点都有一个单独的网络接口。物理端口可处理文件和块协议请求。在正常运行期间,每个节点会处理通过网络层发送到存储层的请求,并将数据返回到客户端,而不依赖于配对节点。本节介绍网络层的各个组成部分,以及在接
28、管控制器之后各个端口的故障转移情况。7模式网络端口故障转移在以7-模式运行的系统中,高可用性对中的每个节点都有物理端口。网络层可以包括分层接口组和VLAN0接口组可将多个物理端口整合为一个端口。对于已分配IP地址的接口组,可以为其创建VLAN0可以为VLAN、接口组或物理端口分配IP地址。在高可用性对上,可以定义一个相应的目标用于故障转移。如果使用的是VLAN1则高可用性对中每个节点上的VLAN都必须具有相应的标记。有关7-模式网络概念的详细信息,请参见TR-3802o图6)以7模式运行的系统的网络层次结构集群模式DataONTAP网络端口故障转移存储资源网络接口虚拟化是集群模式DataONT
29、AP在架构方面的一个设计亮点。集群中一个节点上的每个网络接口都可以接收传入I/O请求,并将该请求转发给相应的存储资源。每个物理端口都分配有逻辑接口。逻辑接口(对于NAS)具有IP地址。这样,可以无中断地将LIF迁移到集群中的其他物理端口,此过程称为无中断LIF迁移。每个节点都有多个逻辑接口类型:数据、集群、节点管理、集群间及集群管理。下面的列表介绍了每种LIF类型的定义。 通过逻辑接口(LogicaIlmerfacesLIF)提供数据的节点上需要具有数据LIF0 集群LIF可将每个节点连接到集群互连网络。 节点管理LIF可通过网络接口执行管理操作。 集群间LIF可在各集群之间通信,处理复制操作
30、集群管理LIF用于管理集群。1.IF是与主端口绑定的逻辑IP接口。默认情况下,集群管理LIF以及数据LIF使用集群范围的故障转移组。通过集群范围的故障转移,可以将LIF故障转移到此组中仍然可用的任何端口。另外,数据LIF还具有定义了双节点系统的故障转移组。可以将数据和集群管理端口迁移到集群内的其他端口,SANLIF无法迁移,而且没有故障转移组。集群内LIF无法故障转移到其他节点,但可以故障转移到同一节点上的端口。在以下情况下,LIF通常会自动进行故障转移: 包含LIF的端口被设置为down。 节点丢失仲裁。 在LIF上配置了自动还原,并且主端口状态恢复为upo 在LIF上配置了自动还原,并且
31、节点恢复仲裁状态。使用VLAN和/或ifgrp可以为物理端口提供更强的故障恢复能力。下图显示网络结构中的具体分层。图7)集群模式DataONTAP的网络层次结构2.8高可用性对和基础架构故障恢复能力虽然高可用性对控制器配置的设计目的主要是防止出现存储控制器故障,但该配置也可解决独立存储控制器环境中其他各种单点故障(Single-Point-Of-Failure,SPOF)情形。下表总结了在高可用性对控制器配置中可能会触发故障转移的组件。此处所述的SyncMirror和多路径高可用性存储功能将在后面章节中进行介绍。表3)在高可用性对控制器配置中可能触发故障转移的硬件组件I硬件组件高可用性对控制器
32、故障转移如何消除SPOF存储控制器是(如果不具有多路径)否如果一个存储控制器发生故障,并且不具有多路径,则高可用性对控制器会自动故障转移到其配对节点,并从无故障的存储控制器提供数据。NVRAM是否如果NVRAM卡发生故障,则高可用性对控制器会自动故障转移到其配对节点,并从无故障的存储控制器提供数据。两个CPU风扇是否如果两个CPU风扇都发生故障,则受影响的存储控制器会以正常方式关闭。高可用性对控制器会自动故障转移到配对节点,并从无故障的存储控制器提供数据。多个具有虚拟接口(VirtualInterfaces,VIF)的NIC卡13高可用性对控与否器配置概述和最佳实队否如果单个网络链路发生故障,
33、则网络流星会自动通过存储控制器上的其余网络链路进行路由。在这种情况下,不需要故障转移。如果节点上的所有NIC卡或网络连接都发生故障,则高可用性对控制器会自动故障转移到配对节点,并从无故障的节点提供数据。(适用于运行DataONTAP7.1及更高版本的FAS系统。)硬件组件SPOF高可用性对控制器故障转移如何消除SPOF存储控制器是(如果不具有多路径)否如果一个存储控制器发生故障,并且不具有多路径,则高可用性对控制器会自动故障转移到其配对节点,并从无故障的存储控制器提供数据。NVRAM是否如果NVRAM卡发生故障,则高可用性对控制器会自动故障转移到其配对节点,并从无故障的存储控制器提供数据。两个
34、CPU风扇是否如果两个CPU风扇都发生故障.则受影响的存储控制器会以正常方式关闭。高可用性对控制器会自动故障转移到配对节点,并从无故障的存储控制器提供数据。多个具有虚拟接口(VirtualInterfaces,VIF)的NIC卡否否如果单个网络链路发生故障,则网络流量会自动通过存储控制器上的其余网络链路进行路由。在这种情况下,不需要故障转移。如果节点上的所有NIC卡或网络连接都发生故障,则高可用性对控制器会自动故障转移到配对节点,并从无故障的节点提供数据。(适用于运行DataONTAP7.1及更高版本的FAS系统。)如果节点上的所有NIC卡或网络连接都发生故障,则操作员可以启动向配对节点故障转
35、移的操作,并从无故障的存储控制器提供数据。(适用于运行DataONTAP7.1之前版本的FAS系统。)注意:无论是独立存储控制器还是高可用性对控制器配置,都建议客户使用多个具有VIF的NIC卡来提高网络可用性。单个NIC卡是否如果单个NIC卡或网络连接发生故障,则高可用性对控制器会自动故障转移到配对节点,并从无故障的存储控制器提供数据。(适用于运行DataoNTAP7.1及更高版本的FAS系统。)如果单个NIC卡或网络连接发生故障,则操作员可以启动向配对节点故障转移的操作,并从无故障的存储控制器提供数据。(适用于运行DataONTAP7.1之前版本的FAS系统。)磁盘架(包括背板)否否NetA
36、pp磁盘架具有双电源和双风扇,也可以为单个控制器配置双LRC/ESH,以提供双主动-主动FC-AL环路。高可用性对控制器配置有双LRC/ESH模块,以提供冗余FC-AL环路:一条活动主路径和一条指向配对节点的故障转移路径。在配置有多路径的ESH2或AT-FCX磁盘架中,具有一条活动主路径、一条活动辅助路径和两条指向配对节点的故障转移路径。磁盘架是FAS系统中最可靠的一个组件,其MTBF额定值超过200万小时(228年)oFC-AL适配器14高可用性对控W是:器配置概述和最佳实踮否如果连接到本地存储控制器节点上的磁盘的FC-AL适配器发生故障.并且未配置SyncMirror或多路径高可用性存储.
37、则存储控制器会启动向配对节点的故障转移,然后由该配对节点提供数据。(使用SyncMirror或多路径高可用性存储时无需进行故障转移。)如果连接到配对存储控制器节点上的磁盘的FC-AL适配器发生故障,并且未配置多路径高可用性存储,则会禁用故障转移功能,但两个存储控制器会继续为其各自的应用程序和用户提供数据,而不会产生任何影响或延硬件组件高可用性对控制器故障转移如何消除SPOF存储控制器是(如果不具有多路径)否如果一个存储控制器发生故障,并且不具有多路径,则高可用性对控制器会自动故障转移到其配对节点,并从无故障的存储控制器提供数据。NVRAM是否如果NVRAM卡发生故障,则高可用性对控制器会自动故
38、障转移到其配对节点,并从无故障的存储控制器提供数据。两个CPU风扇是否如果两个CPU风扇都发生故障.则受影响的存储控制器会以正常方式关闭。高可用性对控制器会自动故障转移到配对节点,并从无故障的存储控制器提供数据。多个具有虚拟接口(VirtualInterfaces,VIF)的NIC卡否否如果单个网络链路发生故障,则网络流量会自动通过存储控制器上的其余网络链路进行路由。在这种情况下,不需要故障转移。如果节点上的所有NIC卡或网络连接都发生故障,则高可用性对控制器会自动故障转移到配对节点,并从无故障的节点提供数据。(适用于运行DataONTAP7.1及更高版本的FAS系统。)如果节点上的所有NIC
39、卡或网络连接都发生故障,则操作员可以启动向配对节点故障转移的操作,并从无故障的存储控制器提供数据。(适用于运行DataONTAP7.1之前版本的FAS系统。)注意:无论是独立存储控制器还是高可用性对控制器配置,都建议客户使用多个具有VIF的NIC卡来提高网络可用性。单个NIC卡3高可用性对集群模式DataO配置整套系统。i及高可用性对控带3.1单节点到又是箱集群可扩月NTAP是一种可:逐渐扩展集群的I器配置的相应概R节点无交换方否是性犷展的存储架彳过程中,客户念。I集群(Two如果单个NIC卡或网络连接发生故障,则高可用性对控制器会自动故障转移到配对节点,并从无故障的存储启动向配对节点故障转移
40、的操作,并从无故障的存储控.醐徵蹩蟠才丽摘邢盼有版献)以及重新正只有从单节点集苕3.2双节点集用双节点集群可以方clusterHAer对于DataONTA对上启用了高可月交还操作。一:个节点,并且;湾则有必要使用;动控制器以启用:转换为双节点高F(有交换机亘.展为四个或更多able命令集从38.2,在向集群卜性功能,则无需否享有高可用,双节点集群。高可用性功能可用性对集群t无交换机)节点,而不会系统中移除集点添加节点后,:重薪启动。启整触皤轻髓蒯镜雌稻徽减社主防凝要曲,奇跟厘ESH模块,以提供7到西移照蝴点羊羸裙用性。Epsilor定值超过200万小T终其优先。右而奏小I可性皮叼取厚耨懒僦要向
41、集群添加额外的脾涮用崛数揶蒯被鼬M。漓帝嬲傀制器配置有双LRC/C余FC-AL环路:一条活动主路径的故障转移路径。在配置有多路径瀛藕使用将分配给站点标识号最低的节点。MASiaii时(228年)FC-AL适配器15高可用性对控W是J器配置概述和最佳实附否如果连接到本地存储控制器节点上的磁盘的FC-AL适配器发生故障.并且未配置SyncMirror或多路径高可用性存储.则存储控制器会启动向配对节点的故障转移,然后由该配对节点提供数据。(使用SyncMirror或多路径高可用性存储时无需进行故障转移。)如果连接到配对存储控制器节点上的磁盘的FC-AL适配器发生故障,并且未配置多路径高可用性存储,则
42、会禁用故障转移功能,但两个存储控制器会继续为其各自的应用程序和用户提供数据,而不会产生任何影响或延4可满足各种业务需求的高可用性对解决方案在实施新解决方案之前,应根据最佳实践来评估业务需求。因此,在了解了高可用性对控制器配置如何提高数据可用性之后,我们可以分析一下业务需求。 环境具有哪些业务需求? 在可用的高可用性对控制器解决方案方面,存在哪些业务需求? 应用程序服务器的超时窗口是多长时间? 客户端的超时窗口是多长时间? 数据基础架构中存在哪些单点故障情况?以下章节将帮助您根据客户环境的需求来选择适当的可用性解决方案。4.1 选择满足业务需求的高可用性对解决方案各种不同的高可用性对控制器解决方
43、案可提供不同程度的故障恢复能力。在选择高可用性对控制器解决方案时,根据客户的业务需求来对每个解决方案进行评估是一种简明清晰的途径。以下小节定义的四个层次可帮助客户确定其业务需求。高可用性对控制器解决方案、功能、限制和客户端交互在第3.2节“高可用性对控制器解决方案的类型”中介绍。尽管高可用性对控制器能解决许多数据可用性业务需求,但要实现全面的无中断操作,需要将其他解决方案与高可用性对控制器技术结合使用。这是评估任何高可用性解决方案时的一个关键计划步骤,也是构建高可用性系统时需要考虑的事项。第1层:任务关键型任务关键型环境支持需求量高的服务,以及一旦发生中断会使客户损失大量收入的服务。例如,联机
44、事务处理(OnlineTranSaCtionPrOCeSSing,OLTP)、批量事务处理以及某些虚拟化和云环境。这一数据可用性层可优先对前台(客户端应用程序)流量进行I/O响应,以便让相关应用程序保持正常运行。在性能降级的情况下,使前台I/O优先于更正I/O会增加完成更正操作所需的时间。这会增加完成更正操作前系统发生其他故障的风险;例如,在完成现有重建操作之前发生其他驱动器故障。第2层:业务关键型业务关键型环境通常需遵守合规性要求,尽管保持客户端对存储系统的访问很重要,但数据丢失会给客户带来严重不利影响。任何客户都不希望丢失数据,但是如果客户被发现不合规,他们将承担相应的法律责任并受到重罚。
45、此配置还可以保护公司的知识产权。具体示例包括病历、软件源代码以及电子邮件。这一层将优先处理更正I/O,同时与前台I/O达到平衡。在性能降级的情况下,如果使更正I/O优先于前台I/O,将会增加对前台I/O性能的影响。第3层:存储库存储库环境用于存储对于业务运营不重要的协作数据或用户数据。例如,科研和工程计算数据、工作组协作以及用户主目录。该层是用来在前台操作与更正操作(如果需要)之间寻求平衡的中间地带。对于这些配置,通常使用默认值即可。第4层:归档归档环境最初需载入(写入)大量数据,但这些数据很少访问。系统利用率应该不会很高。由于很少访问这些数据,因此充分利用子系统功能来运用这些数据以实现持续完
46、整性非常重要。如果保持数据完整性是优先考虑事项,这些配置会优先处理更正I/O并最大程度地缩短更正操作的完成时间。具体示例包括备份和恢复、归档、近线以及引用数据。表4)根据业务需求建议采用的高可用性对解决方案硬件组件高可用性对控制器故障转移如何消除SPOF存储控制器是(如果不具有多路径)否如果一个存储控制器发生故障,并且不具有多路径,则高可用性对控制器会自动故障转移到其配对节点.并从无故障的存储控制器提供数据。NVRAM是否如果NVRAM卡发生故障,则高可用性对控制器会自动故障转移到其配对节点,并从无故障的存储控制器提供数据。两个CPU风扇是否如果两个CPU风扇都发生故障,则受影响的存储控制器会以正常方式关闭,高可用性对控制器会自动故障转移到配对节点,并从无故障的存储控制器提供数据。多个具有虚拟4曲桶睛可下施幽可用性财招嶙峭展),5客户端提供数据。可能使用Troika中的数据。每个车此高可用性对控带必须在每个存-互连卡负相同,而指南,以此配置中的两否得对控制器制器配置包含两一组用于配对存两个节点通过匹或ServerNet五点都会持续监控J器配置的配置要储控制器上安装要在各个配对节n必须安装在存彳了解插槽分配情;个节点都必须连否组光纤通道、:储控制器(配配的InfiniBar酒己器)通过这其配对节点,求