分布式数据中心架构发展概述.docx

资源描述

《分布式数据中心架构发展概述.docx》由会员分享，可在线阅读，更多相关《分布式数据中心架构发展概述.docx（12页珍藏版）》请在三一文库上搜索。

1、分布式数据中央架构开展概述1、数据中央开展概述3.2、为什么需要分布式数据中央 33、集中和分布式架构两种数据中央的区别 6.4、分布式架构建设的挑战 1.1.5、结束语14L数据中央开展概述什么是数据中央百度百科给出定义是：数据中央是全球协作的特定设备网络,用来在因特网络根底设施上传递、加速、展示、计算、存储数据信息.数据中央大局部电子元件都是由低直流电源驱动运行的.数据中央的产生致使人们的熟悉从定量、结构的世界进入到不确定和非结构的世界中,它将和交通、网络通讯一样逐渐成为现代社会根底设施的一局部,进而对很多产业都产生了积极影响.不过数据中央的开展不能仅凭经验,还要真正的结合实践

2、, 促使数据中央发挥真正的价值作用,促使社会的快速变革.二、为什么需要分布式数据中央说到开展,数据中央正随着各个行业的蓬勃开展而不断高速的建设着.云计算、大数据和物联网等新技术的大规模使用,让数据中央成为了医疗、政府、互联网和金融等行业建设的重点.特别是在银行、保险等领域, 数据中央由于承载核心业务,不允许任何数据中断、要求能够快速响应业务变化和具备一定的灵活性,已经成为了名副其实的“生产中央.反观数据中央,传统的集中式架构已经无法满足新时代业务的需求.而基于分布式架构的数据中央是一个和集中式架构相对应的技术体系,包括了分布式业务部署、分布式计算、存储、网络平安等多种分布式技术的集合.在传统

3、数据中央无法保证业务响应水平、连续性和灵活性,开展到达一定瓶颈的时候,分布式架构就自然成为了一种必然的选择.在早期的数据中央建设中,大多数IT建设者们并不太关注采用何种技术架构,觉得没有那么重要.数据中央的建设重点就是让承载的业务系统稳定运行,为效劳器、存储和网络设备提供一个良好的运行环境,让业务系统没那么容易“宕机即可.所以早期大局部数据中央都是烟囱式的架构设计,每个业务系统都会配置一套独立硬件设备,数据完全是割裂的,导致设备利用率非常低,资源完全无法共享.典型的“标配方案为两台高端小型机或X86效劳器做数据库效劳器双机,然后再加两台或以上应用效劳器,后端连接两台FC交换机或IPSAN交

4、换机和一台存储设备.直到现在,仍然可以看到许多招标文件中有类似的配置方案.当然,并不能说明这种配置方案不好或者不对,只能说在没有很好规划和合理利用的情况下,这样的配置会导致数据中央空间、能耗、制冷大规模增加,而且设备数量的随意增加还会严重影响运维和治理的效率.为了应对信息化的快速开展,提升设备利用率和灵活性,云计算技术被大规模推广和采用.云计算可以提供可用的、便捷的、按需的资源提供,逐渐成为了主流的数据中央架构,目前大多数行业的数据中央都已经具备了云计算的水平.除了大规模数据库等少数业务场景以外,新业务应用根本都是使用云模式进行构建,同时还有大量现有的业务应用正不断向云计算环境进行

5、迁移.将应用系统运行在虚拟化环境中似乎已经成为了一种常态.在云计算环境中,效劳器虚拟化是根本的云计算技术之一.虚拟化软件厂商正在逐步将基于物理资源的数据中央向虚拟化资源的数据中央进行转变,有效的限制了数据中央内效劳器数量和规模的增长,提升了效劳器的利用效率.同时,虚拟化系统所具备的特性极大的提升了数据中央系统的可靠性.特别在主动运维、灾备建设和故障切换等方面对数据中央的业务连续性是一种质的飞跃.在这一阶段, 虚拟化技术的大规模应用让传统数据中央在不改变集中式的架构条件下,获得了最大化的资源整合和共享,但是架构仍然没有太大的变化,更多的是一种效劳模式的转变.基于云计算架构的数据中央建

6、设已经成为主流的建设模式,但是在架构上还有很多可以改良的地方.1、基于云计算架构的数据中央只能解决单个数据中央内部的资源共享和使用等问题,无法解决资源的灵活扩展问题,资源的增加仍然是采用垂直架构.由于单个计算、存储或者网络设备都有性能上限,扩展到一定水平后必然要进行拆分,重新建设资源池, 又会形成新的资源孤岛,并没有从根本上解决数据中央的开展问题.2、随着各个行业的信息化开展,越来越多的企业需要建设多个不同地域的数据中央.比方银行业和保险业会根据银监会和保监会的要求建设灾备中央,集团企业会建设分公司分数据中央.这些数据中央如何进行统一的治理和应用,保证业务的连续性,解决业务协同问题,是对传统数

7、据中央一个巨大的挑战.基于云计算的数据中央提供更多的是一种效劳.通常情况下,我们提到云计算,指的是一种计算、存储、软件等效劳的交互和使用模式.而基于分布式架构的数据中央,更多的是指一种数据中央的计算模式,而不是一种效劳形式,它是云计算数据中央的技术根底和扩充.三、集中和分布式架构两种数据中央的区别分布式架构数据中央在技术层次上,主要包括两个概念：单个数据中央内的分布式架构和多个数据中央的分布式架构.单个数据中央内的分布式架构,主要包括分布式计算、存储、平安网络等多种分布式技术的合集.多个数据中央的分布式架构主要是指将传统多个数据中央统一整合为一个数据中央.实现业务连续性灾备,多中央运营和治理等

8、.例如：将多个不同地区,不同规模的数据中央使用统一的治理平台进行资源的统一治理,使用统一的运营平台实现统一运行.3.1 分布式计算架构根据分布式计算的定义是利用网络把成千上万台计算机连接起来,组成一台虚拟的超级计算机,完成单台计算机无法完成的超大规模的问题求解.而数据中央的分布式计算更多的是指分布式软件架构.是以分布式计算技术为根底,用于解决大规模问题的软件架构.分布式软件架构具有较好的伸缩性,特别在处理大数据问题时,分布式架构能显著提升处理速度.常见的分布式软件架构有分布式操作系统、文件系统和数据库等等.以数据库为例,传统数据中央是单个数据库为主,数据集中存储在一台效劳器或存储上,数据的处理

9、也集中在单个或多个集群节点一般为2-8个内完成.传统数据中央数据库以Oracle、Db2或者MySql为主,但是当单表数据量爆炸或者单个数据库无法承受高强度I/O时,集中式的架构是无法解决性能和数据处理瓶颈问题的.最早以前淘宝网就是使用的 Oracle数据库,而且还组建了全球最大的Oracle数据库群集,可是随着淘宝网的用户和商品信息量增加,最,更适合分布式后不得不走分布式数据库的路线.分布式架构的数据库具有灵活的体系结构的治理与限制,而且可扩展性好,也易于扩充.当然,分布式数据库也有自身的一些缺点,例如数据一致性差,网络通信开销较大,数据的存取结构比拟复杂.但是不可否认,在某些应用场景下,没

10、有分布式架构的数据库,数据就很难进行治理和建设.3.2 分布式存储架构随着数据中央业务数据的不断增加,大数据的海量数据挖掘与日志分析正逐渐成为一个主要应用场景.在面对极具弹性的存储需求和性能要求下,传统数据中央单机或者独立的SAN存储设备根本无法满足大数据处理的需要.如同数据库系统一样,独立的存储设备在性能和数据存储容量等方面都面临着一定的瓶颈.传统数据中央通常为集中式存储架构,单台SAN或IPSAN存储设备通常配置 2-8个限制器,通过存储扩展柜进行容量扩展.如果增加性能,需要增加限制器和缓存,甚至需要更换存储设备型号为高端存储.根据集中式的存储架构,单台存储的性能和扩展水平是有限的,一般达

11、不到线性扩展.随着存储容量的增加,存储的性能会先增加然后到达一定瓶颈后逐渐降低.由于一开始大量的磁盘增加会提升存储整体读写性能,但是当磁盘性能到达限制器的性能后会严重影响限制器对数据的处理和运行,性能会逐渐下降.面对海量PB级数据,如果使用传统独立SAN存储设备,要么扩展水平达不到,要么扩展水平可以到达海量 PB级别,但是容量和性能不会线性增长,而且以后存储扩容和运维本钱也非常面对数据中央越来越多的大数据业务增长需求,首先要能存得下大量数据.传统的存储系统容量是有限的,又无法跨越多个存储设备,即使利用虚拟化技术做存储资源整合,那么单位存储本钱也会非常高,而且数据处理性能有限.以Hadoop为

12、例,这是一款比拟成熟而且应用比拟多的大数据处理的分布式开源软件.其最底部是HDFS分布式存储.HDFS的设计本质就是为了大量的数据能够分布式存储而存在的.HDFS可以将数据存放在很多不同的机器上.而用户不必关心具体的数据在哪,HDFS会治理这些数据.HDFS是一个高度容错的分布式存储系统.可以分布式部署,以流式访问模式访问应用程序的数据,可以大大提升整个系统的数据吞吐量,非常适宜用于具有超大数据集的应用中,而且随着整个分布式存储系统的扩展,容量和性能会成正比进行线性增长,非常适合大数据类的业务处理和应用.基于分布式架构的数据库和存储都是未来数据中央必不可少的开展方向之一,没有分布式架构,数据中

13、央就没有水平治理大数据.3.3 分布式平安网络基于云计算技术数据中央为应用部署带来了灵活性和资源弹性配置,提升了硬件资源利用率,缩短了部署时间,但是同时也引入了新的平安问题.传统数据中央网络平安是基于平安域、平安边界的防护机制,是一套纵向平安策略,只关注业务流量的访问限制,将流量平安限制作为唯一的规划考虑因素.而虚拟化技术的大量使用使得网络边界模糊化,主要依赖横向平安策略,能够满足平安流量动态迁移到其它物理效劳器.传统基于已经难以满足虚拟化环境下的应用模式,虚拟化的效劳提供模式,使得对使用者身份、权限和行为的鉴别、限制与审计变得更加困难.这会导致许多基于传统数据中央的平安防护手段失效.在云计

14、算数据中央,多台虚拟机都在一个效劳器设备内运行,虚拟机之间通过虚拟化交换机进行连接,通信流量并没有通过外部交换设备,导致传统平安设备对这局部的流量失去监控.目前大多数虚拟化软件厂商没有在虚拟机通信的东西向流量提供高效的检测和隔离方式,如果某台虚拟机出现平安问题,可能会对相关连的资源池产生严重的平安威胁.另外,虚拟时机随时迁移到其他效劳器设备上,造成平安域边界的动态化,传统数据中央固定边界的防护手段也会失效.当虚拟机迁移到新效劳器设备上,如果新效劳器设备没有对应的平安保护策略,就可能对迁移后的虚拟机造成平安威胁.为解决云计算数据中央存在的平安问题,需要采用分布式的方式部署平安治理软件或系统.通

15、常分布式网络平安产品由集中治理平台+分布式平安治理软件组成.集中治理平台负责平安策略的集中治理,并对平安策略的迁移功能提供支持.同时接收虚拟化平安设备的日志以及统计信息,并分析整个数据中央的平安态势.平安软件是以分布式的形式部署虚拟机和虚拟化平台上,可以克服传统物理平安设备的局限,更贴近虚拟机的位置,利用引流或者重定向机制,获取所有虚拟机的流量,实现分布式的平安防护.3.4 分布式云数据中央传统数据中央为了做到业务高可用,保证业务连续数据,预防数据丧失,通过采用“同城主备/双活数据中央或者“两地三中央的架构.但是不管采用哪一种架构方案,都会产生一定的IT资源浪费问题.“主备数据中央,解决了业务

16、连续性问题,但是平时只启用一个数据中央资源,另外一个做备份.“双活数据中央,解决了业务高可用问题,但是两个数据中央需要部署和运行同样业务,同样会浪费一个数据中央的资源.“两地三中央,同时最大程度的兼顾业务和数据平安,但是IT资源浪费最严重.在分布式云数据中央概念里,多个数据中央不再是主/备或者双活的关系,而是通过云计算技术、广域网二层网络互连大二层技术和数据复制技术,将多个数据中央组建成一个分布式的跨中央和地域的“虚拟资源池.所有业务和数据都可以按需被分配到不同的数据中央,实现比“双活或者“两地三中央更优的业务部署方案.基于分布式架构的云数据中央以往可能受技术限制,难以实现.但是随着各种技术的

17、不断开展,难度已经大大降低,完全可以实现.主要考虑三个问题：业务访问网络,大二层网络和数据同步复制.业务访问网络可以通过全局负载均衡GLSB和智能 DNS实现不同区域的本地访问,使用大二层互联网络技术可以解决虚拟机迁移问题.数据同步复制可使用微效劳+容器+分布式存储复制技术解决.通过微效劳解耦业务,无状态应用使用容器通过大二层网络进行迁移,有状态应用可以跟随虚拟机进行迁移,冷数据尽量集中存储,共享访问,预防过多的数据迁移.目前已经有可以落地的方案帮助企业实现分布式架构的云数据中央.同时还可以实现数据中央资源利用率的最大化,降低运维和治理本钱,更好的保证业务的连续性.3.5 两种架构的主要区别通

18、过上述对集中式和分布式架构在资源处理水平、业务支撑水平、平安治理水平、可用性和一致性、运维和治理等多个方面的分析可以看出：集中式架构在系统复杂度、数据一致性、平安举措实施方便性和运维治理复杂度等方面有一定优势.分布式架构在资源使用本钱和扩展水平、业务部署的灵活和系统可用性等方面具有明显优势.而且集中式架构的复杂性可以通过增强治理和设计降低复杂度,平安举措那么可以通过增加平安系统和手段增强限制,数据一致性那么需要通过先进的分布式系统与大规模运维平台来支持,当然前提是需要牺牲一定的可用性,这也是分布式架构面临的一个挑战,下文我们会进行详细论述.四、分布式架构建设的挑战随着数据中央信息系统数量

19、的增加和处理数据量越来越大,分布式架构的优势会越来越明显.但是越是先进的架构所面临的挑战也就越大,由于分布式架构采用多节点设计,这种架构最大的难点是会导致数据一致性和可用性上的挑战,所有的分布式架构设计都绕不开这两个挑战.在分布式架构中,有一个非常著名的CAP理论(又被称作布鲁尔定理),定义如下：对于任何一个分布式计算系统,不可能同时满足以下三点：一致性(Consistency)、可用性(Availability )和容忍网络分区( Partitiontolerance ).一致性通常指数据一致性,即要求所有节点数据保持一致.可用性即要求每个节点在故障时都可以提供效劳.容忍网络分区,通常指各

20、个节点之间的网络通信性能.根据CAP理论,分布式系统只能满足其中两项而不可能满足全部三项.CP模型：不考虑 A 可用性,多个节点之间数据具备强一致性.如果某个节点故障,那么就将这个故障节点丢弃不考虑A,否那么会导致各个节点之间数据同步被无限延长.为了保证数据的一致性,大多数金融行业的分布式关系型数据库采用这一模型,AP模型：不考虑 C 一致性,多个节点之间要求高可用.如果某个节点故障,并与其他节点失去联系,为了保证节点的可用性,会放弃全局数据一致性不考虑C.节点访问并使用本地节点数据,各个节点数据会导致不一致.大多数非关系型的数据库采用这一模型,由于不需要高度的数据一致性.CA模型：不考虑 P

21、容忍网络分区,两个或多个节点之间要求必须具备可用性的同时又要求数据一致.如果某个节点故障,为了同时保证可用性和数据一致性,那么只能对分布式网络进行强制分区,划分成多个不同的分区来保证C和A,会导致分区被割裂.由以上几个模式可以看出,在分布式计算环境下,P是必须要现实的,否那么分布式网络节点通讯就会出现问题,所以只能在C和A之间做出选择,即选择CP模型或者 AP模型,实际的选择需要根据自身的业务场景来根据各个不同的模型特点进行取舍.对于一些离线的应用或者对可用性要求不高的业务,可以采用CP模型.这一类模型相对简单,但是应用场景也有限.例如日志数据分析系统,大局部数据都在本地,我们只需要在分布式架构中配置一定的冗余节点和恢复机制即可.如果某个节点出现故障,分析系统会自动等待其他备用节点恢复后再继续运行,由于短时间停止不会对系统产生太多影响,但是各个节点分析的数据要求必须保持一致性.在数据中央,核心系统和重要业务系统占比拟大,如果采用分布式架构,可能即需要高用性也要求数据一致性,这是分布式架构设计最大的一个挑战.

展开阅读全文