云计算系统实例与研究现状计算机专业毕业论文.doc

资源描述

《云计算系统实例与研究现状计算机专业毕业论文.doc》由会员分享，可在线阅读，更多相关《云计算系统实例与研究现状计算机专业毕业论文.doc（32页珍藏版）》请在三一文库上搜索。

1、云计算系统实例与研究现状摘要当今社会，PC依然是我们日常工作生活中的核心工具我们用PC处理文档、存储资料，通过电子邮件或U盘与他人分享信息。如果PC硬盘坏了，我们会因为资料丢失而束手无策。而在“云计算”时代，“云”会替我们做存储和计算的工作。“云”就是计算机群，每一群包括了几十万台、甚至上百万台计算机。“云”的好处还在于，其中的计算机可以随时更新，保证“云”长生不老。Google就有好几个这样的“云”，其他IT巨头，如微软、雅虎、亚马逊（Amazon）也有或正在建设这样的“云”。届时，我们只需要一台能上网的电脑，不需关心存储或计算发生在哪朵“云”上，但一旦有需要，我们可以在任何地点用任何设备

2、，如电脑、手机等，快速地计算和找到这些资料。我们再也不用担心资料丢失。云计算（cloud computing，分布式计算技术的一种，其最基本的概念，是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术，网络服务提供者可以在数秒之内，达成处理数以千万计甚至亿计的信息，达到和“超级计算机”同样强大效能的网络服务。最简单的云计算技术在网络服务中已经随处可见，例如搜寻引擎、网络信箱等，使用者只要输入简单指令即能得到大量信息。未来如手机、GPS等行动装置都可以透过云计算技术，发展出更多的应用服务。进一步的

3、云计算不仅只做资料搜寻、分析的功能，未来如分析DNA结构、基因图谱定序、解析癌症细胞等，都可以透过这项技术轻易达成。稍早之前的大规模分布式计算技术即为“云计算”的概念起源云计算时代，可以抛弃U盘等移动设备，只需要进入Google Docs页面，新建文档，编辑内容，然后，直接将文档的URL分享给你的朋友或者上司，他可以直接打开浏览器访问URL。我们再也不用担心因PC硬盘的损坏而发生资料丢失事件。针对云计算这样一个范畴综述了当前云计算所采用的技术，剖析其背后的技术含义以及当前云计算参与企业所采用的云计算实现方案。云计算包含两个方面的含义：一方面是底层构建的云计算平台基础设施，是用来构造上层应用程

4、序的基础；另外一方面是构建在这个基础平台之上的云计算应用程序。主要是针对云计算的基础架构的研究与实现状况给出综述，对于云计算的应用也有所涉及。云计算有 3 个最基本的特征：第 1 个是基础设施架构在大规模的廉价服务器集群之上；第二是应用程序与底层服务协作开发，最大限度地利用资源；第 3 个是通过多个廉价服务器之间的冗余，通过软件获得高可用性。云计算达到了两个分布式计算的重要目标：可扩展性和高可用性。可扩展性表达了云计算能够无缝地扩展到大规模的集群之上，甚至包含数千个节点同时处理。高可用性代表了云计算能够容忍节点的错误，甚至有很大一部分节点发生失效也不会影响程序的正确运行。通过此文可以了解云计算

5、的当前发展状况以及未来的研究趋势。关键词：云计算；分布式基础架构；分布系统范例31目录毕业设计论文1摘要2目录4第1章绪论51.1 云计算的概念51.2 云计算发展现状81.3 云计算实现机制10第2章云计算主要应用1221亚马逊网站（A，下称亚马逊）1223 Salesforce1324微软公司1324谷歌公司（Google，下称谷歌）14241Google云计算原理142.1 Google文件系统GFS152.1.1 系统架构162.1.2 容错机制192.1.3 系统管理技术202.2 并行数据处理MapReduce212.2.1 产生背景212.2.2 编程模型222.2.3 实现

6、机制23参考文献33致谢34第1章绪论很少有一种技术能够像“云计算”这样，在短短的两年间就产生巨大的影响力。Google、亚马逊、IBM和微软等IT巨头们以前所未有的速度和规模推动云计算技术和产品的普及，一些学术活动迅速将云计算提上议事日程，支持和反对的声音不绝于耳。那么，云计算到底是什么？发展现状如何？1.1 云计算的概念云计算（Cloud Computing）是在2007年第3季度才诞生的新名词，但仅仅过了半年多，其受到关注的程度就超过了网格计算（Grid Computing），如图1-1所示。图1-1 云计算和网格计算在Google中的搜索趋势然而，对于到底什么是云计算，至少可以找

7、到100种解释，目前还没有公认的定义。云计算是一种商业计算模型，它将计算任务分布在大量计算机构成的资源池上，使用户能够按需获取计算力、存储空间和信息服务。这种资源池称为“云”。“云”是一些可以自我维护和管理的虚拟计算资源，通常是一些大型服务器集群，包括计算服务器、存储服务器和宽带资源等。云计算将计算资源集中起来，并通过专门软件实现自动管理，无需人为参与。用户可以动态申请部分资源，支持各种应用程序的运转，无需为烦琐的细节而烦恼，能够更加专注于自己的业务，有利于提高效率、降低成本和技术创新。云计算的核心理念是资源池，这与早在2002年就提出的网格计算池（Computing Pool）的概念非常相似

8、。网格计算池将计算和存储资源虚拟成为一个可以任意组合分配的集合，池的规模可以动态扩展，分配给用户的处理能力可以动态回收重用。这种模式能够大大提高资源的利用率，提升平台的服务质量。之所以称为“云”，是因为它在某些方面具有现实中云的特征：云一般都较大；云的规模可以动态伸缩，它的边界是模糊的；云在空中飘忽不定，无法也无需确定它的具体位置，但它确实存在于某处。之所以称为“云”，还因为云计算的鼻祖之一亚马逊公司将大家曾经称为网格计算的东西，取了一个新名称“弹性计算云”（Elastic Computing Cloud），并取得了商业上的成功。有人将这种模式比喻为从单台发电机供电模式转向了电厂集中供电的模式

9、。它意味着计算能力也可以作为一种商品进行流通，就像煤气、水和电一样，取用方便，费用低廉。最大的不同在于，它是通过互联网进行传输的。云计算是并行计算（Parallel Computing）、分布式计算（Distributed Computing）和网格计算（Grid Computing）的发展，或者说是这些计算科学概念的商业实现。云计算是虚拟化（Virtualization）、效用计算（Utility Computing）、将基础设施作为服务IaaS（Infrastructure as a Service）、将平台作为服务PaaS（Platform as a Service）和将软件作为服务Sa

10、aS（Software as a Service）等概念混合演进并跃升的结果。111云计算的特点从研究现状上看，云计算具有以下特点。1）超大规模。“云”具有相当的规模，Google云计算已经拥有100多万台服务器，亚马逊、IBM、微软和Yahoo等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。2）虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”，而不是固定的有形的实体。应用在“云”中某处运行，但实际上用户无需了解应用运行的具体位置，只需要一台笔记本或一个PDA，就可以通过网络服务来获取各种能力超强的服务。3）高可靠性。“云”使用了数据多副本

11、容错、计算节点同构可互换等措施来保障服务的高可靠性，使用云计算比使用本地计算机更加可靠。4）通用性。云计算不针对特定的应用，在“云”的支撑下可以构造出千变万化的应用，同一片“云”可以同时支撑不同的应用运行。5）高可扩展性。“云”的规模可以动态伸缩，满足应用和用户规模增长的需要。6）按需服务。“云”是一个庞大的资源池，用户按需购买，像自来水、电和煤气那样计费。（7）极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云；“云”的自动化管理使数据中心管理成本大幅降低；“云”的公用性和通用性使资源的利用率大幅提升；“云”设施可以建在电力资源丰富的地区，从而大幅降低能源成本。因此“云”具有前

12、所未有的性能价格比。Google中国区前总裁李开复称，Google每年投入约16亿美元构建云计算数据中心，所获得的能力相当于使用传统技术投入640亿美元，节省了40倍的成本。因此，用户可以充分享受“云”的低成本优势，需要时，花费几百美元、一天时间就能完成以前需要数万美元、数月时间才能完成的数据处理任务。112云计算分类云计算按照服务类型大致可以分为三类：将基础设施作为服务IaaS、将平台作为服务PaaS和将软件作为服务SaaS，如图1-2所示。图1-2 云计算的服务类型IaaS将硬件设备等基础资源封装成服务供用户使用，如亚马逊云计算AWS（Amazon Web Services）的弹性计算云E

13、C2和简单存储服务S3。在IaaS环境中，用户相当于在使用裸机和磁盘，既可以让它运行Windows，也可以让它运行Linux，因而几乎可以做任何想做的事情，但用户必须考虑如何才能让多台机器协同工作起来。AWS提供了在节点之间互通消息的接口简单队列服务SQS（Simple Queue Service）。IaaS最大的优势在于它允许用户动态申请或释放节点，按使用量计费。运行IaaS的服务器规模达到几十万台之多，用户因而可以认为能够申请的资源几乎是无限的。同时，IaaS是由公众共享的，因而具有更高的资源使用效率。PaaS对资源的抽象层次更进一步，它提供用户应用程序的运行环境，典型的如Google A

14、pp Engine。微软的云计算操作系统Microsoft Windows Azure也可大致归入这一类。PaaS自身负责资源的动态扩展和容错管理，用户应用程序不必过多考虑节点间的配合问题。但与此同时，用户的自主权降低，必须使用特定的编程环境并遵照特定的编程模型。这有点像在高性能集群计算机里进行MPI编程，只适用于解决某些特定的计算问题。例如，Google App Engine只允许使用Python和Java语言、基于称为Django的Web应用框架、调用Google App Engine SDK来开发在线应用服务。SaaS的针对性更强，它将某些特定应用软件功能封装成服务，如Salesforc

15、e公司提供的在线客户关系管理CRM（Client Relationship Management）服务。SaaS既不像PaaS一样提供计算或存储资源类型的服务，也不像IaaS一样提供运行用户自定义应用程序的环境，它只提供某些专门用途的服务供应用调用。需要指出的是，随着云计算的深化发展，不同云计算解决方案之间相互渗透融合，同一种产品往往横跨两种以上类型。例如，Amazon Web Services是以IaaS发展的，但新提供的弹性MapReduce服务模仿了Google的MapReduce，简单数据库服务SimpleDB 模仿了Google的Bigtable，这两者属于PaaS的范畴，而它新提供

16、的电子商务服务FPS和DevPay以及网站访问统计服务Alexa Web服务，则属于SaaS的范畴。1.2 云计算发展现状由于云计算是多种技术混合演进的结果，其成熟度较高，又有大公司推动，发展极为迅速。Google、亚马逊、IBM、微软和Yahoo等大公司是云计算的先行者。云计算领域的众多成功公司还包括VMware、Salesforce、Facebook、YouTube、MySpace等。亚马逊研发了弹性计算云EC2（Elastic Computing Cloud）和简单存储服务S3（Simple Storage Service）为企业提供计算和存储服务。收费的服务项目包括存储空间、带宽、CP

17、U资源以及月租费。月租费与电话月租费类似，存储空间、带宽按容量收费，CPU根据运算量时长收费。在诞生不到两年的时间内，亚马逊的注册用户就多达44万人，其中包括为数众多的企业级用户。Google是最大的云计算技术的使用者。Google搜索引擎就建立在分布在200多个站点、超过100万台的服务器的支撑之上，而且这些设施的数量正在迅猛增长。Google的一系列成功应用平台，包括Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。采用Google Docs之类的应用，用户数据会保存在互联网上的某个位置，可以通过任何一个与互联网相连的终端十分便利地访问和共享这些数据。目前，Googl

18、e已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序。Google值得称颂的是它不保守，它早已以发表学术论文的形式公开其云计算三大法宝：GFS、MapReduce和Bigtable，并在美国、中国等高校开设如何进行云计算编程的课程。相应的，模仿者应运而生，Hadoop是其中最受关注的开源项目。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台，为客户带来即买即用的云计算平台。它包括一系列自我管理和自我修复的虚拟化云计算软件，使来自全球的应用可以访问分布式的大型服务器池，使得数据中心在类似于互联网的环境下运行计算。IBM正在与17个欧洲

19、组织合作开展名为RESERVOIR的云计算项目，以“无障碍的资源和服务虚拟化”为口号，欧盟提供了1.7亿欧元作为部分资金。2008年8月，IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造，并计划2009年在10个国家投资3亿美元建设13个云计算中心。微软紧跟云计算步伐，于2008年10月推出了Windows Azure操作系统。Azure（译为“蓝天”）是继Windows取代DOS之后，微软的又一次颠覆性转型通过在互联网架构上打造新云计算平台，让Windows真正由PC延伸到“蓝天”上。Azure的底层是微软全球基础服务系统，由遍布全球的第四代数据中心构成。目前，

20、微软已经配置了220个集装箱式数据中心，包括44万台服务器。在我国，云计算发展也非常迅猛。2008年，IBM先后在无锡和北京建立了两个云计算中心；世纪互联推出了CloudEx产品线，提供互联网主机服务、在线存储虚拟化服务等；中国移动研究院已经建立起1024个CPU的云计算试验中心；解放军理工大学研制了云存储系统MassCloud，并以它支撑基于3G的大规模视频监控应用和数字地球系统。作为云计算技术的一个分支，云安全技术通过大量客户端的参与和大量服务器端的统计分析来识别病毒和木马，取得了巨大成功。瑞星、趋势、卡巴斯基、McAfee、Symantec、江民、Panda、金山、360安全卫士等均推出

21、了云安全解决方案。值得一提的是，云安全的核心思想，与早在2003年就提出的反垃圾邮件网格非常接近。2008年11月25日，中国电子学会专门成立了云计算专家委员会。2009年5月22日，中国电子学会隆重举办首届中国云计算大会，1200多人与会，盛况空前。2009年11月2日，中国互联网大会专门召开了“2009云计算产业峰会”。2009年12月，中国电子学会举办了中国首届云计算学术会议。2010年5月，中国电子学会将举办第二届中国云计算大会。1.3 云计算实现机制图1-3 云计算技术体系结构云计算技术体系结构分为四层如图1-3：物理资源层、资源池层、管理中间件层和SOA（Service-Orien

22、ted Architecture，面向服务的体系结构）构建层。物理资源层包括计算机、存储器、网络设施、数据库和软件等。资源池层是将大量相同类型的资源构成同构或接近同构的资源池，如计算资源池、数据资源池等。构建资源池更多的是物理资源的集成和管理工作，例如研究在一个标准集装箱的空间如何装下2000个服务器、解决散热和故障节点替换的问题并降低能耗。管理中间件层负责对云计算的资源进行管理，并对众多应用任务进行调度，使资源能够高效、安全地为应用提供服务。SOA构建层将云计算能力封装成标准的Web Services服务，并纳入到SOA体系进行管理和使用，包括服务接口、服务注册、服务查找、服务访问和服务工作

23、流等。管理中间件层和资源池层是云计算技术的最关键部分，SOA构建层的功能更多依靠外部设施提供。云计算的管理中间件层负责资源管理、任务管理、用户管理和安全管理等工作。资源管理负责均衡地使用云资源节点，检测节点的故障并试图恢复或屏蔽之，并对资源的使用情况进行监视统计；任务管理负责执行用户或应用提交的任务，包括完成用户任务映象（Image）的部署和管理、任务调度、任务执行、任务生命期管理等；用户管理是实现云计算商业模式的一个必不可少的环节，包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等；安全管理保障云计算设施的整体安全，包括身份认证、访问授权、综合防护和安全

24、审计等。基于上述体系结构，以IaaS云计算为例，简述云计算的实现机制，如图1-4所示。图1-4 简化的IaaS实现机制图用户交互接口向应用以Web Services方式提供访问接口，获取用户需求。服务目录是用户可以访问的服务清单。系统管理模块负责管理和分配所有可用的资源，其核心是负载均衡。配置工具负责在分配的节点上准备任务运行环境。监视统计模块负责监视节点的运行状态，并完成用户使用节点情况的统计。执行过程并不复杂，用户交互接口允许用户从目录中选取并调用一个服务，该请求传递给系统管理模块后，它将为用户分配恰当的资源，然后调用配置工具为用户准备运行环境。第2章云计算主要应用21亚马逊网站（A，下称

25、亚马逊）是以在线书店和电子零售业起家的，如今已在业界享有盛誉，不过它最新的业务却与云计算有关。两年多以前，亚马逊作为首批进军云计算新兴市场的厂商之一，为尝试进入该领域的企业开创了良好的开端。亚马逊的云名为亚马逊网络服务（Amazon WebServices，下称AWS），目前主要由4块核心服务组成：简单存储服务（Simple StorageService，S3）；弹性计算云（Elastic Compute Cloud，EC2）；简单排列服务（Simple QueuingService）以及尚处于测试阶段的SimpleDB。换句话说，亚马逊现在提供的是可以通过网络访问的存储、计算机处理、信息排队

26、和数据库管理系统接入式服务。23 Salesforce是软件即服务厂商的先驱，它一开始提供的是可通过网络访问的销售力量自动化应用软件。在该公司的带动下，其他软件即服务厂商已如雨后春笋般蓬勃而起。Salesforce的下一目标是：平台即服务。该公司正在建造自己的网络应用软件平台F，这一平台可作为其他企业自身软件服务的基础。F包括关系数据库、用户界面选项、企业逻辑以及一个名为Apex的集成开发环境。程序员可以在平台的Sandbox上对他们利用Apex开发出的应用软件进行测试，然后在Salesforce的AppExchange目录上提交完成后的代码。24微软公司在云计算的起步阶段，微软曾经历过不少周

27、折。经过几年的磨合调整之后，这个软件巨头的云计算战略终于走上了正轨。根据有些厂商的预想，未来绝大部分的IT资源都将来自云计算，但微软却并不这么认为。几个月前，微软首席软件架构师（CSA）雷;奥兹（RayOzzie）曾表示，微软的宏伟计划是“提供均衡搭配的企业级软件、合作伙伴托管服务以及云服务”。简而言之，微软将其称为“软件加服务 ”（software plus services）。微软将在今年推出的首批软件即服务产品包括Dynamics CRM Online、Exchange Online、OfficeCommunications Online以及SharePointOnline。每种产品都具

28、有多客户共享版本，其主要服务对象是中小型企业。单客户版本的授权费用在5,000美元以上。针对普通用户，微软的在线服务还包括Windows Live、Office Live和Xbox Live等。24谷歌公司（Google，下称谷歌）围绕因特网搜索创建了一种超动力商业模式。如今，他们又以应用托管、企业搜索以及其他更多形式向企业开放了他们的“云”。今年4月，谷歌推出了谷歌应用软件引擎（Google AppEngine，下称GAE），这种服务让开发人员可以编译基于Python的应用程序，并可免费使用谷歌的基础设施来进行托管（最高存储空间达 500MB）。对于超过此上限的存储空间，谷歌按“每CPU内核

29、每小时”10至12美分及1GB空间15至18美分的标准进行收费。最近，谷歌还公布了提供可由企业自定义的托管企业搜索服务计划。以谷歌为例进一步解析云计算原理。 241Google云计算原理Google拥有全球最强大的搜索引擎。除了搜索业务以外，Google还有Google Maps、Google Earth、Gmail、YouTube等各种业务，包括刚诞生的Google Wave。这些应用的共性在于数据量巨大，而且要面向全球用户提供实时服务，因此Google必须解决海量数据存储和快速处理问题。Google的诀窍在于它发展出简单而又高效的技术，让多达百万台的廉价计算机协同工作，共同完成这些前所未有

30、的任务，这些技术是在诞生几年之后才被命名为Google云计算技术。Google云计算技术具体包括：Google文件系统GFS、分布式计算编程模型MapReduce、分布式锁服务Chubby和分布式结构化数据存储系统Bigtable等。其中，GFS提供了海量数据的存储和访问的能力，MapReduce使得海量信息的并行处理变得简单易行，Chubby保证了分布式环境下并发操作的同步问题，Bigtable使得海量数据的管理和组织十分方便。本章将对这四种核心技术进行详细介绍。2.1 Google文件系统GFSGoogle文件系统（Google File System，GFS）是一个大型的分布式文件系统。

31、它为Google云计算提供海量存储，并且与Chubby、MapReduce以及Bigtable等技术结合十分紧密，处于所有核心技术的底层。由于GFS并不是一个开源的系统，我们仅仅能从Google公布的技术文档来获得一点了解，而无法进行深入的研究。文献1是Google公布的关于GFS的最为详尽的技术文档，它从GFS产生的背景、特点、系统框架、性能测试等方面进行了详细的阐述。当前主流分布式文件系统有RedHat的GFS3（Global File System）、IBM的GPFS4、Sun的Lustre5等。这些系统通常用于高性能计算或大型数据中心，对硬件设施条件要求较高。以Lustre文件系统为例

32、，它只对元数据管理器MDS提供容错解决方案，而对于具体的数据存储节点OST来说，则依赖其自身来解决容错的问题。例如，Lustre推荐OST节点采用RAID技术或SAN存储区域网来容错，但由于Lustre自身不能提供数据存储的容错，一旦OST发生故障就无法恢复，因此对OST的稳定性就提出了相当高的要求，从而大大增加了存储的成本，而且成本会随着规模的扩大线性增长。正如李开复所说的那样，创新固然重要，但有用的创新更重要。创新的价值，取决于一项创新在新颖、有用和可行性这三个方面的综合表现。Google GFS的新颖之处并不在于它采用了多么令人惊讶的技术，而在于它采用廉价的商用机器构建分布式文件系统，同

33、时将GFS的设计与Google应用的特点紧密结合，并简化其实现，使之可行，最终达到创意新颖、有用、可行的完美组合。GFS使用廉价的商用机器构建分布式文件系统，将容错的任务交由文件系统来完成，利用软件的方法解决系统可靠性问题，这样可以使得存储的成本成倍下降。由于GFS中服务器数目众多，在GFS中服务器死机是经常发生事情，甚至都不应当将其视为异常现象，那么如何在频繁的故障中确保数据存储的安全、保证提供不间断的数据存储服务是GFS最核心的问题。GFS的精彩在于它采用了多种方法，从多个角度，使用不同的容错措施来确保整个系统的可靠性。2.1.1 系统架构GFS的系统架构如图2-11所示。GFS将整个系统

34、的节点分为三类角色：Client（客户端）、Master（主服务器）和Chunk Server（数据块服务器）。Client是GFS提供给应用程序的访问接口，它是一组专用接口，不遵守POSIX规范，以库文件的形式提供。应用程序直接调用这些库函数，并与该库链接在一起。Master是GFS的管理节点，在逻辑上只有一个，它保存系统的元数据，负责整个文件系统的管理，是GFS文件系统中的大脑。Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server上，Chunk Server的个数可以有多个，它的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块，默认是64M

35、B，每一块称为一个Chunk（数据块），每个Chunk都有一个对应的索引号（Index）。图2-1 GFS体系结构客户端在访问GFS时，首先访问Master节点，获取将要与之进行交互的Chunk Server信息，然后直接访问这些Chunk Server完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流，而无数据流，这样就极大地降低了Master的负载，使之不成为系统性能的一个瓶颈。Client与Chunk Server之间直接传输数据流，同时由于文件被分成多个Chunk进行分布式存储，Client可以同时访问多个Chunk Server，从

36、而使得整个系统I/O高度并行，系统整体性能得到提高。相对于传统的分布式文件系统，GFS针对Google应用的特点从多个方面进行了简化，从而在一定规模下达到成本、可靠性和性能的最佳平衡。具体来说，它具有以下几个特点。1采用中心服务器模式GFS采用中心服务器模式来管理整个文件系统，可以大大简化设计，从而降低实现难度。Master管理了分布式文件系统中的所有元数据。文件划分为Chunk进行存储，对于Master来说，每个Chunk Server只是一个存储空间。Client发起的所有操作都需要先通过Master才能执行。这样做有许多好处，增加新的Chunk Server是一件十分容易的事情，Chun

37、k Server只需要注册到Master上即可，Chunk Server之间无任何关系。如果采用完全对等的、无中心的模式，那么如何将Chunk Server的更新信息通知到每一个Chunk Server，会是设计的一个难点，而这也将在一定程度上影响系统的扩展性。Master维护了一个统一的命名空间，同时掌握整个系统内Chunk Server的情况，据此可以实现整个系统范围内数据存储的负载均衡。由于只有一个中心服务器，元数据的一致性问题自然解决。当然，中心服务器模式也带来一些固有的缺点，比如极易成为整个系统的瓶颈等。GFS采用多种机制来避免Master成为系统性能和可靠性上的瓶颈，如尽量控制元数

38、据的规模、对Master进行远程备份、控制信息和数据分流等。2不缓存数据缓存机制是提升文件系统性能的一个重要手段，通用文件系统为了提高性能，一般需要实现复杂的缓存（Cache）机制。GFS文件系统根据应用的特点，没有实现缓存，这是从必要性和可行性两方面考虑的。从必要性上讲，客户端大部分是流式顺序读写，并不存在大量的重复读写，缓存这部分数据对系统整体性能的提高作用不大；而对于Chunk Server，由于GFS的数据在Chunk Server上以文件的形式存储，如果对某块数据读取频繁，本地的文件系统自然会将其缓存。从可行性上讲，如何维护缓存与实际数据之间的一致性是一个极其复杂的问题，在GFS中各

39、个Chunk Server的稳定性都无法确保，加之网络等多种不确定因素，一致性问题尤为复杂。此外由于读取的数据量巨大，以当前的内存容量无法完全缓存。对于存储在Master中的元数据，GFS采取了缓存策略，GFS中Client发起的所有操作都需要先经过Master。Master需要对其元数据进行频繁操作，为了提高操作的效率，Master的元数据都是直接保存在内存中进行操作；同时采用相应的压缩机制降低元数据占用空间的大小，提高内存的利用率。3在用户态下实现文件系统作为操作系统的重要组成部分，其实现通常位于操作系统底层。以Linux为例，无论是本地文件系统如Ext3文件系统，还是分布式文件系统如Lu

40、stre等，都是在内核态实现的。在内核态实现文件系统，可以更好地和操作系统本身结合，向上提供兼容的POSIX接口。然而，GFS却选择在用户态下实现，主要基于以下考虑。1）在用户态下实现，直接利用操作系统提供的POSIX编程接口就可以存取数据，无需了解操作系统的内部实现机制和接口，从而降低了实现的难度，并提高了通用性。2）POSIX接口提供的功能更为丰富，在实现过程中可以利用更多的特性，而不像内核编程那样受限。3）用户态下有多种调试工具，而在内核态中调试相对比较困难。4）用户态下，Master和Chunk Server都以进程的方式运行，单个进程不会影响到整个操作系统，从而可以对其进行充分优化。

41、在内核态下，如果不能很好地掌握其特性，效率不但不会高，甚至还会影响到整个系统运行的稳定性。5）用户态下，GFS和操作系统运行在不同的空间，两者耦合性降低，从而方便GFS自身和内核的单独升级。4只提供专用接口通常的分布式文件系统一般都会提供一组与POSIX规范兼容的接口。其优点是应用程序可以通过操作系统的统一接口来透明地访问文件系统，而不需要重新编译程序。GFS在设计之初，是完全面向Google的应用的，采用了专用的文件系统访问接口。接口以库文件的形式提供，应用程序与库文件一起编译，Google应用程序在代码中通过调用这些库文件的API，完成对GFS文件系统的访问。采用专用接口有以下好处。1）降

42、低了实现的难度。通常与POSIX兼容的接口需要在操作系统内核一级实现，而GFS是在应用层实现的。2）采用专用接口可以根据应用的特点对应用提供一些特殊支持，如支持多个文件并发追加的接口等。3）专用接口直接和Client、Master、Chunk Server交互，减少了操作系统之间上下文的切换，降低了复杂度，提高了效率。2.1.2 容错机制1Master容错具体来说，Master上保存了GFS文件系统的三种元数据。1）命名空间（Name Space），也就是整个文件系统的目录结构。2）Chunk与文件名的映射表。3）Chunk副本的位置信息，每一个Chunk默认有三个副本。首先就单个Master

43、来说，对于前两种元数据，GFS通过操作日志来提供容错功能。第三种元数据信息则直接保存在各个Chunk Server上，当Master启动或Chunk Server向Master注册时自动生成。因此当Master发生故障时，在磁盘数据保存完好的情况下，可以迅速恢复以上元数据。为了防止Master彻底死机的情况，GFS还提供了Master远程的实时备份，这样在当前的GFS Master出现故障无法工作的时候，另外一台GFS Master可以迅速接替其工作。2Chunk Server容错 GFS采用副本的方式实现Chunk Server的容错。每一个Chunk有多个存储副本（默认为三个），分布存储在

44、不同的Chunk Server上。副本的分布策略需要考虑多种因素，如网络的拓扑、机架的分布、磁盘的利用率等。对于每一个Chunk，必须将所有的副本全部写入成功，才视为成功写入。在其后的过程中，如果相关的副本出现丢失或不可恢复等状况，Master会自动将该副本复制到其他Chunk Server，从而确保副本保持一定的个数。尽管一份数据需要存储三份，好像磁盘空间的利用率不高，但综合比较多种因素，加之磁盘的成本不断下降，采用副本无疑是最简单、最可靠、最有效，而且实现的难度也最小的一种方法。GFS中的每一个文件被划分成多个Chunk，Chunk的默认大小是64MB，这是因为Google应用中处理的文件

45、都比较大，以64MB为单位进行划分，是一个较为合理的选择。Chunk Server存储的是Chunk的副本，副本以文件的形式进行存储。每一个Chunk以Block为单位进行划分，大小为64KB，每一个Block对应一个32bit的校验和。当读取一个Chunk副本时，Chunk Server会将读取的数据和校验和进行比较，如果不匹配，就会返回错误，从而使Client选择其他Chunk Server上的副本。2.1.3 系统管理技术严格意义上来说，GFS是一个分布式文件系统，包含从硬件到软件的整套解决方案。除了上面提到的GFS的一些关键技术外，还有相应的系统管理技术来支持整个GFS的应用，这些技术

46、可能并不一定为GFS所独有。1大规模集群安装技术安装GFS的集群中通常有非常多的节点，文献1中最大的集群超过1000个节点，而现在的Google数据中心动辄有万台以上的机器在运行。那么，迅速地安装、部署一个GFS的系统，以及迅速地进行节点的系统升级等，都需要相应的技术支撑。2故障检测技术GFS是构建在不可靠的廉价计算机之上的文件系统，由于节点数目众多，故障发生十分频繁，如何在最短的时间内发现并确定发生故障的Chunk Server，需要相关的集群监控技术。3节点动态加入技术当有新的Chunk Server加入时，如果需要事先安装好系统，那么系统扩展将是一件十分烦琐的事情。如果能够做到只需将裸机

47、加入，就会自动获取系统并安装运行，那么将会大大减少GFS维护的工作量。4节能技术有关数据表明，服务器的耗电成本大于当初的购买成本，因此Google采用了多种机制来降低服务器的能耗，例如对服务器主板进行修改，采用蓄电池代替昂贵的UPS（不间断电源系统），提高能量的利用率。Rich Miller 在一篇关于数据中心的博客文章中表示，这个设计让 Google 的 UPS 利用率达到99.9%，而一般数据中心只能达到92%95%。2.2 并行数据处理MapReduceMapReduce是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集（通常大于1TB）的并行运算。“M

48、ap（映射）”、“Reduce（化简）”的概念和主要思想，都是从函数式编程语言和矢量编程语言借鉴来的5。正是由于MapReduce有函数式和矢量编程语言的共性，使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。2.2.1 产生背景MapReduce这种并行编程模式思想最早是在1995年提出的，文献6首次提出了“map”和“fold”的概念，和现在Google所使用的“Map”和“Reduce”思想是相吻合的。与传统的分布式程序设计相比，MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节，还提供了一个简单而强大的接口。通过这个接口，可以把大尺度的计算自动地并发和分布执行，从而使编程变得非常容易。还可以通过由普通PC构成的巨大集群来达到极高的性能。另外，MapReduce也具有较好的通用性，大量不同的问题都可以简单地通过MapReduce来解决。MapReduce把对数据集的大规模操作，分发给一个主节点管

展开阅读全文

云计算系统实例与研究现状 计算机专业毕业论文.doc

云计算系统实例与研究现状计算机专业毕业论文.doc