二节网格的资源管理.ppt

上传人:本田雅阁 文档编号:3106931 上传时间:2019-07-09 格式:PPT 页数:78 大小:839.03KB
返回 下载 相关 举报
二节网格的资源管理.ppt_第1页
第1页 / 共78页
二节网格的资源管理.ppt_第2页
第2页 / 共78页
二节网格的资源管理.ppt_第3页
第3页 / 共78页
二节网格的资源管理.ppt_第4页
第4页 / 共78页
二节网格的资源管理.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《二节网格的资源管理.ppt》由会员分享,可在线阅读,更多相关《二节网格的资源管理.ppt(78页珍藏版)》请在三一文库上搜索。

1、第二节 网格的资源管理,网格和集群RMS面临的不同环境,广域 分布多域 规模庞大 资源种类多 异构性更强 共享和私有共存 更多的用户,网格资源管理核心结构,网格资源管理和分配 网格资源信息服务 网格资源监控 网格资源需求描述,资源管理和分配,资源信息服务,资源监控服务,网格资源管理和分配,资源使用者的需求,希望根据自己工作活动过程,能够按照需要发现、获取和可靠地动态管理计算资源 不希望受到资源位置、资源本身的使用机制,以及计算任务操作的资源细节等干扰 不关心它们的任务在什么位置执行,中间过程如何 不关心它们的安全机制是什么 等等,多管理域协作的困难,不同地点管理域的安全机制不同,资源具有很强的

2、异构性 schedulers, hardware architectures, operating systems, file systems) 用户对远端资源特性知之甚少,也不容易获取这样的信息。 分布式环境可能出现多种不同形式的错误 multi-site computing environment, computers, networks, and subcomputations都会出现失败 在多个管理域上完成计算任务所需要的跟踪记录工作十分繁重和困难 特别是在子计算之间的关系和错误出现,网格资源管理和分配要求,可扩展 在管理方面没有集中的瓶颈 适应多种应用和管理需求 有效 能够处理大量资

3、源的管理和用户请求 灵活 可以和各种已经存在的资源管理和调度工具共同工作 灵活构架各种应用资源管理模型和结构,网格资源管理和分配任务,可扩展资源管理体系结构 规模可扩大 兼容各种现行系统 构建多种实现结构,各个结点缺乏和整个专项其它项目的沟通和交流。,网格资源管理和分配任务,全局统一管理 统一视图 用户操作多个管理域的资源,如同在一个管理域 在日常的工作中,动态地发现、请求与管理计算资源 不受资源所在地理位置不同的影响 任务运行时间的长短以及运行该任务的开销,分布多域资源,网格资源管理和分配任务(续),保持局部资源管理的自治特性 每个管理域都有自己的资源管理系统和控制策略,例如PBS,LSF等

4、 相互之间是一个平等关系,网格资源管理和分配任务(续),多种访问控制和授权机制协调 全局访问授权和局部访问授权 全局访问控制和局部访问控制 用户定义问题?网格用户和局部用户 多级访问控制? 映射?,逻辑网格管理授权中心,社区授权服务CAS,问题:一个社区给用户对大量资源集合进行访问授权 减少用户和资源提供者的负担 社区授权服务Community Authorization Service Community negotiates access to resources Resource outsources fine-grain authorization to CAS Resource on

5、ly knows about “CAS user” credential CAS handles user registration, group membership User who wants access to resource asks CAS for a capability credential Restricted proxy of the “CAS user” cred., checked by resource,社区授权服务,User,网格资源管理和分配任务(续),全局资源的联合分配 各个域的资源联合或独立工作解决一个问题,经过统一的协调和分配 一个问题的多个任务在不同管理

6、域资源上运行的联合管理和统一调度 资源的预约和联合预约 资源的事务性原则保证等,网格资源管理和分配任务(续),资源的统一公共接口 各种类型资源的操作接口不同 资源之间的相关性管理 不同级别的资源管理之间的关系,网格资源管理和分配任务(续),队列 根据属性和资源要求 优先级别 执行、等待、挂起等 策略的管理 计算环境的高级自动控制机制 多种策略,资源需求描述,资源需求的描述 表达各种资源 表达各种资源的需求 表达各种任务 综合表达能力 资源需求的描述语言 语法 属性 标记,网格资源信息服务,网格资源信息服务GIS (grid Information Services),信息服务:关于资源特性和状

7、态的元数据收集、存储、管理和服务 提供资源状况描述资料的服务 对管理网格、应用网格的操作和构建至关重要 什么样的资源是合适的? 资源发现 网格的状态是什么? 资源选择 如何优化使用资源? 用户配置和自适应调节机制 需要一个通用的基础信息服务 回答上述问题,信息服务的应用列举,调度:问题空间映射到资源空间 体系结构、操作系统,系统软件、应用软件性能、可用性、策略等 动态信息:负载以及未来资源可用性的预测 服务发现 记录虚拟组织成员可以得到的各种服务及其特征 此类服务信息的特点:信息相对稳定并且容易获得,信息服务的应用列举(续),选择最合适的拷贝(数据管理): 合适的数据往往在多个地方有拷贝,选择

8、哪一个? 依据:存储系统与网络的系统配置、即时性能与预测 自适应性保证: 应用程序与底层环境的各种组件 通过对运行的程序及其外部可用资源的监控,结合资源状态,调整应用程序的行为,达到提高效率的目的 性能诊断与故障排除: 第一步:发现异常行为 排除故障的依据:信息 信息的特点:任意性,动态性,可以由故障排除器通过启发的方式确定,有用信息的例子,计算资源的特性 IP address, software available, system administrator, networks connected to, OS version, load 网络的特性 Bandwidth and latenc

9、y, protocols, logical topology 系统的特性 Hosts, resource managers,网格环境信息服务的特点,资源信息多样,数量大 底层基础资源到上层应用和用户 资源信息来源地理位置分布 分布的状态很难获得 Complexity of global snapshot 资源信息动态变化 信息往往是过时 随时间而改变,需要有质量的数据 部件失败 服务规模大 可扩展性 低开销 多种不同的使用场景 不同的策略、不同的信息组织,etc.,网格资源信息服务的要求,提供统一、灵活的信息访问方式 访问系统及其组件的动态与静态信息 可扩展高效地访问动态数据 可以访问多个信息

10、源 信息分布维护和保持,GIS 问题: 许多信息源,多个视图,R,R,R,R,R,R,R,R,R,R,R,R,R,R,R,R,R,网格资源信息服务GIS任务,资源的信息模型 资源的特性和状态 资源之间的关系 资源信息的描述 如何描述各种资源XML,LDAP? 如何描述资源之间的关系 资源的信息存储 资源状态信息存储分布还是集中?,网格资源信息服务GIS任务,资源信息的服务 提供有关系统的动态和静态信息的统一访问 检索、查询、更新、广播等 资源状态信息对外服务 网格资源注册协议 网格资源查询协议 灵活多级分布的资源信息服务 灵活分布多域的资源管理模型,适应不同的管理模型 灵活构建所需要的信息服务

11、结构和机制 在异构和动态的网格环境中的系统配置和自适应的基础,两类信息服务器,资源描述服务 提供关于某个资源的信息 (e.g. Globus 1.1.3 GRIS). 汇集目录服务 汇集多个资源信息服务,形成信息集合 (e.g. Globus 1.1.3 GIIS). 个性化命名和索引,GIS Architecture,A,A,Customized Aggregate Directories,R,R,R,R,Standard Resource Description Services,Registration Protocol,Users,Enquiry Protocol,信息服务总体结构,传

12、统的资源信息服务不足之处。 Globus 1.1.3采用中心服务器模式的资源信息服务 网格系统的扩大,中心保存的信息越来越多,可扩展性差,一些比较动态的信息难以及时更新。 Globus目前采取了层次结构和分布式服务 各地点的资源信息服务可以分层,采用GIIS和GRIS的模型完成。 为各地点的资源信息服务增加cache的功能,缓存其他地点的信息,信息服务总体结构,允许灵活的多级别信息服务总体结构的建立 层次式的信息服务 对等式的信息服务 混合式的信息服务等 多个访问入口 多级Cache 标准的查询和注册协议 兼容各种实现方式 通用的信息模型,逻辑层次结构部署,ISI,信息服务提供者,汇集,Gra

13、ds,Gusto,协议,协议,协议,协议,汇集,汇集,更高级 汇集,更高级 汇集,资源信息模型,描述资源的特性和状态 采用OO思想建立信息模版 描述资源之间的关系 树型结构工具表示或平面结构等,C(国家),O(组织),Ou (机构),dun,ns,jn,GridCE,资源信息模版: 资源目录信息模型的基本结构树,应用,software,GridCluster,GridHost,GridLocalFS,GridRemoteFS,GridHostFile,GridHostFile,账号,C(国家)=CN(中国),O(机构)=长沙,o=北京,o=上海,ou=计算中心,ou=计算所,Jn(任务)=jo

14、b01,Sw(软件)=gcc,Hn(机器)=银河机器,Grp(小组)=GEN,Nd(结点)=node1,Cn(人员)=Tom,Ou(组织)=科大,资源信息的表示,Nd(结点)=node1,GridAdmin,举例:MPP资源信息,Objectcalss MassiveParallel Processor requires Objectclass, mpp name, / mpp 机器的主机名 integer Nodenumber,/节点个数 Nodetype,/节点类型 Topefficiency,/ 峰值性能 Operatingsystem,/操作系统, URL,/ url地址 Commun

15、icatebandwidth,/通讯带宽 Disk,/ 磁盘空间,Memory,/内存大小 Filesystem,/文件系统NFS、 Topological,/拓扑结构 Utilization,/利用率 Softwaresummary,/重要软件列表 Parallelsoftware,/ 并行软件 Compiler,/ 机器上提供的编译器 Status,/状态,既是否可用, Description,举例:用户信息,登录名字 /具有唯一性 pwd, / Priority /优先级 Expense,/计帐信息 Rersourcelimit,/全网格内的资源使用限制 UserClass,/ 用户类别

16、,正规、特殊、试用户 Setuptime,/ 用户帐号建立时间 Indate,/ 用户网格帐号的有效期 Dn Othergroup,/用户组 Authority,/用户权限,网格中的帐号状态 account /用户帐号 Name / 用户的真实名字 Email Telephonenumber,/联系电话号码 Department,/工作单位,填写方式类似于description Profession,/职业,可在一定的程度上,一个信息服务结构案例,网格信息中心,全网格的信息 (实时更新),结点信息管理器1,其它结点 备份信息 (定时更新),结点1的 局部信息 (实时更新),结点信息管理器2,结

17、点信息管理器3,其它结点 备份信息 (定时更新),其它结点 备份信息 (定时更新),结点2的 局部信息 (实时更新),结点3的局部信息(实时更新),网格资源监控,网格资源监控要求,可扩展 在监控方面没有集中的瓶颈 监控数据发送接受数据方面没有集中的瓶颈 有效 能够处理许多高容量的信息流 灵活 可以和各种已经存在的监控工具共同工作,网格资源监控任务,获取各个资源的状态 分布式计算环境中各个层面资源 资源状态的信息收集 统一集中监控每个资源的运行状态 及时识别和诊断发生故障的主机和网络 最小化主机和网络失败的影响 为系统资源管理和网格应用提供支持 分析系统性能瓶颈 预测系统运行的轨迹 对网格动态的

18、应用和资源调度提供依据 事件机制,网格监控与传统监控系统差别,Windows NT/2K 和 Unix系统中,提供完备的单机状态和性能监控,不支持远程访问。 SNMP能够提供远程访问的功能,但只提供了点对点的访问机制。 机群系统中,监控对象的地理位置相对集中决定了其简单的软件及监控对象结构不能为网格监控所用。,网格监控与传统监控系统差别,网格监控在广域范围内是可扩展的,能包容异构资源 兼容已经存在的监控工具 在命名和安全方面能和其他的网格中间件集成 适应多个管理域,网格监控信息特性,更新频繁 性能信息是随机的 数据的集成和传递必须高性能 性能度量的影响必须最小化,网格监控对象和事件表示,监控对

19、象:需要掌握运行状态的计算资源。以主机为中心,由上而下分为3类: 系统类(CPU Usuage , Memory Usuage etc.) 网络类(主机间通信延迟,数据传输的带宽,路由情况等) 应用类(Web服务器,DB服务器或其他事务服务器的运行状态),网格监控对象和事件表示,监控事件:与监控对象紧密联系,是在特定时间由特定输入触发的输出结果,每个监控对象对应3种监控事件 警告 故障 数据过期(时效性),GMA (Grid Monitor Architecture),GMA基本介绍 GMA体系结构和术语 GMA组件和接口 GMA的应用例子,GMA基本介绍,GGF Performance Wo

20、rking Group提出草稿 规范网格监控术语的定义与描述 解决网格监控工具开发的互操作性。 主要贡献是提出Producer/Comsumer模型和Event Subscribe的数据传送方式,GMA体系结构和术语,GMA体系结构:由三种类型的组件组成 Consumer Producers Directory Service,GMA体系结构,GMA体系结构,Producer,Directory Service (LDAP?),Consumer,1) Event publication information,2) Lookup,3) Event producer & Event schema

21、 information,5) Event data,4) Query or Subscribe,Plus security!,GMA术语,Events:命名的数据集合,可以与任何事物相关,但是一般指Memory Usage, CPU Usage, Network Usage,或者错误条件(如服务进程崩溃等); Producer(生产者):使Event Data 可用的组件; Consumer:请求或者接受Event Data 的任何进程; Directory Service:发布哪些Event Data是可用的,和哪个producer 联系以得到这些数据;,生产者/消费者间的互操作,GMA体

22、系结构支持3种在生产者/消费者之间传输数据的互操作: publish/subscribe:互操作的发起者可以是生产者,也可以是消费者 query/response:发起者必须是消费者,类似HTTP的request/reply notification(通知):发起者必须是生产者,所有互操作由生产者一步完成。,GMA 生产者和消费者协议 (1),Publish/Subscribe model Consumer can subscribe to Producer to receive a stream of events Producer can subscribe to Consumer to

23、push a stream of events Either side can unsubscribe Query model Consumer can get a single event,GMA 生产者和消费者协议 (2),Example of Consumer subscribing to latency information between two hosts.,C: 100 15 foo bar P: 6001 Success ,- continued -,简单的XML生产者和消费者协议,P: foo bar 2001-03-22T11:00:00.143 87.5 P: . mo

24、re messages . C: 6001 P: Success ,- Fin -,简单的XML生产者和消费者协议,GMA组件和接口,Directory Service producer consumer compound components,Directory Service,目录服务的作用是定位、命名和描述网格中具有结构化特征的数据,让信息消费者(users, visualization tools, programs and resource schedulers)发现信息、理解可用信息的特性。信息生产者必须能够更新信息以反映系统状态。 Directory Service包含所有可用事

25、件数据的列表,使Consumer可以发现当前可用的事件数据,数据的特性,以及应该和哪个Producer联系以获取指定类别的数据。,Directory Service(Cont.),简单来说,目录服务并不储存事件的附加数据,它只提供数据的名称、特性和位置信息。这样一来,若想获得事件的数据,首先要通过目录服务找到该事件生产者的静态信息,比如事件类型、主机地址等,然后再向该生产者发出请求获得相应数据。,Directory Service支持的功能,Add: 向目录加入记录(entry)。 Update:改变记录在目录中的状态。 Remove:从目录中删除一个记录 Search:查找事件数据,Clie

26、nt可以指定是仅仅返回一个结果、还是多个结果。,Producer,负责通过接口为Consumer提供事件数据的组件。Producers 将在目录服务中发布事件可用信息。 A given component may have multiple producer interfaces, each acting independently and sending events. The term producer is used interchangeably, and inexactly, to refer both to a single producer interface and to a

27、component that contains at least one producer interface.,Producer 支持的功能,Maintain Registration : add/update/remove directory service entry or entries describing events that the producer will send to a consumer. Corresponds to Directory Service Add,Update, and Remove. Accept Query: 接受Consumer的查询,返回一组事

28、件。,Producer 支持的功能,Accept Subscribe:接受Consumer的请求订阅。 如果订阅成功,生产者发送事件数据给消费者直到订阅被终止。 Accept Unsubscribe:接受Consumer的取消订阅。如果Consumer取消订阅,Producer应该自动取消其在任何地方的订阅。 Locate Consumer:在directory service中查找一个消费者,Producer 支持的功能,Notify(通报):发送一个单一的事件数据给消费者 Initiate Subscribe: Producer 异步开始与Consumer之间的订阅。被授权可以给Consu

29、mer传送数据。 Initiate Unsubscribe: Producer通知Consumer订阅将结束。,Producer,Producer也可以用于访问控制,容许不同等级的用户进行不同的访问。由于网格一般有多个组织来控制被监控的资源,因而会有不同的访问策略,支持不同的访问频率,对组织内外的Consumer将提供不同的性能细节。,Consumer,Consumer 是通过接口从Producer接受事件数据的任意组件。接收来自Producer的异步请求的Consumer将在目录服务中发布这一信息。 一个Consumer组件可能包含一个或多个接口,每个接口可单独从Producer接受事件数据

30、,Consumer 支持的功能,Locate Producer: Consumer向目录服务查询生产者 Initiate Query:请求从producer接收一个或者一组事件。可以设置filter表明感兴趣的部分。 Initiate Subscribe:Consumer 请求建立到producer的连接以连续接收数据。 Initiate Unsubscribe:Consumer告诉Producer关闭Subscribe。 Subscription 被删除,producer确认之后不再在这个Subscription上传送数据。,Consumer 支持的功能,Maintain Registrat

31、ion: 增加/更新/删除目录服务中有关从 producer接收的事件的记录。 Accept Notification: Consumer 接受来自Producer通知。 Accept Subscribe: Consumer接受来自希望传送数据的Producer的subscription。 Accept Unsubscribe: Consumer 接受来自Producer的取消订阅请求。 定位消息模式:在给定的事件类型中在模式库中搜索请求,Consumer 的类型,具有以下类型的Consumer: 1、Realtime monitor: 实时收集监控数据供实时分析工具使用。 2、Archive

32、r:为存档服务收集信息。收集的信息可以供历史分析。 3、 Overview monitor:从多个信息源收集事件,使用组合信息做出无法基于单个主机的数据做出的决定。,Consumer & Producer,有的组件同时既是Consumer也是Producer,事件数据源,用于构建事件的数据能从许多资源上进行收集。比如硬件/软件传感器能够收集实时的性能数据;另外,通过数据库的查询接口可以得到历史数据。如图3 完整的监控系统,比如说NWS,可以看作一个事件数据源。,事件数据源,Figure 3: Sources of Event Data,Produce and Sensor,一个Producer

33、可以关联一个传感器、一个指定主机上的所有传感器、一个给定子网的所有传感器、或者任意一组传感器。这些在GMA中没有定义,可以实现时确定。 一个Producer和Sensor的关系如下图:,Producer和Sensor的关系,GMA的应用例子,GMA Implementation Issues,System components must be fault tolerant. The data management system must adapt to changing performance conditions. All system components must scale. Monitoring data must be managed in a distributed fashion.,GMA Implementation Issues,System components must control their intrusiveness on the resources they monitor. Efficiency/ease -of-use tradeoffs for data formats should be carefully considered. Security standards are useful.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1