为网格计算的可靠工作选择机器.ppt

资源描述

《为网格计算的可靠工作选择机器.ppt》由会员分享，可在线阅读，更多相关《为网格计算的可靠工作选择机器.ppt（40页珍藏版）》请在三一文库上搜索。

1、为网格计算的可靠工作选择机器 oCredible Worker Selection Mechanism for Grid Computing 摘要 o随着网络的高速发展，网格计算的概念开始浮现。有效的网格工人选择机制是对有效网格计算非常重要的，因为每个网格里面的工作者都是不同种类的。在本文中，我们提出了选择可靠的机器工作者的方法最大化网格计算，是利用合理的为每个计算者分配任务。不同的工人能够被网格计算软件有效的利用，通过工人可信度的过程队列。一开始，网格中工人的可信度只由一些静态的参数决定，例如 CPU的速度，内存大小，存储能力和网络带宽。后来，队列被动态信息优化，例如失败率，

2、任务完成后时间提供，和正确的返回值。在试验中，我们发现我们所提出的机制能够提高网格计算效率和高可信度。 1绪论 o应用软件程序要求大规模计算和高资源能力这几年发展得很快，随后出现了一个思想就是利用地理区域分散的数量庞大的计算机去完成这些任务。随着网格中间设备，高速连接地理上分散计算机，已经被发展了。基于网格概念的使用工具已经成为可能。典型的网格计算中间件是Globus Toolkit，为了解决网格计算中的巨大问题，网格工人发现空闲的资源，网格表为每个网格工人分配任务，网格安全器负责系统的稳定，网格使用者计算所需要使用的必要的资源。 o由于实际中的原因，包括工人失败，新工人注册

3、，在网格计算中的共存的执行工人，网格工人的不断变化，所以，有效的网格工人选择机制对完成可靠的网格计算系统是非常重要的因为每个参与网格计算的工人都是不同的。这个选择机制就是一种各种形式的适当的网格工人的任务匹配的方法。首先，很多网格工人被只用静态的信息连接起来，例如硬件能力，队列，然后用适当的任务匹配。第二，每个工人的最初结果被用来更新工人队列，然后去适合将来所要分配的任务。任务安排表算法必须是能够被扩展的，然后能够有效的处理个种类型的网格计算系统的动态学错误。在本文中，一个机制估计得到结果要多少时间，从信息中传递任务的达到，用心跳信号检测存活的网格工人被发展了。 2相关工作 o

4、反向向导主工人结构用历史信息关于每个网格工人的活动信息被提出。结构的完全工人和递送信息在网格计算系统中是很有效的。每个主人分配任务考虑到每个工人队列或者任务特点，不断更新工人队列考虑的信息动态，然后用再次使用他们为将来任务做准备。 o在本文中，有效地处理每个工人的可信度，我们提出一个新的分等级的工人结构，如图1所示，利用投票和抽样算法，这2个是一种分组机制用来测量结果的正确性，是在同时间间隔中测量结果的正确性和任务分配之后 o为了避免唤醒工人的坏的信息，这个方法要求返回的正确的结果，需要每个工人都返回正确的结果，这是必须的。一般的做法是使用容错技术增加正确性，用奇偶校验或

5、者校验和算法，但是我们用投票和点校验策略因为前者是故意攻击的一个弱点。然而，先前的投票和点校验算法被用来区分有错误的工人，只有当工人的表现有坏的信息的时候。网格计算系统出现错误的可能性是一般发生在特定组合里面的任务分配，判断每个工人的返回值的正确性。 o有一个算法，是要求任务完成的时间的，它是随机分配任务去每个网格工人评估。然而，因为所请求的资源有限，很多时候是不能很好匹配的。同时，它还有一个缺点，这个缺点是不能够计算工人们最好的负荷量因为它有不同标准的混合结构，同时安排表只允许ROUND-ROBIN方法。有一个智能算法，叫蚂蚁算法，它利用历史信息分配计算资源，这个资源叫做信息素

6、。信息素被表示为历史信息，是一个中间匹配资源的中间值，它是利用先前资源收集和传递的信息。然而，正确或错误的任务结果的判断机制是不能用的，而且只考虑更新信息素的正确性，排除动态元素，例如失败率和翻转时间。 o在本文中，我们设计一个可靠的工人选择机制使网格计算表现最大化，用合理的任务分配机制。换一句话说，这个提出的机制考虑队列中的每个网格工人的可信度基于静态和动态信息的历史信息素。首先，网格工人的可靠度只依靠一些静态信息，例如CPU频率，内存大小，存储能力和网络带宽。然后，队列被动态因素更新，例如失败率，任务完成后的翻转时间。 3网格计算体系结构 o我们才用分等级的主控工人结构，这个

7、比以前的结构先进的结构。图1显示了主控和工人间的关系。主控只能分辨比它下一级的工人任务分配给第一级的工人和整合工人收集上来的结果，这些工人是完成任务的工人。工人能够成为扩展后的主控。假定一个任务能够被分成许多小的部分，每个节点作为一个工人一旦传递任务就是给它下一级的工人。 3.1工人注册和可信队列管理 o一个网络中愿意加入网格计算的候选的工人由注册过程连接到主控机（如图2所示）。工人必须记录它自己的静态信息连接给主控机。主控机利用被控机的注册信息。主控机用基于排列输出量分配相同的任务，和从正确的结果中刷新工人的可信度。最后，主控机按照队列的可信度为每个工人分配任务。

8、当相同组的工人分配到任务以后，给予网格计算输出的很小的时间变化增加了。因此，全部网格工人的利用率增加了。 o图3显示了由主控节点和它的任务管理，资源管理，资源池和数据库的组成。 o3.2 工人的静态信息 o当每个工人想被注册到网格计算系统中时，我们要提供他们自己本身的系统信息给主控机。表1显示了组中工人的静态信息，这些是工人计算时的表现和计算资源更新的后的刷新。每个组中的工人由等式1表示。当一个工人在群中时，它能够被下一级工人用元素K表示。 o每个工人可能的5种状态由图4表示出来， o第I组中第J个工人的CPU，内存，存储和网络带宽信息用下面的等式2表示。 o只利用这些静

9、态信息的话，我们能够决定网格计算系统中先前一个工人在网格问题中的特征。例如，计算导向网格任务把CPU速度放在更高的位置上，和数据精度网格任务把存储能力放在更重要位置。为了表现以上的情况，我们用等式3定义在第I组中的第J个工人. 3.3 一个工人的动态信息（Dynamic Information） o工人的动态信息被用来测量结果可信度和现场校验算法和历史信息，例如失败率FAR，翻转时间TAT，和正确率CRT，用等式4表示。 o平均翻转时间ATAT和ATAT的标准背离用等式5和等式6表示反应时间的小变化网格计算结果的可能性由等式6表示。也就是说，工人组中最小标准背离是最适合

10、联合完成任务。 3.3 失败率 o失败率是工人在计算过程中可能产生的错误。我们提出的这个机制利用心跳机制去辨认工人的失败率，和决定失败率因素由图5表示。 o任务管理工具分配为每个任务分配资源然后等待结果。这个结果被适用于基于工人的点工作的暂停，工人是第一个给结果的工人，和给同组工人发送心跳。如果其他工人对确定时间间隔内心跳没有回应，那么就认为工人错误了。等式7表示了第I组第J个工人刷新了它先前的失败率的信息。 3.3.2翻转时间 o反转时间是消逝时间的持续时间的结果从一个工人到另外一个工人后开始它的工作的时间。为了获得精确的时间，网络延迟也要考虑到。图6显示了翻转时间

11、模型和它的计算方法用等式8给出 3.3.3正确性 o工人的正确性是由在相同组完成同一个任务之后比较返回值决定。由等式9给出 3.4工人可信度 o工人的动态信息是由基于失败率，翻转时间，和等式10中的每个工人的正确性计算的。 o最后，工人的可信度由等式11定义 o可信性是由最初的静态和动态信息和以后的工人不断更新增加任务所得到的结果的队列计算出的。在等式12中，新的可信性是由分解旧的总和可信度和完成所有分配任务的可信性获得。 o图7是全部网格结构开始由任务接受者插入任务过程开始，为每个工人分配任务，确认结果，和产生队列和用结果重新排列工人队列。 4 执行评估 o表2是每个工人

12、的静态信息和被使用的最初分组。 oPRI信息是由定义的所有权重计算的。表3 是一个动态信息的例子（参照等式10中的 I/O流）利用上面提到的静态。每个权值设定为：自从I/O流比 FAR和CRT大受网络条件影响之后，所以 TAT就故意设成2倍大小。表4显示了工人队列考虑了全部的动态和静态信息。 o首先，观测LAN环境中的I/O流，和表4中第3组工人排除他们不属于同一个组因素。图8是估计I/O 流时间在不同大小从100到600兆用5个工人有5到 9个队列的不同可信度。文件i/o流时间对系统可信度并没有太大的影响。没有太大的背离当分配任务给每个同组工人之后。反而，低容量的工人需要的时

13、间更短。考虑到接受和发送的网络条件，状态正确性比系统容量更好。 o图9显示了可信度的反应时间和工人数量。 o当有一定数量的参与者参与到网格计算系统和可信度提高时，有可能缩短反应时间。这个结果暗示有很多工人的投票，失败率下降和返回值的正确性增加。很难合适目标正确率在任务大小和工人系统能力之间在分配任务给获得好的回应时间，但是匹配资源用最好的能力给最大任务将能够成为最合适的匹配标准。 o失败率的影响对反应时间由图10给出。 o反应时间的在图中的变化依照不同的失败率和园罗宾算法（round-robin）。这里，失败率给出了工人匹配任务的正确性，10%的失败率意思是能够正确匹配到

14、工人的任务是90%。当失败率到30% 的时候，它显示了更好的表现，比匹配工人用园罗宾算法，和缩短反应时间是获得当更小失败率的时候。考虑可信信息例如失败率，最少比2倍于有效反应时间表现能够被达到，尽管接受失败率只有 10%。 o图11显示了正确性依照失败率和同组工人数量。 o它利用投票算法，和度量正确性在假设大量工人返回同一个值的情况下。例如，有一个组有3个工人，失败率是40%，那么有可能得到正确结果的可能性是60%。因此，增加更多工人和降低失败率，能够增加正确性。 o图12是一个表显示监视圈T依照高架M和系统可能改变能力P，它表示了最好的T假设，这个是M是由监视系统M发生能力

15、改变和P是信息可能改变，在工作过程T中。可能性更大的工人信息改变发生，一个更短的得到正确工人信息的圈。所以工人的正确性能够被T增加。 o在图13中，deadline sort and first- come first-serverd算法被考虑来比较网格计算系统的表现用我们提出的机制。 o在这次试验中，我们采用试验参数。任务相应时间从5到11秒被平均使用，和给出5个不同的先决条件。工人们被分为31组依照任务的不同性和每组由3个工人组成。这个反应时间被评估作为最快翻转时间在组中。作为这个被提出的机制利用可信度信息，它给出了跟好的反应时间表现。 5结论和更多的学习 o这个学习介绍了一个在不同的网格计算系统中选择合适的网格工人机制。这个机制制作队列和组成每个工人用静态和动态信息，和提高整个网格系统表现。作为分组标准可能在不同网格问题之间有所区别，这个排列标准需要考虑优化不同的网格条件。同时，它被计划用于确定权重依靠每个权重之间和不同应用区域之间，和不同工人和系统之间的 OEVER-HEAD。

展开阅读全文