一种基于可传递置信模型的分布智能体决策融合方法.doc

上传人:吴起龙 文档编号:1592017 上传时间:2018-12-26 格式:DOC 页数:11 大小:19.52KB
返回 下载 相关 举报
一种基于可传递置信模型的分布智能体决策融合方法.doc_第1页
第1页 / 共11页
一种基于可传递置信模型的分布智能体决策融合方法.doc_第2页
第2页 / 共11页
一种基于可传递置信模型的分布智能体决策融合方法.doc_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《一种基于可传递置信模型的分布智能体决策融合方法.doc》由会员分享,可在线阅读,更多相关《一种基于可传递置信模型的分布智能体决策融合方法.doc(11页珍藏版)》请在三一文库上搜索。

1、一种基于可传递置信模型的分布智能体决策融合方法doi:10.3969/j.issn.1001-3695.2010.02.010 New method to distributed agent decision fusion based ontransferable belief model FAN Bo, PU Jie-xin, LIU Gang (College of Electronic Information Engineering, Henan University of Science & Technology, Luoyang Henan 471003) Abstract:With

2、 the analysis and study of the decision in adversarial multi-robot system, this paper proposed a method to multi-agent decision fusion based on TBM. Built the architecture of decision fusion, in which designed observing agent model based on evidential reasoning, decision agent model based on TBM and

3、 decision fusion center model. Also, provided the associative algorithms. With the application and experiment in robot soccer, it is shown that this method has better performance and effectiveness for making decision in adversarial multi-robot system. Key words:multi-agent decision; information fusi

4、on; transferable belief model(TBM); evidential reasoning; robot soccer 0 引言 随着多机器人系统的不断发展,对于多机器人策略的研究变得越来越重要了,许多研究学者更关注于完善地实现多机器人策略,其中态势评估是多机器人决策系统的重要组成部分。在对抗性多机器人环境中,决策系统通过观察对方机器人的动作推测其行为目标,以当前形势及将来动作、事件的预测为基础,从而制订己方机器人的行为选择。当前的多机器人决策研究主要集中在协作多机器人领域, 机器人之间是善意的,因此这种控制方案用于对抗性机器人系统难以取得理想的效果。这些决策系统虽然也提

5、出了演绎推理、概率表示等方案1,2,但由于其本身的复杂性,在应用到实际的机器人系统,特别是对实时性要求较高的机器人足球等动态多变的领域时,这些方案都具有一定的局限性。对抗环境多机器人系统策略研究,对于多机器人的行为控制及协作有重大的意义。 针对对抗性多机器人系统环境动态多变且实时性要求高的特点,本文提出了一种基于TBM的多智能体(multi-agent)决策融合方法,在multi-agent决策融合体系架构中,通过利用证据推理设计观测agent模型;基于TBM模型的设计决策agent模型以及设计决策融合中心,给出相应的算法;最后本方法在多机器人足球比赛中进行应用及仿真试验。 1 Multi-a

6、gent决策融合模型及算法 在MAS领域中,multi-agent信息融合一直是研究的热点。Rogova等人3,4利用多agent分布式系统改进了信息融合结构,并引入了证据推理方法用于决策融合。Koes等人5构建了信息融合的多agent结构来解决高层信息融合和传感器协调。FOI Swedish Defense Research Agency的研究人员设计了基于agent的数据融合和传感器管理通用平台,建立了传感器agent和任务agent,并有效地借鉴了传统的OODA环结构来设计任务6。Knoll等人7分析了多agent网络的结构和性能,将其用于数据融合。从以上文献可以看出,多agent信息融

7、合研究主要集中在信息融合结构和分布推理,通过合理地构建体系结构,结合多agent信息协作技术对分布数据进行收集、处理和融合,从而完成决策。 1.1 Multi-agent决策融合体系架构 本文设计一种分层协调方案:环境信息由分布的观测agent进行数据采集、处理,观测agent并不是彼此进行信息分享,而是将其信息传递到决策agent,通过综合每个观测agent的局部信息,决策agent得到某个环境特征信息值,并作出对它的决策判断,决策融合中心融合所有决策agent的环境特征判断,得出全局环境的最终决策。Multi-agent决策融合体系架构如图1所示。 1.2 观测agent模型 本文利用证据

8、推理模型设计观测agent,如图2所示。假定agent i(1iI)观测并提取的环境特征信息可由一个特征向量表示:Si=(si1,si2,siNi),式中Ni表示特征向量维数。令=1,2,n是一个辨识框架,k(k=1,n)是属于模式类型k的前提。令(Si,k)表示特征向量S i与k之间的一个测度函数,并且是一个递减函数,0(Si,k)1。(Si,k)产生了一个单支置信函数3: mik(k)=(S i,k)(1) mik()=1-(S i,k)(2) mik(A)=0,Ak?鸡?(3) 如图2所示,观测agent从环境信息中提取特征向量作为输入,然后从测度函数得到辨识框架中每个前提的单支置信函数

9、;最后通过公式合成输出agent的基本置信指派:mi(1),mi(2),mi(n),mi()。 每个观测agent分别将自身获取的环境信息传递到对应的决策agent,进行下一步的协同处理。 1.3 决策agent模型 决策agent首先融合观测agent i(1 i I)所产生的置信指派。按照Dempster组合规则可以合成所有的mik,从而得到agent i的基本置信指派4: mi(k)=mikjk(1-mij)kmikjk(1-mij)+j(1-mij)(4) 依据决策系统的需要,同构观测agent的置信信息可以进行融合处理,得出综合的特征值,具体如下式组合: m(k)=cAi?鸡?Ii=

10、1Ai=km1(A1)•m2(A2)mI(AI)i=1,2,I(5) c=(Ai?鸡?Ii=1Ai?联?m1(A1)•m2(A2)mI(AI)i=1,2,I)-1 决策agent依据置信信息,采取Pignistic转换,得到对于辨识框架中每类前提k的概率分布8。 A?力? BetPk=BetP(k)=kAA?力?mc(A)A(6) 每个决策agent将自身对局部环境的概率判断传递到决策融合中心,进行下一步的全局环境决策融合处理。 1.4 决策融合中心 异构决策agent的融合,以及决策融合中心需按系统经验综合接收观测信息,是决策融合中心必须考虑的关键问题。决策融合中心模

11、型如图3所示。 决策融合中心的融合策略包括异构融合、可靠性分配以及融合处理。其中,异构融合是解决异构决策agent的信息融合;可靠性分配依据决策系统的经验信息对不同决策agent提供的信息进行折扣分析,分配不同的折扣因子;融合处理完成全局信息的决策融合。 1)异构融合 假设两个agenti、agentj有不同的相容辨识框架=i1,i2,in和=j1,j2,jm,映射:2?2?釜?是从到的一个细化。如果存在A?鸡?,B?鸡?,使得有(A)=B,那么就可以对辨识框架和的概率进行转换和传递了。令Bet1和Bet2分别为辨识框架和的Pignistic概率: B?鸡?,BetP2(B)=A?鸡?:(A)

12、=BxBetP1(A)(7) 其中:x表示A的Pignistic概率系数,可由(A)=B得出,且x=1。当没有A满足条件时,上式求和为0。 2)可靠性分配 决策融合中心如何处理不同的决策agent提供信息的可靠性,即不同的决策agent的有效值?笔者的思路是:对于有效值高的决策agent,它提供的信息赋予高的权值;而有效值低的决策agent提供的信息赋予低的权值。 在系统制定某个决策时,根据系统经验为每个决策agenti分配信息源的可靠性因子i0, 1,有 Ii=1i=1(8) 3)融合处理 令BetPi是决策agenti的Pignistic概率,并且使每个决策agent的Pignistic概

13、率都能够转换到同一个辨识框架下。令i是决策agenti的可靠性因子。决策融合处理如下: BetPc(k)=Ii=1BetP?联?ii(k)(9) 这样,决策融合中心就得出了辨识框架=1, 2, n中每个前提的Pignistic概率BetPc(1), BetPc(2), , BetPc(n),进行全局决策。 通过对multi-agent决策融合体系的观测agent、决策agent和决策融合中心的分析可以看出,在multi-agent决策融合系统中,每个agent有了更明确的模型和含义以及各自具体的功能。决策系统利用信息融合中的证据推理理论,得到了更有效的合成分布式系统信息的能力,并且拥有一种新的

14、决策制定方法。 2 在机器人足球中的应用 机器人足球是人工智能和机器人学研究的一个新的标准问题,它以MAS和分布式人工智能(DAI)为主要研究背景,其主要目的就是通过提供一个标准的、易于评价的比赛平台,检验并促进人工智能及相关智能机器人技术的研究与发展。作为比赛策略研究的高层问题,机器人足球赛场态势评估是一个崭新的研究课题,是开发高水平策略系统所必须解决好的关键问题。但现已开发出的大多数策略系统在赛场态势评估方面的研究还很缺乏,导致场上阵型打法比较单一,缺少策略上的机动灵活性。本文将multi-agent决策融合机器人足球比赛态势分析,实现在对抗性多机器人系统中的态势评估。本文应用平台为Sim

15、uroSot仿真比赛平台9。 机器人足球中赛场态势信息包括足球的位置信息、对手的阵型信息。足球的位置信息由agentball_ob观测,对手的阵形信息由四个观测agenti_ob分别进行观测(赛场有四个对手机器人)。 令观测agentball_ob的辨识框架为ball= 威胁,次威胁,次有利,有利。观测agentball_ob的特征向量是足球的位置坐标?Sp=x,y,根据比赛场地的特点定义四个参考向量1p、2p、3p、4p,测度函数定义为(Sp,kp)=exp(-k(dk)。这里k=1,2,3,4,k 0,dk=Sp-kp。可以得出agentbalball置信指派mball (威胁)、mbal

16、l (次威胁)、mball (次有利)、mball (有利)、mball (p);继而得出决策agentball的Pignistic概率BetPball (威胁)、BetPball (次威胁)、BetPball (次有利)、BetPball (有利)。 Agent i(i=1,2,3,4)有相同的内部结构,从对方机器人的位置信息得出它的基本置信指派。辨识框架r=进攻,平衡,防守。Agent i观测的特征向量为对方机器人i的位置坐标Si=xi,yi,根据比赛场地的特点定义两个参考向量1i、?鬲?2i,测度函数定义为(Si,ki)=exp(-k(dk)。这里k=1,2,k 0,dk=Si-ki,构

17、建agent i的模型可以得到基本置信指派:mi(进攻)mi(平衡),mi(防守),mi(r)。通过融合四个进攻对手的置信信息得出对手的整体态势评估置信值:mopp(进攻)、mopp (平衡)、mopp (防守)、mopp (r)。决策agentopp得出Pignistic概率BetPopp (进攻)、BetPopp (平衡)、BetPopp (防守)。 决策融合中心分布采用异构融合、可靠性分配、融合处理过程,得出全局Pignistic概率BetPc(威胁)、BetPc(次威胁)、BetPc(次有利)、BetPc(有利)。 3 仿真分析 在仿真试验中,本文构建了五种比赛态势,分别包括足球的位置

18、信息和对手四个进攻机器人(不包括守门员)的位置信息,如图4所示,图4中我方为从右向左进攻。 仿真分别采用三种方法对比赛态势进行决策:a)对足球的位置信息进行决策,结果如表1所示;b)对四个对手机器人位置进行信息融合,并得出决策,结果如表2所示;c)采用multi-agent决策融合进行决策,其中决策融合中心的辨识框架为威胁,次威胁,次有利,有利,参数x分别设置为0.7、0.5、0.3,可靠性因子i分别选择0.6,0.4,结果如表3所示。 表1 对足球位置信息的决策结果 赛场状态BetPball(威胁)BetPball(次威胁)BetPball(次有利)BetPball(有利) (a)0.072

19、 8560.159 9310.224 4610.542 753 (b)0.058 5790.220 6460.617 4790.103 296 (c)0.021 7590.856 9010.103 3490.017 991 (d)0.203 9530.457 6380.251 4370.086 973 (e)0.639 4090.172 9160.126 9390.060 736 表2 对四个对手机器人位置信息的决策结果 赛场状态BetPopp(进攻)BetPopp(平衡)BetPopp(防守) (a)0.049 4000.153 6750.796 925 (b)0.635 9630.286

20、9890.077 048 (c)0.111 2500.299 6990.589 052 (d)0.519 7760.358 8720.121 352 (e)0.164 8990.672 4730.162 628 表3 Multi-agent决策融合结果 赛场状态BetPc(威胁)BetPc(次威胁)BetPc(次有利)BetPc(有利) (a)0.057 5460.132 6220.261 0430.548 791 (b)0.290 5360.288 8280.346 9570.073 678 (c)0.055 4290.452 6950.237 5800.254 80 (d)0.299 88

21、70.384 2760.230 0800.085 757 (e)0.429 8170.258 0320.230 1730.081 978 由仿真结果可以看出,multi-agent决策融合的方法能更有效的判断出赛场状态的全局信息,选择合理的可靠性参数,能够产生优于单纯地判断赛场足球信息、对手位置信息的决策结果。 4 结束语 在对抗性多机器人系统中,环境状态变化的复杂性是系统决策制定的难点之一。决策的依据主要来自于环境自身的因素,但不能忽视对抗性特点对环境状态改变的影响。本文基于multi-agent的决策融合,分别利用异构的观测agent对不同的环境特征信息、对手整体特征进行处理,再分别由相应的决策agent根据不同的置信值产生概率判断,通过决策融合中心得出最终的全局判断。 本文采用观测决策决策融合的方法构建决策融合系统能够满足对抗性多机器人系统决策制定的时效性能。如何研究和发展更高效的决策融合系统需要借助于更多的理论和方法,这也是MAS发展面临的一个重要问题。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1