贝叶斯博弈例题.doc

上传人:scccc 文档编号:12762303 上传时间:2021-12-06 格式:DOC 页数:7 大小:179.50KB
返回 下载 相关 举报
贝叶斯博弈例题.doc_第1页
第1页 / 共7页
贝叶斯博弈例题.doc_第2页
第2页 / 共7页
贝叶斯博弈例题.doc_第3页
第3页 / 共7页
贝叶斯博弈例题.doc_第4页
第4页 / 共7页
贝叶斯博弈例题.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《贝叶斯博弈例题.doc》由会员分享,可在线阅读,更多相关《贝叶斯博弈例题.doc(7页珍藏版)》请在三一文库上搜索。

1、第四课贝叶斯博弈时奇2016 年 4 月 15 BOsborne 2004.1引例夫妻之战2.假设夫有两种类型,愿惫伴随妻(y:l,愿总躲避妻(n).夫知道自己是何种 类型,但妻不知道,她只知道夫是这两种类型的槪率各占一半.表1:夫妻之战2(b)大哩盘稣避tf1#3,10,00,01,3夫芭蒂足球芭蕾足球3,00,30,11,0芭蒂 足球夫芭蕾足球#夫妻之战3.假设有四种状态:M 夫妻都愿意伴随对方;(切)妻愿意伴随夫,夫躲避妻;(33)妻躲避夫,夫愿意伴随夫;(34)夫妻都躲避对方已知这四种状态的先验槪率为共同知识,为|, L但夫妻双方(/ = W(ife)fH(usband)都只能观察到自

2、己是否愿意伴随对方(如果是,则其类型为期如果否,则其类型为仏, 其中23贝叶斯更新#表2:夫妻之战2(a)(b) Ofg3,10,00,01,3芭蕾 足球夫芭蕾足球3,00,30,11,0芭蕾 足球夫芭蕾足球(d) a»40,13,01,00,3芭蕾 足球(c) 3s 夫 芭莆足球0,03,31,10,0芭蕾 足球夫芭莆足球2贝叶斯博弈一个贝叶斯博弈包含了参与人的集合N := 1,- ,n状态的集合Q,其中一个代表性元素为a 一个共同的先验信念,即各个状态发生的概率分布函数P对于每个参与人几都有行动的集合4,其中一个代表性元素为偽他可能接受到的信号的集合刀(或类型的集合),以及一个信

3、号函数h : Q T Ti一个贝努利回报函数他2)简而言之,一个贝叶斯博弈为(N, 4几(知乩5)匚)A ()=)2.1夫妻之3的正式描述3贝叶斯更新#3贝叶斯更新4n夫妻之战3” M弈包含了参与人的集合N :=VH|状态的集合n,包含了四个元素:00223041-8/1-8/1-8/5-8双方对这四种状态的共同信念为对于参与人i = W,有行动的集合4也包含了两个元素:芭蕾,足球她可能接受到的信号的集合TW :=以及一个信号函数TW(3)=ywWlVco (cUj, CU2I3 E (<V3, t4)3贝叶斯更新#3贝叶斯更新#她的贝努利冋报函数ua,o> 仙心?)=对于参与人i

4、 = H,有(芭蕾,芭蕾) (芭莆,足球) (足球,芭莆) (足球,足球)Uyfa,a> G 33*34) = (芭蕾,芭蕾)(芭莆,足球) (足球,芭蒂) (足球,足球)行动的集合Ah,包含了两个元素:芭蕾,足球他可能接受到的信号的集合Tw := (yH,nH);以及一个信号函数殆(3)=,3 e a)i,0)33 32*34他的贝努利回报函数(芭莆,芭蕾)(芭芾,足球)(足球,芭蒂)(足球,足球)e <V2,a>4)=(芭莆,芭莆)(芭芾,足球) (足球,芭蒂) (足球,足球)3贝叶斯更新.在参与人i得到信号,知道自己的类型ti之后,他可以通过贝叶斯法则,计算状态的后 验

5、分布,并进而计算其他参与人的类型的后验分布山(比)以夫妻之战3中的妻为例,如果她观察到信号纳v = Vw,她应该这样贝叶斯更新自己关于状态的信念pw仙 I yw)=Pw(<2 I ¥w)=5-85-8十1+0+01-8|十+十0十03贝叶斯更新#Pw(33 I yw)=4贝叶斯均衡60阳仙I yw)=鲁十0十0 = °-从而他如此推断对方的类型50w(yH I yw) = §5v("h I yw) =如果她观察到信号3W = mv,她应该这样贝叶斯更新自己关于状态的信念1-8阳仙 I yw)= ”屮+ 0 = 2-加仙 I yw)=屮;o + o

6、= °-阳仙i艸)=屮;o + o = 0-从而他如此推断对方的类型<pw(yH I yw) = -如("h I yw) =夫的贝叶斯更新也类似.因此,贝叶斯博弈可以视为这样一个动态过程:自然选抒一个状态3(2)每个参与人i通过信号函数观察到自己的类型th这是他的私人信息,并通过先验 概率p推断其他参与人类型的后验概率分布</>,( I h) 所有参与人同时选择行动,选择-个行动组合a := («!,- ,an) 给定所有参与人的行动组合a :=(衍,,為),每个参与人得到他的回报14贝叶斯均衡在贝叶斯博弈中,参与人i的一个纯策略为他的每个类型选

7、择一个行动,即纯策略应为 个函数 S,: T, ->4.以夫妻之战3为例,妻的纯策略为sw : yw/泊-> 芭莆,足球,那么一共有以下四种 纯策略:I. sw(yw)=芭蕾,sw(”w)=芭蕾W个釦丿人的已报马其他妙b人的类型无E这称为私人价值蟆型.II. sw(yw)=芭蕾,siv(/iw)=足球ni. Sw(yw)=足球,Sw("w)=芭蕾IV. Sw(yw)=足球,Sw("w)=足球在贝叶斯博弈中,一个策略组合s=(s;(),,s;()是一个纯策略贝叶斯纳什均衡,如 果对任意参与人i的任意类型九都有刀 0("M(s;(h),s【a); ti)

8、> 刀 咖旧"问伽s:);坊,Va, 4. f-ieT-tfeT我们可以将所有参与人的所有类型都视为一个独立的参与人,那么在一个贝叶斯均衡 中,他们都在给定其他参弓人都选样均衡策略的怜况下,堆大化白己的期望回报.求解夫妻之战3.妻子有4个纯策略,我们逐一检验是否可能构成贝叶斯纳什均衡.I. Sw(yw)=芭蕾,Siv(mv)=芭蕾先求出丈夫的最优反应./卵类型丈夫(其贝叶斯更新后的信念为(艸:|;防:訂):如果选择芭殊 则 期望回报为|1 + |1 = 1;如果选择足球,则期里回报为|o+|o = o.那么他 的最优反应为芭蕾./类型丈夫(其贝叶斯更新后的信念为(yw:|;nw

9、:|):如果选择芭蕾,则期望回报为|0+|0 = 0;如果选择足球,则期望回报为|3+|3 = 3.那么他 的最优反应为足球.这说明了丈夫的最优反应是sH(yH)=芭Sh(hh)=足球.再反过来检验妻子的 最优反应是不是sw(yw)=芭莆,Sw(Ev)=芭帯./如类型妻子(其贝叶斯更新后的信念为(yH : I;n : D):如果选择芭蒂,则 期里回报为|3+|0 = |;如果选择足球,则期望回报为|0十|1 = |.那么她 的最优反应为芭蕾./肋类型妻子(其贝叶斯更新后的信念为(如询;:訂):如果选择芭蕾,则 期望回报为|0+|3= |;如果选择足球,则期望回报为|1 + |0 = 那么她 的

10、最优反应为芭蒂.这就验证了 (Sw(yw)=芭蕾,Sw("w)=芭蕾;Sh(!/h)=芭裔Sh5h)=足球)构成 一个贝叶斯纳什均衡.II. sw(yw)=芭蕾,sw("iv)=足球略HI. sw(yw)=足球,sw("w)=芭蕾略IV. Sjv(yw)=足球,Siv(mjv)=足球略5创新小组75创新小组5.1博弈的设定 AlphaBeta创新小组有两个成员,学生1和学生2.任何一个学生的创新成果必须由两 个学生共享学生可以选择努力(E)或偷懒(S),努力需要花去成本c W (0,1),偷懒花去成本0.只要有一人努力,就一定可以取得创新成果;仅当双方都不努力,创

11、新成果才不会出现学生在创新成果中获得的收益是私人信息.每个学生的类型0,在0,1上均匀分布,M. 相互独立,其收益为年博弈的时间顺序如下:两个学生同时观察到自己的类型,然后同吋选择努力或偷懒5.2博弈的求解学生i的策略函数为句:0,1->E,S0, >切0i< 6i猜测均衡策略函数应为分段型S, ®) = J $其中0i为临界点(未知参数).设两个参与人的均衡策略函数相同,都为0i>60,<OESj(G)=SI类型为©选择努力或偷懒是无差异的/努力的回报:e2-c/偷懒的期望回报:(1-0)02二者相等,得到0= 2验证当0<6,我们有护_c v (1 - 0)02,该学生的确会选择倫懒;当0>0,我们有 02-c>(l- 6)02,该学生的确会选择努力.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1