第一章囚徒困境与纳什均衡ppt课件.ppt

上传人:本田雅阁 文档编号:2505051 上传时间:2019-04-04 格式:PPT 页数:32 大小:836.51KB
返回 下载 相关 举报
第一章囚徒困境与纳什均衡ppt课件.ppt_第1页
第1页 / 共32页
第一章囚徒困境与纳什均衡ppt课件.ppt_第2页
第2页 / 共32页
第一章囚徒困境与纳什均衡ppt课件.ppt_第3页
第3页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第一章囚徒困境与纳什均衡ppt课件.ppt》由会员分享,可在线阅读,更多相关《第一章囚徒困境与纳什均衡ppt课件.ppt(32页珍藏版)》请在三一文库上搜索。

1、第一章 囚徒困境与纳什均衡,赵国洪 13602757107 ,一、经典案例囚徒困境,经典案例囚徒困境,两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”: 如果两人都坦白则各判8年; 如果一人坦白另一人不坦白,坦白的放出去,不坦白的判15年; 如果都不坦白则各判年。 这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?,1950年,斯担福大学客座教授、数学家图克(Tucker)为形象地说明博弈过程,构造了著名的“囚徒困境”模型。,经典案例囚徒困境,从表面上看,他们应该互相合作,保持沉默。但他们不得不仔细考虑对方可能采取什么选择。 甲、乙两个人都十分精明,而且都只关

2、心减少自己的刑期,并不在乎对方被判多少年(人都是有私心的嘛)。 甲会这样推理:假如乙不招,我只要一招供,马上可以获得自由,而不招却要坐牢1年,显然招比不招好;假如乙招了,我若不招,则要坐牢15年,招了只坐10年,显然还是以招认为好。无论乙招与不招,我的最佳选择都是招认。还是招了吧。 自然,乙也同样精明,也会如此推理。,经典案例囚徒困境,“囚徒困境” 产生不良结局的原因是囚犯都基于自私的角度考虑,最终导致合作没有产生。 如果你认为对方合作,那你背叛将能得到更多的好处。反过来,如果你认为对方将背叛,那么你也有两个选择,你选择合作,那么你就是“笨蛋”;你选择背叛,就会得到“对双方背叛的惩罚”。无论对

3、方如何行动,你背叛总是好的。相同的逻辑对另一个人也同样适用。 个体的理性导致双方得到的比可能得到的少,这就是“困境”。,经典案例囚徒困境,启示1:在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。独立于对方所用策略之外的最好决策规则是不存在的。 启示2:“囚徒困境”是一些非常普遍而有趣的情形的简单抽象。在这些情形中,从个人的角度来说,背叛是最好的选择,但双方背叛会导致不甚理想的结果出现。,经典案例囚徒困境,就是说,对方背叛,你也背叛将会更好些。这意味着,无论对方如何行动,如果你认为对方将合作,你背叛能得到更多;如果你认为对方将背叛,你背叛

4、也能得到更多。你背叛总是好的。 于是两人都作出招供的选择,这对他们个人来说都是最佳的,即最符合个体理性的选择。 照博弈论的说法,这是本问题的惟一平衡点。只有在这一点上,任何一人单方面改变选择,他只会得到较差的结果。这一点就是纳什均衡(Nash Equilibrium)。,经典案例囚徒困境,纳什均衡的思想,在博弈达到纳什均衡时,局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优策略,并与其他对手达成了某种暂时的平衡。 这种平衡在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。

5、,纳什均衡的思想,再简单一点说,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。 在 “囚徒困境”变形的博弈中,A和B都坦白就是一个纳什均衡,这对双方来说都是最优选择。同时在这个博弈中,其均衡对双方来说是全局最优的。当然博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。,学生的囚徒困境,数十道“减负令”难见效 中小学生课业负担不减反增 仅1985年至2000年的15年里,中央就下达“减负令”4

6、9次。减轻中小学生过重负担喊了20多年,实际情况却是学生课业负担不但没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。为什么?,三、如何走出“囚徒困境 ” 合作是可能的吗?,促进双方合作可以从三个方面着手: (1)使得未来相对于现在更重要些; (2)改变对策者的四个可能的结果的收益值; (3)教给对策者那些促进合作的准则、事实和技能。,走出囚徒困境的三大途径,地摊、车站、旅游点,这些人群流动性大的地方,不但商品和服务质量最差,而且假货横行,因为在商家和顾客之间“没有明天”一个旅客不大可能因为你的饭菜可口而再次光临,一锤子买卖,不赚白不赚。 在公

7、共汽车上,两个陌生人会为一个坐位争吵,可如果他们认识,就会相互谦让。为什么? 在相互社会联系紧密的人际关系中,人们普遍比较注意礼节、道德 。,未来是否重要?,两个原始人见面,一个拿着兽皮,一个拿着野果,他们都想把对方的东西据为己有。如果他们的见面是偶然的,结果会如何?可如果他们都知道对方生活在附近,结果又会如何? 如果他们的见面是偶然的,可能相互抢劫; 可是如果他们都生活在附近,考虑到对方家族的报复,抢劫的风险就大了。所以他们不去打对方的主意所有权就这样产生了。如果他们确实想得到对方的东西,他们可以选择合作以物易物,交易就这样产生了。,未来是否重要?,从消极的层面看,我们互不侵犯,是为了避免没

8、完没了、两败俱伤的循环报应。,道德、法律、权力利益的划分,都与“还要见面”有关。,相邻的人互相敌对,只会两败俱伤。 两个相邻的国家,如果相互敌对,是一件非常不幸的事。它们不可能“搬家”,又不可能消灭对方(这是现代国际关系准则所不允许的),这个死结就可能缠绕它们许多年。遗憾的是,这样关系的邻国还不少,如巴以、印巴、两伊以及伊拉克和科威特。希腊和土耳其也曾经是这样的世仇,现在关系虽已缓和,但是它们之间的不信任感还是长久不能消除。 中苏交恶的年代,双方都在边境地区陈兵百万,巨大的军费开支和潜在的战争风险对两国都是重负。现在两国关系改善,互信增加,边境军事力量大大减弱,可以说是一个双赢。从这个意义上说

9、,“面向未来”不仅仅是一句外交辞令。,未来是否重要?,增大未来影响的另一方法是使接触更加频繁。在下一步接触很快就会发生的情况下,这一次合作通常更为重要。经常接触有助于促进稳定的合作。 在商业上,专业化公司趋向于限制在与少数几个公司接触以便使这种接触更加频繁。 在小城镇比在大城市容易出现合作便是因为人与人的接触更频繁。 接触更频繁也是婚姻比恋爱相对来说更稳定的原因之一。婚礼就是一个用来庆祝和促进持续关系的公共行为,对婚姻的稳定有促进作用。,增大未来的影响走出“囚徒困境”,分解(问题分解成若干的部分)是促进稳定的合作的一种有效方法。因为分解会增加接触的频率。,增大未来的影响走出“囚徒困境”,将军备

10、控制和裁军条约分解成许多阶段,这样就允许双方有更 多让步的机遇而不只是一两个让步。这样可以使回报更有效。 如果双方都知道对方的一步不合作的策略可以通过下一步的回 报来补偿,那么双方对整个过程可以按所期望的进行就更有信 心。而且,如果双方对自己识别欺骗的能力缺乏信心,那么, 有许多小的步骤比只有少数大的步骤更有助于促进合作。,在商业上,商人们喜欢一个大订单分别按每次发货时间付款, 而不愿等到最后付总账。使得当前步骤的背叛相对于整个未来 的接触过程来说不是那么有诱惑力,这是促进合作的好方法。,增大未来的影响走出“囚徒困境”,决定合作与否其实取决于一次博弈还是多次博弈.,在博弈理论中,博弈专家已经用

11、数学证明出,在无限次重复博弈的情况下,合作可能是稳固的。 如果博弈无穷次,双方就会逐渐从互相背叛走向互相合作。因为任何一次背叛都会招致对方在下一次博弈时的报复;而双方都取合作态度会带来合作收益。 但是在现实社会生活中又不完全这样,人总是要死的,因而人与人之间的博弈不是无限次的。当一个人知道他终将退出博弈时,他就可能不再害怕此后别人对他的报复,从而可以在博弈结束前做损害他人的事情,这就回复到有限次重复博弈的境况。,改变对策者的四个可能的结果的收益值,决定合作与否其实取决于一次博弈还是多次博弈.,就恋爱博弈来看,男女双方在交往的过程,随时都在博弈,因为相爱的过程中任何一个时点都是有可能分手的。用博

12、弈论的术语来说,这是一种囚徒困境的重复博弈。无数爱情故事中的悲欢离合、精彩跌宕正是这个博弈模型的表现。 素不相识一对男女的一夜情是一次性囚徒困境博弈。,增大未来的影响走出“囚徒困境”,决定合作与否其实取决于一次博弈还是多次博弈.,生活中多人博弈的现象比两人博弈更为普遍。 在多人博弈中,只有其它所有参与者在第k1次博弈中都是合作的,某个参与者才会在第k次博弈中采取合作策略。 然而,这一策略会带来一个协调问题,任何人的一个小小失误都会导致采取背叛策略的其他参与者的数量如同滚雪球一样地愈演愈烈,最终导致所有人的背叛。更糟糕的是,一旦出现这种情况,没有任何人会主动开始合作。因此,我们可以这么说,多人重

13、复囚徒困境(无论有限或无限)中稳定的合作几乎是不可能的。,供应商合作还是背叛?,某城市政府采购办公用品,每年招标,只挑选两个供应商。 政府每个月采购一次,两个供应商每个月就当月采购商品报价。 实行“价低者得”原则,如两供应商报价相同,则订单分为均等的两半,两供应商各得50%。如报价不同,则全部订单给价低者。 这两个供应商应如何报价?,供应商合作还是背叛?,两供应商相互合作,共同报一相同高价,获取最大利润,自是双方的最优策略。 两供应商共同合作了11个月,但在第12个月,两供应商知道这是今年最后一次,对方很有可能背叛。与其对方背叛,不如自己背叛。 两供应商知道第12次对方会背叛,那么第11次不如

14、我就背叛,因为第11次采用合作的态度并不会促使对方在第12次时合作。 同理,第10次、第9次第1次,每一次都应该背叛。 因此双方不可能合作共同报高价,而是相互竞争地报低价。,OPEC组织成员国之间的合作与背叛,理论上,几乎所有的卡特尔(类似于“同盟”)都会遭到失败,原因就在于卡特尔的协定不是一个纳什均衡,没有成员有兴趣遵守。 理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作10次,那么在第9次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作,那么就很可能在

15、第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作一直到,从第一次开始大家都不会采取合作态度。 运用向前展望,倒后推理的原则,合作就无从开始。深谙策略思维者懂得瞻前顾后,避免失足于最后一步。假如他预计自己会在最后一轮遭到欺骗,他就会提前一轮中止这一关系。这样一来,倒数第二轮就变成了最后一轮。,四、如何利用“囚徒困境”,触发策略,如果没有外部强制力,这时囚徒困境中两个参与者采取什么样的策略才可以更好的维持合作的稳定性呢? 如果一方采取不合作的策略另一方随即也采取不合作策略并且永远采取不合作策略,在博弈论里面称之为触发策略(Trigger strategy),或称冷酷策略。 如果对方知

16、道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采取了不合作策略,双方便永远进入不合作的困境。因此,只要有人采取触发策略,那么双方均愿意采取合作策略。,触发策略,针锋相对(tit-for-tat)策略:以牙还牙,圣经旧约:以眼还眼以牙还牙,我们对待自己的恋人/爱人是否可以用“以牙还牙”的策略?,触发策略,好的策略必须具有的一个特点是“清晰性”,能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。 针锋相对策略就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。 针锋相对策略的优越性向我们充分展示了一个纯粹自利的人何以会选择善,只因为合作是自我利益最大化的一种必要手

17、段。,触发策略,在爱情中的博弈原则应该是: 善意而不是恶意地对待恋人;宽容而不是尖刻地对待恋人,关键是能够彼此宽容,既宽容对方的缺点;强硬而不是软弱地对待恋人,就是要在我永远爱你的善意的前提下,做到有爱必报,有恨也必报,以眼还眼,以牙还牙,以其人之道,还治其人之身。 比如对恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁地回报;简单明了而不是山环水绕地对待恋人。 在博弈中过分复杂的策略使得对手难于理解,无所适从,因而难以建立稳定的合作关系,明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。,触发策略,人家打你一巴掌,你还把另一边脸转过去,等于鼓励对方再占你便宜。无条件的合作不仅伤害你自己

18、,而且伤害了这个成功的剥削者接着要遇到的无辜者。无条件合作将会宠坏对方,并为社会留下了改造被宠坏者的负担。,对敌人的仁慈就是对自己的残忍。,恋爱时期的誓言 人生发誓最多的莫过于恋爱时期。非你不娶,非你不嫁,海枯石烂情不变之类的誓言。为什么向恋人发誓呢? 无非是一报还一报的触发策略。希望对方也这样对待自己,换来一个好的博弈结果。 触发策略是一个不怕曝光的策略,而且恰恰需要别人知道你的基本原则,这样才能更好地实现合作双赢。,触发策略不怕曝光的策略,合伙者为什么多以拆伙告终? 触发策略的局限性:如果双方存在误解,不管出现误会的几率怎样微乎其微(即使万亿分之一),只要有可能出现误会,长期而言,一报还一报策略会有一半时间合作,一半时间背叛。理由是,一旦出现误会,双方是将问题复杂化,还是澄清误会,其机率是一样的。这样一来,选择合作或背叛的机率便是一半对一半。 对方偶然背叛了你,你通过行动或者不行动来显示你对此介意,你自己觉得是相称的“警告”,但对方很可能认为你反应过度,小题大做。因而,哪怕是微不足道的误解一旦发生,合作便有了危机。,触发策略不怕曝光的策略,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1