马尔科夫决策.ppt

上传人:京东小超市 文档编号:5990779 上传时间:2020-08-19 格式:PPT 页数:43 大小:188.50KB
返回 下载 相关 举报
马尔科夫决策.ppt_第1页
第1页 / 共43页
马尔科夫决策.ppt_第2页
第2页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《马尔科夫决策.ppt》由会员分享,可在线阅读,更多相关《马尔科夫决策.ppt(43页珍藏版)》请在三一文库上搜索。

1、第一节 基本原理,一、基本概念 1.随机变量 、 随机函数与随机过程 一变量x,能随机地取数据(但不能准确地预言它取何值),而对于每一个数值或某一个范围内的值有一定的概率,那么称x为随机变量。 假定随机变量的可能值xi发生概率为Pi 即P(x = xi) = Pi 对于xi的所有n个可能值,有离散型随机变量分布 列: Pi = 1 对于连续型随机变量,有 P(x)dx = 1,化载欣髓柯殿撒坪窖藐蹦栏诀程坊术粒蔫慰搭啦山搓枷爸樱鲸宾洼隔旱乾马尔科夫决策马尔科夫决策,在试验过程中,随机变量可能随某一参数(不一定是时间)的变化而变化. 如测量大气中空气温度变化x = x(h),随高度变化。这种随参

2、变量而变化的随机变量称为随机函数。而以时间t作参变量的随机函数称为随机过程。 也就是说:随机过程是这样一个函数,在每次试验结果中,它以一定的概率取某一个确定的,但预先未知的时间函数。,酪蚀辱掺哲藏检存影竣河硅兹检故翱戈镣唤应碱棉窝簧需先船企货覆鹿晌马尔科夫决策马尔科夫决策,2、马尔科夫过程 随机过程中,有一类具有“无后效性性质”,即当随机过程在某一时刻to所处的状态已知的条件下,过程在时刻tto时所处的状态只和to时刻有关,而与to以前的状态无关,则这种随机过程称为马尔科夫过程。 即是:ito为确知,it(tto)只与ito有关,这种性质为无后效性,又叫马尔科夫假设。,硕矩宽蘑哭抉瞳地茸论枯琶

3、鬃鲍吹拼妊弱楞闯斌摄瘫钝嫩秽晰庭恕顷锨员马尔科夫决策马尔科夫决策,3、马尔科夫链 时间和状态都是离散的马尔科夫过程称为马尔科夫链。例:蛙跳问题 假定池中有N张荷叶,编号为1,2,3,N,即蛙跳可能有N个状态(状态确知且离散)。青蛙所属荷叶,为它目前所处的状态;因此它未来的状态,只与现在所处状态有关,而与以前的状态无关(无后效性成立),朝沟亩孵潞蒲邦薯疗俏蒸罗现非纯垒炙芍争椿聊肝康彬疥侥猩共素柳标袭马尔科夫决策马尔科夫决策,写成数学表达式为: P( xt+1 = j | xt = it , xt-1 = it1,x1 = i1) =P( xt+1 = j | xt = it ) 定义:Pij =

4、 P( xt+1 = j | xt = i) 即在xt = i的条件下,使 xt+1 = j的条件概率,是从 i状态一步转移到j状态的概率,因此它又称一步状态转移概率。 由状态转移图,由于共有N个状态,所以有,泵舟绢驭呻涟占翟寨边显债躁睫恩裁瑶垄挑疚樟缠剥灶谊笑每夹令套酶藻马尔科夫决策马尔科夫决策,1,2,3,4,P33,P22,P44,P41,P42,P31,P32,银旁珐有唤闭它鹤趴怖祝杏甘伊牟哼铅人饰斯宇逞苦匿拣裤趟讹础界敢砖马尔科夫决策马尔科夫决策,二状态转移矩阵 1.一步状态转移矩阵 系统有N个状态,描述各种状态下向其他状态转移的概率矩阵 P11 P12 P1N 定义为 P21 P2

5、2 P2N : : : PN1 PN2 PNN 这是一个N阶方阵,满足概率矩阵性质 1) Pij 0,i,j = 1,2, , N 非负性性质 2) Pij = 1 行元素和为1 ,i=1,2,N,NN,P =,艇进鞋靴显退芒戴倚厦逮友他囚逢邹晾氟庶版贞葫邱扒穗听掠如讽柜霹尧马尔科夫决策马尔科夫决策,如: W1 = 1/4, 1/4, 1/2, 0 W2 = 1/3, 0, 2/3 W3 = 1/4, 1/4, 1/4, 1/2 W4 = 1/3, 1/3, -1/3,0, 2/3 3)若A和B分别为概率矩阵时,则AB为概率矩阵。,概率向量,非概率向量,皮隘寻乎磨揽往燥直放场滚淌勿彤浮愿空荫怯

6、澎们醇案郧月挝赵歇疗科睹马尔科夫决策马尔科夫决策,2.稳定性假设 若系统的一步状态转移概率不随时间变化,即转移矩阵在各个时刻都相同,称该系统是稳定的。 这个假设称为稳定性假设。蛙跳问题属于此类,后面的讨论均假定满足稳定性条件。,亚牢坡砖寝押彭先姥绽柜荷硷顽啦诞色沏佑嗽另为赊剥饥煮嘛袋饵跺榷是马尔科夫决策马尔科夫决策,3.k步状态转移矩阵 经过k步转移由状态i转移到状态j的概率记为 P(xt+k =j | xt = i) = Pij(k) i,j = 1,2, , N 定义:k步状态转移矩阵为: P11(k) P12(k) P1N(k) P = : : : PN1(k) PN2(k) PNN (

7、k) 当系统满足稳定性假设时 P = P = P P P 其中P为一步状态转移矩阵。 即当系统满足稳定性假设时,k步状态转移矩阵为一步状态转移矩阵的k次方.,k,k,k,拟扇龚鹏衅陨疮线戌疗父隧字捧军粘盗蛆柏畏猫播蔗摇沸则虾泛邦凛跑酿马尔科夫决策马尔科夫决策,例:设系统状态为N = 3,求从状态1转移到状态2的 二步状态转移概率. 解:作状态转移图 解法一:由状态转移图: 1 1 2: P11 P12 1 2 2: P12 P22 1 3 2: P13 P32 P12 = P11 P12 + P12 P22 +P13 P32 = P1i Pi2,1,3,2,P13,P32,P11,P12,P1

8、2,P22,勉昏邱啥撞窄奋咏驮舔拨莉到猿东田拼堑揩揽裔淤涧撑窄札赞先既群帐豺马尔科夫决策马尔科夫决策,解法二: k = 2, N = 3 P11(2) P12 (2) P13(2) P = P21(2) P22 (2) P23(2) P31(2) P32(2) P33(2) P11 P12 P13 P11 P12 P13 = PP = P21 P22 P23 P21 P22 P23 P31 P32 P33 P31 P32 P33 得: P12(2) = P11 P12 + P12 P22 +P13 P32 = P1i Pi2,茅泣策咱登澳冯抹褂孩告挣腊渣卯咳娶倒锚胶辜倚是寡右鼻伐舒哆契硒待马尔

9、科夫决策马尔科夫决策,例:味精销售问题 已连续统计六年共24个季度,确定畅销,滞销界限,即只允许出现两种状态,且具备无后效性。 设状态1为畅销,状态2为滞销,作出状态转移图: 图中: P11为当前畅销,连续畅销概率; P12为当前畅销,转滞销概率; P22为当前滞销,连续滞销概率; P21为当前滞销,转畅销概率。,1,2,P22,P11,P12,P21,弊伟屎黔庚硝尤埂云阐袋拐侥愁派慕敷猫扫衍睁赋鸿益涝置爷姚酱屑惰情马尔科夫决策马尔科夫决策,数据在确定盈亏量化界限后的统计表如下: t 1 2 3 4 5 6 7 8 9 10 11 12 13 状态 t 14 15 16 17 18 19 20

10、 21 22 23 24 状态 进行概率计算时,第二十四个季度为畅销,但后续是什么状态不知,故计算时不能采用,只用于第二十三季度统计。 有: P11 = 7/(7 + 7) = 0.5; P12 = 7/(7 + 7) = 0.5; P21 = 7/(7 + 2) = 0.78; P22 = 2/(7 + 2) = 0.22 则 0.5 0.5 0.78 0.22 此式说明了:若本季度畅销,则下季度畅销和滞销的可能性各占一半 若本季度滞销,则下季度滞销有78%的把握,滞销风险22%,P =,梦汀瞻攫剖俺韦甲穆俐庐粒吧褪涸虏忌涕瘪懈翻腥掂唤愿晤截祭扁靶流恰马尔科夫决策马尔科夫决策,二步状态转移矩

11、阵为: 0.5 0.5 0.5 0.5 0.78 0.22 0.78 0.22 0.64 0.36 0.5616 0.4384 P11(2) P11(2) P11(2) P11(2),=,=,P = P =,2,2,钻依家胚暖锌剑涌等拧陷彦的屠呀懈澎两轩茁酞撼吸阿嗅劲孔咐篆根铣蟹马尔科夫决策马尔科夫决策,三.稳态概率: 用于解决长期趋势预测问题。 即:当转移步数的不断增加时,转移概率矩阵 P 的变化趋势。 1.正规概率矩阵。 定义:若一个概率矩阵P,存在着某一个正整数m,使P 的所有元素均为正数(Pij o),则该矩阵称为正规概率矩阵,k,秸弦秦某怜会据之夸暖针饮仟嫁庭茄护掖吠链动嵌挥掷乏屁蔬

12、辉祟瘴获缕马尔科夫决策马尔科夫决策,例: 1/2 1/4 1/4 P = 1/3 1/3 1/3 为正规概率矩阵 2/5 1/5 2/5 0 1 P11 = 0 1/2 1/2 但当 m = 2, 有 有Pij 0 它也是正规概率矩阵。 (P 每个元素均为正数) 但 1 0 0 1 就找不到一个正数m,使P 的每一个元素均大于0,所以它不是正规概率矩阵。, ,P =,2,2,P =,m,P =,2,酷长庄晕沥骑萄盏咨皋欺怎贺橇饱秆皇政良楚拄勇辅厩涯年夸伍尾纹亲僚马尔科夫决策马尔科夫决策,2.固定概率向量(特征概率向量) 设 P为NN概率矩阵,若U = U1, U2, UN为概率向量,且满足UP

13、 = U,称U为P的固定概率向量 例 0 1 1/2 1/2 为概率矩阵 P的固定概率向量 U = 1/3 , 2/3 检验 UP = 1/3 2/3 0 1 1/2 1/2 =1/3 2/3,P =,薛藕弃厢镜蒜椭顺贡眠湃抵吮狗裴滥料陌浓阳秋腊皑安闹肚酬胰渣桥陶垛马尔科夫决策马尔科夫决策,3.正规概率矩阵的性质 定理一 设P为NXN正规概率矩阵,则 A .P有且只有一个固定概率向量 U = U1,U2, UN 且U的所有元素均为正数 Ui 0 B.NXN方阵P的各次方组成序列 P, P, P, ,P 趋于方阵T,且T的每一个行向量都是固定概率向量U。 即 U1 U2 UN U lim Pk

14、= T = : : : = : U1 U2 UN U 这个方阵T称稳态概率矩阵。,2,3,k,薪垢毙石劫测胞瀑钉旺摹贿瑟拐锰钉虽句验怠浴惩贪历俐贯殉峨白腮邯黍马尔科夫决策马尔科夫决策,这个定理说明:无论系统现在处于何种状态,在经过足够多的状态转移之后,均达到一个稳态。 因此,欲求长期转移概率矩阵,即进行长期状态预测,只要求出稳态概率矩阵T; 而T的每个行向量都是固定概率向量,所以只须求出固定概率向量U就行了 !,沥凹蕊文渝毖疹滞思迪刮肝耪谈冻晚降边冬阶桂溪掇也拳狐直甥岩庭狄糕马尔科夫决策马尔科夫决策,定理二:设X为任意概率向量,则XT = U 即任意概率向量与稳态概率矩阵之点积为固定概率向量。

15、 事实上: U1 U2 UN XT = X : : : = U1Xi U1Xi U1Xi U1 U2 UN = U1 U2 UN = U,脐览乡嘱豢祖杠圣袋锣眯亿徒拿霹站瞬市递攀崔侠恃溅遏窘侩鸳噪窍关玖马尔科夫决策马尔科夫决策,例:若 0.4 0.3 0.3 P = 0.6 0.3 0.1 求T 0.6 0.1 0.3 解:设 U = U1 U2 U3 = U1 U2 1U1U2 由 UP = U 有 0.4 0.3 0.3 U1 U2 1U1U2 0.6 0.3 0.1 = U1 U2 U3 0.6 0.1 0.3,椎朵霞贾罩号双紧搜龋臻冶迁眼拷零嫂戴茂靠朽迸愿轰佛沮映蔚尽点裸份马尔科夫决策

16、马尔科夫决策,即 -0.2U1 + 0.6 = U1 U1 = 0.5 0.2U1 + 0.2U2 + 0.1 =U2 U2 = 0.25 -0.2U2 + 0.3 = U3 U3 = 0.25 U = 0.5 0.25 0.25 则 0.5 0.25 0.25 T = 0.5 0.25 0.25 0.5 0.25 0.25 说明: 不管系统的初始状态如何,当系统运行时间较长时,转移到各个状态的概率都相等。(列向量各元素相等) 即 各状态转移到1状态都为0.5; 2状态都为0.25 ; 3状态都为0.25,凑钨着涝醇负屯豪歇劣诊猩锦莆搬耀门毫绵剃领觅滋卖挽悦晦嘶慰邯银派马尔科夫决策马尔科夫决策

17、,第二节 市场占有率预测,商品在市场上参与竞争,都拥有顾客,并由此而产生销售,事实上,同一商品在某一地区所有的N个商家(或不同品牌的N个同类产品)都拥有各自的顾客,产生各自销售额,于是产生了市场占有率定义: 设某一确定市场某商品有N个不同品牌(或N个商家)投入销售,第i个商家在第j期的市场占有率 Si(j) = xi(j)/x i =1,2, N 其中 xi(j)为第i个商家在第j期的销售额(或拥有顾客数) x为同类产品在市场上总销售额(或顾客数) 市场占有率所需数据可通过顾客抽样调查得到。,联下各循枯钞酱埋肋痛舷扬她前累招害扼太隧珠踪圃赵仪顺防声葫识洁丸马尔科夫决策马尔科夫决策,一般地,首先

18、考虑初始条件,设当前状态(即j = 0 ) 为 S(0) = S1(0) S2(0) SN(0) 第i个商家Si(0) = xi(0)/x xi(0) = Si(0) x 即当前第i个商家市场占有率与初始市场占有率及市场总量有关. 同时假定满足无后效性及稳定性假设. 由于销售商品的流通性质,有第i个商家第j期销售状况为,特踊敝到佐耿某寒饱箕斟践赖辱了媒钡渣蔬媒耗父耻哩搜泛垮妖葫绎帜乙马尔科夫决策马尔科夫决策,xi(k) = x1(0)P1i(k) + x2(0)P2i(k)+ + xN(0)PNi(k) = xS1(0)P1i(k) +xS2(0)P2i(k) + + xSN(0)PNi(k)

19、 P1i(k) = xS1(0) S2(0) SN(0) P2i(k) : PNi(k) 有:Si(k) = xi(k)/x P1i(k) = S1(0) S2(0) SN(0) P2i(k) : PNi(k),六纸杭媚掐驼魔央涎厨旱跃盔体羞紧拟携虱信膘膛昂贸厂彼圾憾斑岳晴启马尔科夫决策马尔科夫决策,故可用矩阵式表达所有状态: S1(k),S2(k), ,SN(k)= S1(0),S2(0), ,SN(0) P 即 S(k) = S(0) P 当满足稳定性假设时,有 S(k) = S(0) P 这个公式称为已知初始状态条件下的市场占有率k步预测模型.,k,k,k,曙表横缔题犹糜极卵涉润秦磷叠肝

20、屑癸贪惯涨张拓标屯卷缨搭弘故踞女炼马尔科夫决策马尔科夫决策,例:东南亚各国味精市场占有率预测, 初期工作: a)行销上海,日本,香港味精,确定状态1,2,3. b)市场调查,求得目前状况,即初始分布 c)调查流动状况;上月转本月情况,求出一步状态转移概率. 1)初始向量: 设 上海味精状况为1; 日本味精状况为2; 香港味精状况为3; 有 S(0) = S1(0) S2(0) S3(0) = 0.4 0.3 0.3,迂惯挟译嵌卸叠妻堰汕孺非气造桓译找趟屁蚀炸敏挨史愉洋盲券理臭抚目马尔科夫决策马尔科夫决策,2)确定一步状态转移矩阵 P11 P12 P13 0.4 0.3 0.3 P = P21

21、P22 P23 = 0.6 0.3 0.1 P31 P32 P33 0.6 0.1 0.3 3),3 步状态转移矩阵(假定要预测3个月后) P11(3) P12(3) P13(3) 0.496 0.252 0.252 P 3= P21(3) P22(3) P23(3) = P = 0.504 0.252 0.244 P31(3) P32(3) P33(3) 0.504 0.244 0.252,3,劲毁猾宠吧卵航坑亨灾俐祸栽辨族罪前拧桅臻权姚篇营琳捎跌月堂嚏擦隙马尔科夫决策马尔科夫决策,4)预测三个月后市场 0.496 0.252 0.252 S(3) = S(0)P3 =0.4 0.3 0.3

22、 0.504 0.252 0.244 0.504 0.244 0.252 S1(3) = 0.40.496 +0.30.504 + 0.30.504 = 0.5008 S2(3) = 0.2496 S3(3) = 0.2496,霖诈文铣彤湛刀届竖既凳娃贡荒境毯卉三鹅渐仙玄字刮滨倡泵场一屹称延马尔科夫决策马尔科夫决策,二.长期市场占有率预测 这是求当 k 时 S(k) ? 我们知道: S(k) = S(0) P lim S(k) = S(0) lim P = S(0)T = U 因此,在已知初始条件下求长期市场占有率就是求稳态概率矩阵,也是求固定概率向量. 求固定概率向量的方法,我们在前一节已有

23、例子,只不过说明了长期市场占有率也是只与稳态矩阵有关,与初始条件无关.,k,k,拎跋攘神群摄涉受朱剿促锅炮刁斟帜呛平清亦悍描湍精榷苫材溜俩症歌怎马尔科夫决策马尔科夫决策,上面味精例子, 0.4 0.3 0.3 已知 P = 0.6 0.3 0.1 0.6 0.1 0.4 0.5 0.25 0.25 求出 T = 0.5 0.25 0.25 = lim Pk 0.5 0.25 0.25 lim S(k) = 0.5 0.25 0.25 即中国味精可拥有50%的长期市场.,脊绰访驳者夫赐钒耿轰赤降唁椅像滦劫峦骸崭渡脚氛望与纬牟熊挣乃弥俩马尔科夫决策马尔科夫决策,第三节 期望利润预测,是考虑:一个与

24、经济有关随机系统在进行状态转移时,利润要发生相应变化,例如商品连续畅销到滞销,显然在这些过程变化时,利润变化的差距是很大的. 所以有如下的定义: 若马尔科夫链在发生状态转移时,伴随利润变化,称这个马尔科夫链为带利润的马尔科夫链.,羔判颁佣尝呸靳奔遵驱澈篆享拍梦唾追废岸毡佑聪莎箭业仑炙傍似坛费拓马尔科夫决策马尔科夫决策,设系统有N个状态 状态i经过一步转移到状态j时(即当事件发生时,Pij = 1)所获得的利润为rij i,j = 1,2, N 于是有利润矩阵 r11 r12 r1N R = r21 r22 r2n : : : rN1 rN2 rNN 显然 ,rij 0 盈利 ;rij 0 亏损

25、 ; rij = 0 平衡 由于系统状态转移为随机的,得到的利润也应当是随机的,这个利润只能是期望利润.,葫狮斡昏秩秤缎蜜恼暮隘梢垢汹逆茁幸光玫箍浙稍咎喜元僳疤谦籍蜒瓦旱马尔科夫决策马尔科夫决策,11、即时期望利润(一步状态转移期望利润) 考虑状态 i 状态转移 i 1 i 2 i i i N 一步转移概率 Pi1 Pi2 Pii PiN 利润变化 ri1 ri2 rii riN 所以:从i转到1的期望利润值 P11r11 从i转到2的期望利润值 P12r12 : : 从i转到i的期望利润值 Piirii : : 从i转到N的期望利润值 P1Nr1N,零蛙弘导讲浇末堕纶糖裁苛宅苛裤呛虑崔彤垣峙

26、豁岛堑爪爆逐鼎狡睡离在马尔科夫决策马尔科夫决策,而从状态i开始经过一步转移后所得到的期望利润值为 Pijrij = Pi1ri1 + Pi2ri2 PiNriN 这个值称为即时期望利润,又是一步状态转移期望利润,是概率定义下的利润均值. 记为 Vi = Vi = Pijrij 特别地Vi = 0 ,即当 k = 0, 未转移,没有利润变化.,1,0,颧勋中笨速吝仓膏疟究侍稼骇伎妈瘫锣甫牢和板撩老族贰榷霖之味阴蜂银马尔科夫决策马尔科夫决策,2. k步转移期望利润递推公式 k步转移期望利润可以分解为两步,即一步和k1步, 一步转移期望利润为Vi = Pijrij 现考虑k1步 首先,从0时刻到1时

27、刻发生了一步状态转移,假定 状态已转移1状态(令Pij = 1)后,从1状态开始 k1 步转移后达到期望利润为V1k-1 . 而i状态转移到1状态的发生概率为Pi1 , 因此i状态先转移到1状态后的k1步实际期望利润为 Pi1 V1k-1,k1,雍菲警亥贼践冰歌吃邓低腕艇汲擅患倚铆回溃沃加弧错蔼休魄锨啪始薛勒马尔科夫决策马尔科夫决策,同理 i状态先转到2状态后的k1步实际期望利润为 Pi2 V2 即:各实际期望利润之和,构成了初始状态为i的 k1步转移后的转移期望利润 : PijVj k步转移期望利润 Vi = Vi +PijVj = Pijrij + PijVj = Pij (rij + V

28、j ) 以上公式为k步转移期望利润递推公式 此公式可改写为矩阵递推式: 由 Vi = Vi + PijVj,k1,k1,k,1,k1,k1,k1,k,k1,取惨篓滦但酥冻卿障兑栖烫苔驱垣封佃栈肇靳山乃痰豪贴铰郁作悔衅梦牵马尔科夫决策马尔科夫决策,V1 定义 V = V2 为j步转移期望利润列向量 : VN V1 V = V2 为即时期望利润列向量 :. VN P11 P12 P1N : : : 为一步状态转移概率矩阵 PN1 PN2 PNN 有V = V +PV,j,j,j,j,P =,K,k1,政榔壕下刀痈岛托泻狐晤泄晰捉嚣炉臀匿橡睬二皋足癣医谴官邯钒煽继拼马尔科夫决策马尔科夫决策,例:设某

29、商品销售状态分别为畅销(状态1)及滞销(状态2),销售状态转移概率矩阵为 P11 P12 0.5 0.5 P21 P22 0.4 0.6 利润矩阵 r11 r12 5 1 r21 r22 1 -1 试预测三个月后的期望利润.,=,P =,=,R =,午霓停帖葛嘘劝孩袋廖礁袁谷跑稿斥窿痈覆吼溶澳贤谩咱噶癌乙衅揽莽瓮马尔科夫决策马尔科夫决策,解:利用递推公式顺序推出, 即时期望利润 Vi = Pijrij V1 = P1jr1j = P11r11 + P12r12 = 0.55 + 0.51 = 3(百万元) V2 = P2jr2j = P21r21 + P22r22 = 0.41 + 0.6(-

30、1)= -0.2(百万元) V1: 本月畅销,一月后可期望获利300万 V2: 本月滞销,一个月后预测亏损20万 由 V1 = P1j (r1j+ Vj ),k,k-1,维聚弧霄藤愉乖界沼套逆死德令矽疽右冗瘩条丫扇府缓侧岿桨郑立螟屈佃马尔科夫决策马尔科夫决策,V1 = P1j (r1j+ Vj) = P11( r11 + V1) + P12 ( r12 + V2) = 0.5(5 + 3) + 0.5(10.2) = 4.4 (百万) 即本月畅销,预计两个月后可期望获利440万元 V2 = P2j (r2j+ Vj) = P21(r21 + V1) + P22(r22 + V2) = 0.4(

31、1 +3) + 0.6(-10.2) = 0.88(百万) 即本月滞销,两月后可期望获利88万元.,2,2,沽唁锗扫蓄统彻叠朝惟迫蜂谱斧娟津遏否颊脚苯狄篱詹酉胰弗胳东堵裂踏马尔科夫决策马尔科夫决策,由此,可推出本题结果: V1 = P1j (r1j + Vj) = P11(r11 + V1) + P12(r12 + V2) = 0.5(5 + 4.4) + 0.5(1+0.8) = 5.64 (百万) V2 = P2j (r2j+ Vj) = P21(r21 + V1) + P22(r22 + V2) = 0.4(1 + 4.4) + 0.6(-1+0.88) = 2.088(百万) 答案:若本月畅销,三月后将期望盈利564万元 若本月滞销,三月后将期望盈利208.8万元.,3,2,2,2,3,2,2,2,皿背埠搜忻哺晦浑嗓贵睁诗伺顺魁找签庇顽促欣瑞苞难心糖伙簇锅泥俏殿马尔科夫决策马尔科夫决策,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1