马氏决策规划简介.ppt

上传人:本田雅阁 文档编号:2613320 上传时间:2019-04-19 格式:PPT 页数:20 大小:1.24MB
返回 下载 相关 举报
马氏决策规划简介.ppt_第1页
第1页 / 共20页
马氏决策规划简介.ppt_第2页
第2页 / 共20页
马氏决策规划简介.ppt_第3页
第3页 / 共20页
马氏决策规划简介.ppt_第4页
第4页 / 共20页
马氏决策规划简介.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《马氏决策规划简介.ppt》由会员分享,可在线阅读,更多相关《马氏决策规划简介.ppt(20页珍藏版)》请在三一文库上搜索。

1、 马氏决策规划简介 马尔可夫过程 马尔可夫过程是一类特殊的随机过程, 它因伟大的俄国数学家马尔可夫而得名 。这种过程的特点是存在着确定的转移 概率,与系统先前的历史无关,有一个 很形象的比喻来形容这个过程:池塘里 的青蛙在荷叶上跳来跳去,如果将它在 某一时刻所在的荷叶称为状态,则青蛙 未来处于什么状态只有它现在所在的状 态有关,与它以前所处的状态无关。这 种性质就是所谓的“一阶Markov性”或“无 后效性” 一:基本概念 v1.状态转移概率 假定系统有n个可能的状态,处于这些 状态的概率分别为 p1,p2pi ,pn, 例如,有1000名顾客在每周只到A和B 购物,设定时间阶段为一周,在某一

2、 周,有900名顾客到A购物,我们称为 状态1,有100名顾客到B,成为状态2 ,因此,系统的两个状态和概率分别 为 状态1:顾客到A购物,0.9 状态2:顾客到B购物,0.1 假定市场调查数据显示,在随后的一周 内,上周去A购物的顾客有90仍然在A 购物,有10的顾客则流向了B,去B购 物的顾客有80继续在B购物,而20 则流向了A,这些状态转移概率可用如下 矩阵表示 2.状态转移概率矩阵 该矩阵成为超市的一步转移矩阵。 对于k步(周期)的, 表示在给定 周期内处于状态i 的系统在经过k步后转移到状 态j的概率,p(k) 表示系统的k步转移 概率矩阵,则有 状态转移概率矩阵描述了研究对象的变

3、化过程 ,它有如下特征: 3.一步平稳转移概率 如果对于每个i和j, 均成立的话 则称一步转移概率是平稳的,也就是说 ,从状态i转移到状态j的概率与现在的步 数无关,这说明在研究的时间范围内, 一步平稳转移概率保持为常数。系统的 转移概率矩阵表示为 二 马尔可夫过程的预测 三:赋值马氏过程 有一个工厂为市场生产某种产品,每月月初对产 品产品的销售情况进行了一次检查,其结果有 二:销路好(记为状态1),也可能销路差( 状态2)。若处于状态1,由于各种随机因素的 干扰,下月初仍处于销路好的概率为0.5,转 为销路差的概率也为0.5;若处于状态2,则下 月初转为销路好的概率为0.4,仍处于销路差 的

4、概率为0.6。则他的状态转移过程为 若在上面所述的马氏过程中,当它在任意时刻 从状态i 转移到状态j时可以获得相应的收益记 为 , 这种马氏过程随着状态转移可得到一系列的报 酬(效益),我们称其为赋值马氏过程,称 R= 为报酬矩阵。 上述工厂若某月初销路好,下月初仍销路好可 获利9千元,下月初转为销路差可获利3千元, 若某月初销路差,下月初转为销路好课获利3 千元,下月初仍为销路差要亏本7千元。 则报酬矩阵为 下面考虑系统经过一定阶段的运行后的总 期望报酬。记q(i)为状态i 做出一次转移的 期望报酬,则有 称 为一次转移的期望报酬向量。 记 为系统由状态经过n次转移之后的 总期望报酬,则有

5、其中 表示有状态转移到状态的 概率, 表示由状态转移到状态的 相应报酬。称 为次转移的总期望报酬向量。 对 定义乘法 则有 仍以上述工厂为例, 根据以上公式得 即如果当前销路好,则下月获利6000元 ,否则下月亏损3000元 在利用上面的公式,可以得出该工厂在不同的 初始状态下,经过若干月后的总期望获利情况 。 三、马氏决策规划 在赋值马氏过程中,如果在某状态选用不同 的决策能够改变相应的状态转移矩阵及报酬 矩阵,就产生了动态随机系统求值最优策略 的问题。马氏决策规划就是研究这类问题的 。 下面我们通过实例来介绍马氏决策规划中有 限阶段的一种求解方法值迭代法。设系 统目标为总期望报酬最大化。

6、仍以上述工厂为例,设该工厂在每个状态可选的 决策是不登广告(记作方式1)或登广告(记作 方式2)。若不登广告,自然无广告费;若登广 告,要花额外的广告费,但下月初为销路好的概 率可增加。 决策方式1的状态转移矩阵及报酬矩阵为: 选决策方式2的状态转移矩阵及报酬矩阵为: 问题是在若干月内采取什么决策才能使其总期望 报酬最大。 用n表示系统的阶段数。 表示系统当前处于状 态i,下一步以d种决策方式转移到状态j的概率 。 表示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程: v由于 因而 为第n阶段处于i状态时的决策。 这表明,该厂不论处于状态1还是2,如 果再继续生产1个月,都应

7、采取决策1, 即不论销路好还是销路差都不登广告。 如果继续生产两个月: 这表明,如果继续生产两个月,第1个月不登广 告,第2个月等广告。 同样可以计算出经3步,4步,转移时的结 果, 将结果列入表中,利用上述的值迭代法, 可以算出系统当前处于状态i,经任意n步转移 应采取怎样的最优策略以及所获得的总报酬期 望值。 n(经营时间 /月)1234 (目前销路好,n月 后停业的最大总期望 报酬) 68.210. 22 12. 222 (目前销路好,若n 月后停业应采取的最 优决策) 1222 (目前销路差,n月 后停业的最大总期望 报酬) -3-1.70.2 3 2.2 23 (目前销路差,若n 月后停业应采取的最 优决策) 1222

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1