动态规划思想在实际生产生活领域的应用毕业论文.doc

资源描述

《动态规划思想在实际生产生活领域的应用毕业论文.doc》由会员分享，可在线阅读，更多相关《动态规划思想在实际生产生活领域的应用毕业论文.doc（30页珍藏版）》请在三一文库上搜索。

1、摘要动态规划是运筹学的一个分支，它是解决多阶段决策过程最优化的一种数学方法.所谓“动态”，指的是在问题的多阶段决策中，按某一顺序，根据每一步所决策的不同，将随机引起的状态的转移最终在变化的状态中产生一个决策序列.动态规划的方法，在工程企业管理、工农业生产及军事等部门中都有广泛的应用，并且获得了显著的效果，所以它是现代管理中的一种重要的决策方法,它的应用也越来越受人重视.本文首先对动态规划思想的背景、现实意义以及本文的研究内容、目的作了简短的叙述；然后从不同角度对动态规划问题进行了分类，并针对不同类型的决策过程的动态规划问题的基本理论、基本方程及思想作了简单的描述；其次，针对动态规划的理论过程

2、给出了最优性定理及其推论，深化了对动态规划问题的思想及其实际意义的理解；最后针对动态规划问题不同方面的分类，给出了生产贮存、数学实例、产品试制、金融投资这四个方面动态规划的典型实例，阐述了动态规划思想在实际生活各领域多方面的应用.关键词：动态规划，最优性原理，随机型多阶段决策过程，产品试制 AbstractThe dynamic programming is a branch that it is multi-stage decision-making process of solving a mathematical optimization method .The so-called “d

3、ynamic” refers to the multi-stage in the decision-making .According to a particular sequence .every step of the decision-making choice ,the state will immediately cause the transfer of the final changes in the state have a decision-making sequence . Dynamic programming methods in engineering technol

4、ogy, enterprise management, industrial and agricultural production and have a wide range of sectors such as military applications, and the effect was remarkable. So it is an important decision in modern management methods .It has been increasing emphasis on the application.Firstly, in this paper, th

5、e background and the significance of the dynamic programming are made a brief narrative, and then so are the research content and purpose. Secondly, the dynamic programming is classified from the different view. And then according to the different types of decision-making process of dynamic programm

6、ing, the basic theories, basic equation and the thoughts are representing briefly. Thirdly, according to the theory of dynamic programming, the optimal theorem and its corollary are provided, which deepen the understanding and practical significance of the dynamic programming. Finally based on diffe

7、rent aspects of the classification of dynamic programming problem, practical dynamic programming in the different types of typical examples such as the production storage, mathematics examples, product production and financial investment are presented, which expounds the dynamic programming of the v

8、arious applications in practical.Keywords:Dynamic programming,Principle of optimization ,Randomness multi-stage decision process,Trial production目录第1章绪论11.1 导论11.2选题背景11.3 选题意义21.4 课题研究内容、要求及目标2第2章离散型动态规划问题42.1离散型动态规划问题的基本概念42.2动态规划问题的基本特征及其基本思想62.2.1动态规划问题的基本特征62.2.2 动态规划问题的基本思想62.3 动态规划问题的基本方程7

9、2.3.1动态规划问题的逆序解法的基本方程72.3.2动态规划问题的顺序解法的基本方程8第3章连续型动态规划问题93.1连续型决策过程控制问题的基本概念与思想93.2连续型动态规划过程的最优控制问题10第4章动态规划问题的基本定理及方程124.1最优性原理的概念124.2 动态规划问题的无后效性原则124.3动态规划模型的建立12第5章动态规划思想的应用145.1 动态规划思想的应用举例确定离散型问题145.2 动态规划问题的应用举例确定连续型问题175.3 动态规划问题的应用举例随机离散型问题195.4 动态规划问题的应用举例随机连续型问题21第6章结束语23致谢24参考文献25I

10、II 第1章绪论1.1 导论动态规划大约产生于50年代，1951年美国数学家贝尔曼（R.Bellman）等人，根据一类多阶段决策问题的特点，然后逐个加以解决.与此同时，他提出了解决这类问题的“最优性原理”，研究了许多实际问题，从而创建了解决最优化问题的一种新的方法动态规划.许多问题用动态规划的方法去处理，常比线性规划或非线性规划更有成效.特别对于离散性问题，由于解析数学无法施展其术，而动态规划的方法就成为非常有用的工具.运用动态规划中的最优化原则可以将某一活动过程划分为若干个互相联系的阶段，在前一阶段的决策基础上依次选择出各个不同阶段所处状态下所可选择的最优发案.不仅求出当前状态到目标状态的

11、最优值，还求出到中间状态的最优值，使全过程的经济效益达到最优化的状态，这对于很多实际问题而言是很有用的，有效地避免了将问题复杂化，同时推动了跨学科的知识的交叉应用，避免了分析问题的单一化，所以在生产、生活和学习中应予以推广和运用.应指出，动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种特殊算法（如线性规划是一种算法）.因而它不像线性规划那样有一个标准的数学表达式和明确定义的一组规则，而必须对具体问题进行具体的分析处理.因此在解题时应以丰富的想象力去建立模型，用创造性的技巧去求解.1.2选题背景美国著名经济学家萨缪尔森曾指出：“如果资源是无限的，生产什么、如何生产和为谁生产就不

12、会成为问题.”管理的必要性在于资源的有限性.尤其对我们这么一个人口众多而人均资源不足的大国，如何使有限资源得到有效的利用是我们未来发展过程中不能不考虑的问题.也就是说，在资源利用上力求对有限资源进行分配使目标达到最优.在这类问题中，可能会有许多可行解，每一个解都对应于一个值，我们希望找到具有最优值的解，而整个问题并不是单一的，有多个阶段层次相互关联，因此整个决策过程也是多样的，因此为了得到最优的决策，要采用动态规划算法对该类问题进行综合考虑.将动态规划思想应用于解决实际问题在当前的各个领域的研究中已经有了一定的规模.文献对动态规划思想做出细致的阐述，并针对离散型动态规划问题给出了实际生活不同领

13、域中的典型实例.文献在对动态规划基本理论进行叙述的同时，给出了动态规划问题的计算机优化解法过程，对动态规划问题的模型求解来说是一个重大的突破.文献基于动态规划思想，阐述了其在解决工业、路程、军事、人民币投资等方面的应用，通过动态规划思想在解决这些实际情况中的应用，可以看到不同类型动态规划问题在解决各种实际问题上的强大功能.文献针对离散型动态规划问题的特点，结合实例给出了动态规划模型，同时研究了有此种特点动态规划问题的IBFS算法.文献研究了连续动态规划问题的最优控制基本理论和基本方程，给出了相应的理论模型.文献研究了动态规划模型的数学解法，给出了相应的不同特点动态规划问题的求解算法.1.3 选

14、题意义动态规划思想问世以来，在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用.例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题，用动态规划方法比用其它方法求解更为方便.虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题，但是一些与时间无关的静态规划(如线性规划、非线性规划)，只要人为地引进时间因素，把它视为多阶段决策过程，也可以用动态规划方法方便地求解.动态规划是对解最优化问题的一种途径、一种方法，而不是一种特殊算法.不象搜索或数值计算那样，具有一个标准的数学表达式和明确清晰的解题方法.动态规划往往是针对一种最优化问题，由于各种问题的性质不同，确定最优解的条件

15、也互不相同，因而动态规划的设计方法对不同的问题，有各具特色的解题方法，而不存在一种万能的动态规划算法，可以解决各类最优化问题.1.4 课题研究内容、要求及目标本文首先介绍了动态规划的基本特征和基本概念，然后由浅入深的阐述了其基本原理和基本方程.其次介绍了动态规划问题的最优性原理及无后效性原理，最后以生产贮存问题和最优消费投资等问题为例，介绍了动态规划思想在实际生产生活领域的应用.通过本文的介绍，要求对动态规划的基本概念、思想、特征有一定的了解.同时对实际生活中与动态规划相关的问题，能够通过对问题本身的分析，认识到其特点，并能识别出此类问题可用动态规划的思想进行解决.同时，通过对问题变化过程、阶

16、段情况的分析可以辨别出其属于哪类动态规划问题，从而采用相应的模型进行分析、求解.对本文的讨论及国内外相关方面研究的学习，希望可以对动态规划相关原理及其思想有清淅的了解，同时认识到动态规划思想在解决实际问题中的优势与不足，从而在今后的学习中对此类问题进行深入探究，以提出新的改进与补充方案.第2章离散型动态规划问题动态规划是解决多阶段决策过程最优化的一种方法.多阶段决策问题，根据决策过程的时间参量是离散的还是连续的，过程分为离散决策过程和连续决策过程；根据决策过程的转移是确定性的还是随机性的，过程分为确定性决策过程和随机决策过程，组合起来，可以得到离散确定型、离散随机型、连续确定型、连续随机型四

17、种决策过程模型.本文先以离散型多阶段决策过程为主进行讨论，然后再简单描述连续型多阶段决策过程的相关理论与方法.2.1离散型动态规划问题的基本概念（1）阶段和阶段变量把所研究的多阶段决策过程恰当地划分为若干个相互独立又相互联系的部分，每一个部分就称为一个阶段.事实上，一个阶段也就是需要作出一个决策的子问题部分.通常阶段是按照过程进行的时间和空间上的先后顺序划分的，并用阶段变量表示.阶段数等于多阶段决策过程中，从开始到结束所需要作出决策的数目，划分阶段的目的是便于求解.（2）状态和状态变量在多阶段决策过程中，状态是描述系统情况所必须的信息，一般定义为某一个阶段的初始点、初始位置或初始情况.状态变量

18、必须包含在给定的阶段上确定全部允许决策所需要的信息，阶段的状态表示为.比如：在资源分配问题中，状态就是某一阶段初资源的拥有量.状态变量的取值有一定的允许范围，称为状态变量.状态可能集是关于状态的约束条件.状态可能集用相应阶段状态的大写字母表示，其中.状态可能集可以是一个离散取值的集合，也可以是一个连续的区间，视所给问题而定.（3）决策、决策变量和决策序列决策就是决策者从本阶段出发对下一阶段状态所作的选择.多阶段决策过程的发展是用各个阶段的状态演变来描述的.因为状态描述的过程具有无后效性，因此在进行阶段决策时，只需根据当前的状态而无须考虑过去的历史.在阶段时，如果给出了决策变量随状态变量变化的对

19、应关系式，我们就确定了根据不同的当前状态作出不同决策的规则.即决策变量是状态变量的函数，称为决策函数，表示为.和状态变量一样，决策变量的取值也有一定的允许范围，称为允许决策集合.允许决策集合是决策的约束条件.的允许决策集合表示为，其中.要根据相应的状态可能集并结合具体问题来确定.决策序列就叫策略.策略有全过程策略和子策略之分.全过程策略是整个阶段决策过程中依次进行的各阶段决策构成的决策序列，简称策略.以为初始状态的全过程策略记为，即：.从阶段到阶段依次进行的阶段决策构成的决策序列称为子策略，表示为：.当时，子策略就是全过程策略.在阶段决策问题中，各阶段的状态可能集合和允许决策集确定了决策的允许

20、范围.特别是，过程的初始状态不同，决策和策略也就不同，即策略是初始状态的函数.（4）状态转移方程状态转移方程表示从阶段到阶段的状态转移规律的表达式.多阶段过程的发展就是用阶段状态的相继演变来描述的若给定第阶段状态变量的值，如果该阶段的决策变量一经确定，第阶段的状态变量的值也就确定，即的值随和的值变化而变化.对具有无后效性的多阶段决策过程问题，系统由阶段到阶段的状态转移方程表示为: 意即阶段的状态完全由阶段的状态和决策确定，与系统过去的状态及其决策无关称为变换函数或变换算子变换函数可以分为两种类型：确定型和随机型，据此形成确定型动态规划和随机型动态规划（5）指标函数和最优指标函数指标函数包括阶段

21、的指标函数和过程的指标函数在具有无后效性的多阶段决策过程中，阶段的指标函数指对应某一阶段和从该阶段出发的一个阶段决策的某种效益量，它完全由阶段的状态和决策决定，与阶段以前的状态和决策无关，表示为.多阶段决策过程中，过程的指标函数是指从状态出发至过程最终，当采取某种子策略时，按预定标准得到的效益值.这个值既与的状态值有关，又与以后所选策略有关，它是由各阶段的阶段效应累积形成的，表示为：适于动态规划思想求解的问题的目标，必须具有关于阶段效应的可分离形式、递推性和关于变元的严格单调性.子过程的过程指标函数可以表示为：其中表示某种运算，可以是加、减、乘、除、开方等.经济管理领域中最常见的目标函数形式是

22、阶段效应取和形式，即：最优指标函数，指对某一确定状态选取最优策略后得到的指标函数值，也是对应某一最优子策略的效益值：，式中“”的含义是取可行策略集合中的最佳值.2.2动态规划问题的基本特征及其基本思想2.2.1动态规划问题的基本特征(1) 问题具有多阶段决策的特征.阶段可以按时间划分，也可以按空间划分；(2) 每一个阶段都有相应的“状态”与之对应，描述状态的量称为“状态变量”；(3) 每一个阶段都面临一个决策，选择不同的决策将会导致下一阶段不同的状态，同时，不同决策将会导致这一阶段不同的目标函数值；(4) 每一个阶段的最优解问题可以递推的归结为下一阶段各个可能状态的最优解问题，各子问题与原问

23、题具有完全相同的结构.能否构造这样的递推归结，是解决动态规划问题的关键.这种递推归结的过程，称为“不变嵌入”.2.2.2 动态规划问题的基本思想(1) 动态规划方法的关键在于正确写出基本的递推关系式和恰当的边界条件，即从边界条件开始逐段递推寻优，在每个子问题求解中均利用了它前面子问题的最优化结果，依次进行，最后一个子问题所得的最优解就是整个问题的最优解.(2) 决策过程中，动态规划方法是把当前段和未来各段分开，同时又把当前效益与未来效益结合起来考虑的最优化方法，因此每段决策是从全局考虑的，与各段的最优选择答案一般不同.(3) 在求整个问题的最优策略时，由于初始状态已知，而每段的决策都是该段状态

24、的函数，故最优策略所经过的各段状态便可逐次变换得到，从而确定了最优策略.2.3 动态规划问题的基本方程动态规划问题的方法：动态规划问题有逆序解法和顺序解法之分.2.3.1动态规划问题的逆序解法的基本方程设指标函数是取各阶段指标的和的形式，即：其中表示第阶段的指标函数，所以上式可写成：当初始状态给定时，过程的策略被确定，则指标函数就被确定了.因此，指标函数最初状态和策略的函数，可记为，故上面的递推关系又可写为，它的子策略有决策，可看成是由决策和组合而成的，即：.如果用表示初始状态为的后部子过程所有子策略中的最优子策略，则最优徝函数为：而但所以边界条件为：上述即为动态规划问题逆序解法的基本方程，

25、根据边界条件，从开始，由后向前逆推，从而逐步可求得各段的最优决策和相应的最优值，最后求出时，即得到整个问题的最优解.动态规划问题的基本方程包括主体部分和边界条件两个部分.主体部分（式中第一个式子）中的应根据问题的要求，具体化为或.动态规划问题的基本方程为：2.3.2动态规划问题的顺序解法的基本方程动态规划问题的顺序解法的基本方程：假定阶段序数和状态变量的定义不变，改变决策变量的定义，如取，这时的状态转移不是由，去确定，反过来是由，去确定，则状态转移方程一般形式为：，因而，第阶段的允许决策集合也应作相应的改变，记为，指标函数也相应的换成以和的函数表示.于是可得动态规划顺序解法的基本方程为：边界条

26、件为，式中.其求解过程，根据边界条件，从开始，由前向后顺推，逐步可求得各段的最优决策和相应的最优值，最后求出时，就得到整个问题的最优解.注意：当初始状态给定时，用逆序的方式比较好，当终止状态给定时，用顺序的方式比较好，通常初始状态给定的情况居多，所以用逆序的方式比较多.第3章连续型动态规划问题到目前为止，所讨论的问题只涉及多阶段决策过程，即决策过程的时间参量是离散的.此处叙述连续型决策过程，即时间参量是连续变量的过程的处理方法.连续型决策过程的最优化问题通常称为最优控制，是现代控制理论的核心.它的主要内容是：在满足一定的约束条件下，寻求最优控制的规律（或控制策略），从而使一组目标函数达到极大

27、或极小.3.1连续型决策过程控制问题的基本概念与思想(1) 动态方程为：写成向量形式为： (3.1) 其中是维向量函数，为维状态向量，为维控制向量，.(2) 如果这一系统是完全可控的，则对于任意给定的两个状态和，一定存在一种控制规律，在有限的时间内，使系统从转移到，其中表示初始时刻的状态，称为初始状态（始点）；表示终端时刻的状态，称为终端状态（靶点），它可以是已知的，也可以未知，但一般都有一定的约束，称为终端约束，表示为:. 终端状态可以是固定的，也可以是自由的.(3) 允许控制集合是由问题的性质所决定的全体控制函数的集合，通常已知一个紧凸集，且取.(4) 性能指标与系统所受的控制作用、系统状

28、态有关，但是并不仅仅取决于某个固定时刻的控制变量和状态变量，而且与状态转移过程中的控制规律和状态轨线有关，所以性能指标是一个泛函，即： (3.2)式中是标量函数，它是向量和的函数.是标量，与终端时间及靶点有关，称为终端性能指标，其中终端状态和终端时间有一定的要求.是标量，对每个控制函数都有一个对应值.最优控制问题的提法是：求允许控制函数，使过程从初始状态出发，经过一段时间，到达目标集，且使性能指标泛函达到极值（最优）.使达到最优的控制泛函称为最优控制（注意，在离散的情形称为最优策略），用表示，将代入(3.1)可以求得最优轨线，再将、代入(3.2)式可以求得最优泛函极值.连续型决策过程的最优化原

29、理可简单地叙述为：如果将最优轨线分为两段，则最后一段本身也是最优轨线.这个原理的证明和离散的情形相似.如果这一条轨线是最优的，则一定使指标泛函为最优.设时，状态为，则后部子过程的指标泛函：也为最优.最优化原理说明，如果从到的控制是最优的，则不管时过程是怎样转移到状态的，一旦已知，从到的控制（以作为后段轨线的初始状态）也是最优的.3.2连续型动态规划过程的最优控制问题利用连续型动态规划的最优化原理求解最优控制问题，这时可以推导出一个关于最优指标泛函的偏微分方程，即动态规划基本方程的连续形式.连续动态规划基本方程方程通过研究下面形式的最优控制问题： (3.4)可推导出连续动态规划的基本方程： (3

30、.5)其中是这个控制问题满足初始条件、的最小指标值；是使（3.4）达到极小的一个最优控制，.方程（3.4）称为连续动态规划的基本方程，也称为哈密顿雅可比贝尔曼方程，简记为方程.方程的终端条件是： (3.6)如果（3.4）式换为：则（3.6）式应换为： (3.7) 上式是最优控制满足的必要条件，求得最优控制和最优轨线代入（3.5）得： (3.8)如果（3.8）式能解出，则可求出最优控制，但是解这个方程一般是比较困难的.第4章动态规划问题的基本定理及方程4.1最优性原理的概念动态规划问题的最优性原理可描述为：作为整个动态规划过程的最优策略具有这样的性质，即无论过去的状态和决策如何，对前面的决策所

31、形成的状态而言，余下的诸决策必须构成最优策略，简言之，一个最优策略的子策略总是最优的.最优性原理：设阶段数为的多阶段决策过程，其阶段编号为：，策略是允许策略集合中的最优策略的充要条件是：对任意级（）子策略，在初始状态变量为时，收益函数为：式中，即是说第级的输入状态变量值不能任意选取，它只能在前一级子过程在子策略下确定，在上加波折号表示其特殊性.推论已知为最佳策略，则对任意的，从级到级的子策略对于以为初始状态变量的子过程来说，必是最佳策略.4.2 动态规划问题的无后效性原则所谓无后效性原则指的是这样一种性质：某阶段的状态一旦确定，则此后过程的演变不再受此前各状态及决策的影响.也就是说，“未来

32、与过去无关”，当前的状态是此前历史的一个完整总结，此前的历史只能通过当前的状态去影响过程未来的演变.具体地说，如果一个问题被划分为各个阶段之后，阶段中的状态只能由阶段中的状态通过状态转移方程得来，与其它状态没有关系，特别是与未发生的状态没有关系，这就是无后效性.4.3动态规划模型的建立动态规划模型就是多阶段决策过程的数学模型，它的建模过程归纳起来即为：明确“一个大前提、四个条件、一个方程.一个大前提是指：恰当地划分问题的阶段，把问题描述为多阶段决策过程.四个条件也称为四个要素，包括正确地选择状态变量、确定决策变量和允许决策集合、明确状态转移方程、写出阶段效应和目标函数.(1) 正确地选择状态变

33、量.所选择的状态变量必须能够描述过程的演变特征、满足无后效性和可知性.可知性指各阶段状态变量的值直接或间接的均为已知.(2) 确定决策变量及各阶段的允许决策集合.(3) 写出状态转移方程.(4) 根据题意列出阶段效应和目标函数.一个方程是指：在明确四个条件（或四个要素）的基础上，写出动态规划基本方程.第5章动态规划思想的应用5.1 动态规划思想的应用举例确定离散型问题所讨论的问题中状态转移是完全确定的，并且决策过程的时间参量是离散的，这类问题称为确定离散型动态规划问题.对于一类生产计划问题，阶段按计划时间自然划分，状态定义为每阶段开始时的储存量，决策为每阶段的产量，每个阶段的需求量（已知量）

34、为，则状态转移方程为：设每阶段开工的固定成本费为，生产单位数量产品的成本费为，每阶段单位数量产品为储存费为，阶段指标为阶段成本和储存费之和，即 (5.1)指标函数为之和，最优值函数为从第段的状态出发到过程终结的最小费用，满足 (5.2)其中允许决策集合由每阶段的最大生产能力决定，若设过程终结时允许储存量为，则终端条件是： (5.3) (5.1)(5.2)(5.3)构成该问题的动态规划模型.例1(生产与贮存问题)：某公司与一客户订立合同，在4个月内售出一定数量的某种产品.由于各种原因，每月至多生产100单位，产量限于10的倍数.产品可以贮存，贮存费用每单位2元.生产成本及每月销售额如表所出.要求

35、确定一个生产过程，使能满足合同要求，在生产能力以内使生产成本最小.表5-1 每月销售额表月份单位生产成本合同销售额170602727038012047660解：阶段变量表示月份，状态变量表示月初已有产品数.决策变量表示决定月的生产数量，满足约束：状态转移，阶段指标.由表5-1可知：时，由于月份最大生产量为300单位，合同销售总额为250单位，所以4月份最大贮存量为50单位，即可能取值为0，10，20，30，40，50.求解：.得则有：分析结果见下表5-2表5-2 4月份可能生产情况分析表0456060103820502030804030234030401600205086010当时，第一、第

36、二月最大生产量为200单位，销售合同额为130，所以3月份初最大贮存量为70单位.由于和得：.所以可能的取值为20，30，40，50，60，70单位.求解：.分析结果见下表5-3.表5-3 3月份可能生产情况分析表5060708090100201260012600100301182011880118209040110401110011160110408050102601032010380104401026070609480954096009660972094806070870087608820888089409000870050当时，1月份最大生产量为100单位，合同销售量为60，则2月份最大

37、贮存量为40，即可能取值0，10，20，30，40.求解:，又由，得：分析结果见下表5-4.表5-4 2月份可能生产情况分析表506070809010001908019020190201001018380183201826018260100201768017620175001750017500100301698016920168601674016740167401004016280162201616016100159801598015980100当时，此时有：分析结果见下表5-5.表5-5 1月份可能生产情况分析表607080901000232202316023100230402298022

38、980100则得：最小总成本.故最优的生产安排如表5-6所示.表5-6 最优生产安排表月份()101006070000700024010070720080728037050120400014041404060604560045605.2 动态规划问题的应用举例确定连续型问题所讨论的问题中状态转移是完全确定的，并且决策过程的时间参量是连续的，这类问题称为确定连续型动态规划问题.例2(二次指标泛函线性控制问题)：控制问题： (5.4) (5.5)其中是已知的固定终端时刻，和是非负定矩阵，是正定矩阵，控制函数是平方可积的.解：应用方程，可知： (5.6)容易算出右边的极小值在：发生，所以(5.6)变

39、成： (5.7)可以寻求（5.7）式的形如:. (5.8)的解，而事实上，只要满足矩阵方程：则形如(5.8)的式子的解是一定存在的，的存在和唯一性是由(5.4)、(5.5)式的最优控制的充要和唯一性保证的.只要将算出，则最优控制将是：.最优轨线是方程：的解，从开始的最小费用是：.5.3 动态规划问题的应用举例随机离散型问题以上所讨论的问题中状态转移是完全确定的，是确定型多阶段决策问题.但是，实际问题中可能出现一些随机因素，当决策变量给定之后，下一阶段的状态仍是不确定的，而是根据一定的概率分布来决定，这个概率分布是由本阶段的状态和决策所完全决定的，因此，状态变量是一个随机变量.具有这种性质的多阶

40、段决策过程就称为随机性多阶段决策过程，我们亦能用动态规划方法求解之.例3(产品试制问题): 某厂和公司订了试制某种新产品的合同，如果三个月生产不出一个合格品，则要罚款2000元，每次试制周期为一个月，制造一个产品的成本为100元，每一个试制品合格的概率为0.4，生产一次的装配费为200元，问如何安排试制，才能使期望费用最小？解：根据题意最多能安排三次生产.把三次试制当作三个阶段，每次生产的个数作为决策变量，每次试制前是否已有合格品作为状态变量，有合格品时，记，无合格品时记，为第次试制前状态为时，以后均采取最优策略时的最低期望成本（为简化数字，以百万为单位）.由假设当，即已有合格品，试制已完成，

41、于是，即不生产，也不罚款，就没有费用，又若三次试制后无合格品，则罚款20百元，即，以表示生产成本及装配费用，则由每次装配费2百元，每件成本1百元，得:由生产一件合格品的概率为0.4，得不合格品的概率为0.6，所以生产件均不合格的概率为，至少有一件合格的概率为，这里，于是递推关系为：其中，于是有：当时，有对的不同取值计算得表5-7注意，不需要再继续，因为可以证明当时，是一个连续的具有唯一最小值的单峰函数.当时，有：表5-7 第三试制阶段生产可能情况表0123456700001201511.29.328.598.568.938.565对的不同取值计算得表5-8 .表5-8第二试制阶段生产可能情况表

42、01234000018.568.147.086.857.116.853当时，有：.对的不同取值计算得表5-9.表5-9第三试制阶段生产可能情况表012316.857.116.466.486.462至此，求得最优策略是第一次生产2个，如果都不合格，则第二次生产3个，如果再都不合格，则第三次生产5个，这样能使期望值费用最小，其期望费用为646元（近似值）.5.4 动态规划问题的应用举例随机连续型问题有时实际问题并不是离散型多阶段决策过程，而是连续变化的，并且状态转移过程是随机的，这种问题称为随机连续型动态规划问题.例4(最优消费投资模型)：考虑中国投资者在金融市场上投资于两种风险资产，一种是股票，

43、一种是美元.假设市场是完全的，交易是连续的，并且没有交易成本，两种资产的价格都服从几何布朗运动，即：式中，是时期用单位人民币可兑换的美元，即人民币对美元的汇率；是时期的上证综指.为资产价格波动的漂移率，为资产价格波动的方差.这里假设二者均为常数.假设投资者的所有收益都来自资本收益，则投资者在时期拥有的财富满足如下微分方程：，其中，表示在时刻的单位时间消费量，表示在时刻投资者投资于美元的比例，表示在时期投资者投资于中国股市的比例，则最优化问题为：在此定义，这里是条件期望算子.定义，是当给定控制集和时，以和为变量的邓肯算子根据下面的一阶条件求极值点：为求和的显式解，解个和的非动态隐方程，得：反函

44、数，由式可知，这里，因此可以得到.把和代入，它变为作为，函数的基本偏微分方程：受边界条件的约束，如果上式已求解，则把解代入和的表达式，即可以得到作为，和的函数和.这样，我们就得到了以汇率水平为自变量的投资者投资于国股市的比例函数值.第6章结束语本次毕业论文的完成是对几个月来对动态规划思想学习成果的体现，也是对我大学对数学思想学习的一个总结.在历时几个月的时间里，通过在各个数据库及网站广泛的搜取相关资料，仔细阅读理解动态规划基本思想，研究应用动态规划思想解决实际问题的案例，将其思想与实例结合，使我在头脑中对动态规划思想有了更清淅的认识与理解.在这个过程中，无论对动态规划思想的认识，对动态规划思想应用于实际生活实例的理解，对整个思想框架的领悟，对论文书写的方法的体会等都有了进一步的了解.总之，在这次毕业论文书写过程中，无论是对

展开阅读全文

动态规划思想在实际生产生活领域的应用 毕业论文.doc

动态规划思想在实际生产生活领域的应用毕业论文.doc