第13章增强学习.ppt

上传人:本田雅阁 文档编号:3125190 上传时间:2019-07-13 格式:PPT 页数:26 大小:244.53KB
返回 下载 相关 举报
第13章增强学习.ppt_第1页
第1页 / 共26页
第13章增强学习.ppt_第2页
第2页 / 共26页
第13章增强学习.ppt_第3页
第3页 / 共26页
第13章增强学习.ppt_第4页
第4页 / 共26页
第13章增强学习.ppt_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《第13章增强学习.ppt》由会员分享,可在线阅读,更多相关《第13章增强学习.ppt(26页珍藏版)》请在三一文库上搜索。

1、2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,1,机器学习,第13章 增强学习,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,2,概述,增强学习要解决的问题:一个能够感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作 当agent在其环境中做出每个动作,施教者提供奖励或惩罚信息,agent从这个非直接的回报中学习,以便后续动作产生最大的累积回报 本章介绍一个称为Q学习的算法,它可从有延迟的回报中获取最优控制策略 增强学习与动态规划算法有关,后者常被用于解决最优化问题,2003.12

2、.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,3,简介,考虑一个可学习的机器人,它可以观察环境的状态并能做出一组动作改变这些状态,学习的任务是获得一个控制策略,以选择能达到目的的行为 本章关心的是:机器人怎样在环境中做实验并根据回报函数成功学习到控制策略 图13-1,学习控制策略以使累积回报最大化这个问题很普遍,它是一个通过学习来控制序列过程的问题,比如 生产优化问题:选择一系列生产动作,使生产出的货物减去其成本达到最大化 出租车调度:选择出租车运载乘客,其中回报函数为乘客等待的时间和车队的整体油耗,2003.12.18,机器学习-增强学习 作者:Mitch

3、ell 译者:曾华军等 讲者:陶晓鹏,4,简介(2),在第11章,已经接触到了通过学习来控制序列过程的问题,用基于解释的方法学习规则,以控制问题求解中的搜索 本章考虑的问题不同于第11章,因为考虑的问题中,行为可能有非确定性的输出,而且学习器缺少描述其行为输出的领域理论 学习控制策略类似前面讨论过的函数逼近问题,这里待学习的目标函数是控制策略: SA,它在给定当前状态S集合中的s时,从集合A中输出一个合适的动作a,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,5,简介(3),增强学习问题与普通函数逼近问题有几个重要的不同: 延迟回报:施教者只在

4、机器人执行其序列动作时提供一个序列立即回报值,因此面临一个时间信用分配的问题:确定最终回报的生成应归功于序列中哪一个动作 探索:学习器面临一个权衡过程,是选择探索未知的状态和动作,还是选择利用它已经学习过、会产生高回报的状态和动作 部分可观察状态:机器人的传感器只能感知环境的部分状态 终生学习:使得有可能使用先前获得的经验或知识在学习新任务时减小样本复杂度,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,6,学习任务,本节我们把学习序列控制策略的问题更精确地形式化,有多种可选择的形式化方法,比如 机器人的行为是确定性或非确定性的 机器人可以预测或

5、不能预测每一个行为所产生的状态 机器人由外部专家通过示例最优动作序列来训练或必须通过执行自己选择的动作来训练 .,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,7,学习任务(2),我们基于马尔科夫决策过程定义学习控制策略问题的一般形式 设机器人可感知到其环境的不同状态集合S,可执行的动作集合A 在每个离散时间步t,机器人感知到当前状态st,选择当前动作at,环境给出回报rt=r(st,at),并产生后继状态st+1=(st,at) 注意:回报函数和后继状态函数只依赖于当前状态和动作,这里先考虑它们为确定性的情形 定义:策略从初始状态st获得的累

6、积值为,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,8,学习任务(2),上面定义的量又称为折算累积回报,还有其他一些整体回报的定义:有限水平回报、平均回报 定义:学习控制策略的任务是,要求机器人学习到一个策略,使得对于所有状态s,V(s)为最大,表示为 最优策略的值函数 记作V*(s) 图13-2,对上面定义的示例,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,9,Q学习,机器人在任意的环境中直接学习最优策略很难,因为没有形式为的训练样例 训练数据是立即回报函数,容易学习一个定义在状态和动作上

7、的数值评估函数,然后实现最优策略 很明显,可以将V*作为待学习的评估函数,由于状态s下的最优动作是使立即回报r(s,a)加上立即后继状态的V*值最大的动作a,即 因此,如果具有回报函数和状态转移函数的完美知识,那么就可以计算出任意状态下的最优动作 但在实际问题中,无法知道回报函数和状态转移函数的完美知识,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,10,Q函数,对于无法知道回报函数和状态转移函数完美知识的情形,我们使用评估函数Q 评估函数Q的定义: 式子13.3可以重写为: 因此只需对当前状态的Q值做出反应,就可以选择到全局最优化的动作序列,

8、2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,11,Q函数(2),注意到 式子13.4可重写为 这个Q函数的递归定义提供了迭代逼近Q算法的基础 用 表示实际Q的估计,算法中用一个大表存储所有状态-动作对的 值 一开始所有表项填充为初始的随机值,然后利用下式更新表项,直到这些值收敛,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,12,表13-1 在确定性回报和动作假定下的Q学习算法,Q学习算法 对每个s,a初始化表项 观察当前状态s,一直重复做: 选择一个动作a并执行它 接收到立即回报r 观察新状

9、态s 对 按照下式更新表项 ss,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,13,Q算法举例,图13-3,单个状态转移的Q学习 吸收目标状态:没有移出的状态 情节:在每个情节中,机器人从某个随机选择的状态开始执行动作直到到达吸收目标状态 训练过程包含一系列情节 值的演化过程 因为初始的 值都为0,算法不会改变任何 表项,直到它恰好到达目标状态并且收到非零回报,这导致通向目标状态的转换的 值被精化 在下一个情节中,如果经过这些与目标状态相邻的状态,其非0的 值会导致与目的相差两步的状态中值的变化,依次类推,最终得到一个 表,2003.12.1

10、8,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,14,Q算法举例(2),上面的Q学习算法有两个特点: 值在训练中不会下降 值保持在0和真实Q值区间内 因此上面的Q学习算法会收敛到正确的Q函数 定理13.1(确定性马尔科夫决策过程中的Q学习的收敛性) 考虑一个Q学习,在一个有有界回报的确定性MDP中,Q学习使用式子13.7的训练规则,将表 初始化为任意有限值,并且使用折算因子,令 表示在第n次更新后的值,如果那么对所有的s和a,当n时 收敛到Q(s,a),2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,15,Q算法举例

11、(3),证明: 令s=(s,a),则 令 ,则,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,16,实验策略,表13-1的算法的一个明显的策略是,对于状态s,选择使 最大化的动作 上面策略的风险是过度束缚到在早期训练中有高 值的动作,而不能探索到其它可能有更高值的动作 在Q学习中,通常使用概率的途径来选择动作,有较高 值的动作被赋予较高的概率,但所有动作的概率都非0,其中一种方法是,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,17,更新序列,定理13.1说明,Q学习不需要用最优动作进行训练,就

12、可以收敛到最优策略 可以改变训练转换样例的序列,以改进训练效率而不危及最终的收敛性 图13-1的例子,以逆序方式执行更新,那么在第一个情节后,agent会沿着通向目标的路径对每个转换更形Q估计,这个过程要求更多的内存来存储整个情节,但会在更少的循环次数内收敛 第二个策略是存储过去的状态-动作转换,以及相应收到的立即回报,然后周期性地在其上重新训练 重放旧的转换相比于从环境中获得新转换的程度取决于两种操作的开销,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,18,非确定性回报和动作,考虑非确定性情况,即回报函数和转换函数有概率的输出,比如西洋双陆

13、棋,输出的动作具有固定的概率性 把处理确定性情况的方法扩展到非确定性的情况,一种一般化的方法是引入期望值 把非确定性情况下的Q(s,a)简单地重定义为在确定性情况下定义的量的期望值,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,19,非确定性回报和动作(2),前面对确定性情形推导的训练法则不能够在非确定性条件下收敛 ?,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,20,时间差分学习,Q学习算法是时间差分算法中的特例,时间差分算法的学习过程是减小机器人在不同的时间做出估计间的差异 基于单步、两步

14、、多步前瞻计算的训练值,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,21,时间差分学习(2),Sutton使用的合并从不同前瞻距离中获得的估计的TD()法 一个等价的递归定义 如果选择=0,则得到原来的训练估计Q(1),它只考虑 估计中的单步差异,当增大时,算法重点逐渐转移到更远的前瞻步 TD()方法的动机是,在某些条件下,如果考虑更远的前瞻,训练会更有效 如果机器人遵循最优策略选择动作,=1时将提供对真实Q值的完美估计,而不能 多么不准确,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,22,

15、从样例中泛化,Q学习中,只有每个可能的状态-动作被无限频繁的访问,学习过程才会收敛,执行效率很低 比较实际的系统通常在Q学习中合并使用其他章讨论的函数逼近方法 把反向传播算法结合到Q学习中,方法是用神经网络替代查找表,把每个 更新作为训练样例,例如 把状态s和动作a编码为网络输入,并使用式子13.7和13.10训练网络 一旦引入了泛化函数逼近器,增强学习将不能收敛,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,23,与动态规划的联系,像Q学习这样的增强学习方法,与用于解决马尔科夫决策过程的动态规划方法有紧密的关系 Q学习的新颖之处在于它假定不具

16、有环境的完美知识,因此不能在内部模拟的状态空间移动中学习,而必须在现实世界的移动中观察后果 我们主要考虑机器人为收敛到一个可接受的策略必须执行的真实世界动作的数量,而不是计算迭代次数,这是因为在外部世界中执行动作的时间和费用开销比计算开销更值得关注 在真实环境中移动学习并观察结果的系统通常称为在线系统,而主要通过模型模拟动作的学习的被称为离线系统,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,24,与动态规划的联系(2),Bellman等式形成了解决MDP的动态规划方法的基础,形式如下 Bellman证明了最优策略满足上式,且满足上式的任何策略

17、为最优策略 动态规划早期的工作包括Bellman-Ford最短路径算法,它基于节点邻居的距离,通过不断更新每个图节点到终点的估计距离来学习图中的路径,图的各边以及目标节点已知的假定,等价于移动函数和回报函数已知的假定,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,25,小结,增强学习解决自治机器人学习控制策略的问题,目标是使机器人从任意起始状态收到的总回报最大化 本章介绍的增强学习算法适合一类被称为马尔科夫决策过程的问题,即应用任意动作到任意状态上的输出只取决于当前动作和状态 Q学习是增强学习的一种形式,其中机器人学习的是一组状态和动作上的估计

18、函数,它被定义为最大期望折算积累回报,算法可用在不具备动作怎样影响环境的先验知识情况下 在一定假定下,Q学习具备收敛性,实践中需要大量的训练循环 Q学习是更广泛的时间差分算法中的一种,时间差分算法通过不断减小在不同时间内产生的估计间的差异来学习 增强学习与动态规划有密切联系,关键差异是,动态规划假定拥有状态转移函数和回报函数的知识,而Q学习假定缺乏这些知识,2003.12.18,机器学习-增强学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,26,补充读物,Samuel1959,西洋双陆棋学习程序 Bellman1958,Ford & Fulkerson1962,最短路径算法 Holland1986,学习分类系统的组桶式方法 Barto et al.1983,时间信用分配方法 Sutton1988,Dayan1992,TD()方法 Watkin1989,Q学习 McCallum1995和Littman1996,增强学习的扩展 .,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1