关于TD Learning算法的分析.doc

资源描述

《关于TD Learning算法的分析.doc》由会员分享，可在线阅读，更多相关《关于TD Learning算法的分析.doc（5页珍藏版）》请在三一文库上搜索。

1、关于TD Learning算法的分析导读：人工智能之机器学习主要有三大类：1）分类；2）回归；3）聚类。今天我们重点探讨一下TD Learning算法。TD Learning时序差分学习结合了动态规划DP和蒙特卡洛MC方法，且兼具两种算法的优点，是强化学习的核心思想。虽然蒙特卡罗MC方法仅在最终结果已知时才调整其估计值，但TD Learning时序差分学习调整预测以匹配后，更准确地预测最终结果之前的未来预测。TD Learning算法概念：TD Learning（TemporalDifference Learning）时序差分学习指的是一类无模型的强化学习方法，它是从当前价值函数估计的自举过

2、程中学习的。这些方法从环境中取样，如蒙特卡洛方法，并基于当前估计执行更新，如动态规划方法。TD Learning算法本质：TD Learning（TemporalDifferenceLearning）时序差分学习结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。时序差分不好理解。改为当时差分学习比较形象一些，表示通过当前的差分数据来学习。蒙特卡洛MC方法是模拟（或者经历）一段序列或情节，在序列或情节结束后，根据序列或情节上各个状态的价值，来估计状态价值。TD Learning时序差分学习是模拟（或者经历）一段序列或情节，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。可以

3、认为蒙特卡洛MC方法是最大步数的TD Learning时序差分学习。TD Learning算法描述：如果可以计算出策略价值（状态价值v（s），或者行动价值q（s，a），就可以优化策略。在蒙特卡洛方法中，计算策略的价值，需要完成一个情节，通过情节的目标价值Gt来计算状态的价值。其公式：MC公式：V（St）V（St）ttGt？V（St）这里：t MC误差 MC学习步长TD Learning公式：V（St）V（St）ttRt1V（St1）？V（St）这里：t TD Learning误差 TD Learning步长 TD Learning报酬贴现率TD Learning时间差分方法的目标为Rt1 V（

4、St1），若V（St1）采用真实值，则TD Learning时间差分方法估计也是无偏估计，然而在试验中V（St1）用的也是估计值，因此TD Learning时间差分方法属于有偏估计。然而，跟蒙特卡罗MC方法相比，TD Learning时间差分方法只用到了一步随机状态和动作，因此TD Learning时间差分方法目标的随机性比蒙特卡罗MC方法中的Gt 要小，因此其方差也比蒙特卡罗MC方法的方差小。TD Learning分类：1）策略状态价值v的时序差分学习方法（单步多步）2）策略行动价值q的onpolicy时序差分学习方法： Sarsa（单步多步）3）策略行动价值q的offpolicy时序差

5、分学习方法： Qlearning（单步），Double Qlearning（单步）4）策略行动价值q的offpolicy时序差分学习方法（带importance sampling）： Sarsa（多步）5）策略行动价值q的offpolicy时序差分学习方法（不带importance sampling）： Tree Backup Algorithm（多步）6）策略行动价值q的offpolicy时序差分学习方法： Q（）（多步）TD Learning算法流程：1）单步TD Learning时序差分学习方法：IniTIalizeV（s） arbitrarily ？sSRepeat（for each

6、episode）：？IniTIalize S？Repeat （for each step of episode）：？ AacTIongiven by for S？Take acTIon A， observe R，S？V（S）V（S）RV（S）？V（S）？ SS？Until S is terminal2）多步TD Learning时序差分学习方法：Input：the policy to be evaluatedInitializeV（s） arbitrarily ？sSParameters：step size （0，1， a positive integer nAllstore and acce

7、ss operations （for St and Rt） can take their index mod nRepeat（for each episode）：？Initialize and store S0terminal？ T？ Fort0，1，2，？：？ IftTtT， then：？Take an action according to （ St）？Observe and store the next reward as Rt1 and the next state as St1？If St1 is terminal， then Tt1？ t？n1（ is the time whose

8、 states estimate is being updated）？ If00：？ Gmin（n，T）i1i？1Ri？if nTnT then： GGnV（Sn）（G（n）？V（S）V（S）G？V（S）？Until T？1注意：V（S0）是由V（S0），V（S1），V（Sn）计算所得；V（S1）是由V（S1），V（S1），V（Sn1）计算所得。TD Learning理论基础TD Learning理论基础如下：1）蒙特卡罗方法2）动态规划3）信号系统TD Learning算法优点：1）不需要环境的模型；2）可以采用在线的、完全增量式的实现方式；3）不需等到最终的真实结果；4）不局限于episo

9、de task；5）可以用于连续任务；6）可以保证收敛到 v，收敛速度较快。TD Learning算法缺点：1）对初始值比较敏感；2）并非总是用函数逼近。TD Learning算法应用：从应用角度看，TD Learning应用领域与应用前景都是非常广阔的，目前主要应用于动态系统、机器人控制及其他需要进行系统控制的领域。结语：TD Learning是结合了动态规划DP和蒙特卡洛MC方法，并兼具两种算法的优点，是强化学习的中心。TD Learning不需要环境的动态模型，直接从经验经历中学习；也不需要等到最终的结果才更新模型，它可以基于其他估计值来更新估计值。输入数据可以刺激模型并且使模型做出反应。反馈不仅从监督学习的学习过程中得到，还从环境中的奖励或惩罚中得到。TD Learning算法已经被广泛应用于动态系统、机器人控制及其他需要进行系统控制的领域。

展开阅读全文