强化学习笔记-05 蒙特卡罗方法Monte Carlo Method _函数

本文是博主对《 - An 》的阅读笔记，不涉及内容的翻译，主要为个人的理解和思考。
上一节介绍了通过动态规划法来解决强化MDP环境下的学习问题，动态规划法假设环境是完全可知，即对于状态动作间的转换概率p(s’,r|s,a)是完全可知，或者说给定状态state和运作，可以确定性地知道下一状态。
但对于环境不可知的情况下，这时可以用蒙特卡罗方法来解决，其是通过从实际环境中去采样（）一系列状态、行动来获得真实奖励，此时状态动作的价值可以通过平均奖励来估计。
整体蒙特卡罗的学习还是基于通用两迭代过程（GPI），分为()和。阶段固定，完成价值函数value 的估计。而在中，通过价值函数估计来优化。对于蒙特卡罗方法，其关键在于价值函数value 的估计。完成价值函数估计后，优化便顺理成章了。
1. 蒙特卡罗方法 A.
前面分析了价值函数存在状态价值函数和动作价值函数两种，但是对于环境未知的情况下，已知状态的价值函数，却无法推导出函数，因为无法确定当前状态和动作的下一状态。因此蒙特卡罗需要预估的是动作价值函数即
，其估计值为当前状态和动作下未来收益的平均值：
蒙特卡罗方法将训练过程分成多轮，每一轮称为一个，在每一轮会从某个初始状态
和初始动作
开始，并从环境中采样一系列状态、动作、奖励序列：
其中
表示状态
和动作
首次出现之后的累积收益，即：
B.
函数可以直接根据价值函数
来计算，但是因为蒙特卡罗方法根据函数来采样一系列状态动作，如果
太硬，会导致某些状态动作一直没有机会被采样，换而言之，可能丢失探索（）最优解的机会，因此一种思路是采用ε-的方法，下式中
【强化学习笔记-05 蒙特卡罗方法Monte Carlo Method】表示状态
下可能采取的动作
的数量。
另一种方法是选择初始状态和动作时，让每一对状态和动作都有一定概率选择，称为。
2. off-蒙特卡罗方法
前文我们讨论了强化学习方法存在和的权衡，一方面需要往更优的方向去寻找，另一方面需要探索新的方向。我们之前方法是根据ε-等方法调整函数，来兼顾和，这种通过目标函数来产出下轮训练数据的方法，称为on-方法。
另一种更为直观的方法是将和过程分别拆分两个函数，其中优化函数称为，而另外一个专门用于生成状态和动作对，用于探索的决策函数称为，下轮训练数据不通过目标函数产出，因此称为off-方法。off-方法描述了一种更为通用的强化学习方法。
另一个问题是在off-中，函数和函数会存在分布不一致，这个不一致会带来预估的偏差，因此多数的off-策略引入重要性采样，来调整函数和函数间的偏差。
A.重要性采样-
对于蒙特卡罗方法，这个偏差主要在通过函数
产出的采样序列生成概率上不同，假设由初始状态

文章插图
，通过决策函数确定动作
，最终生成一系列的序列：
其生成概率可以表示为：
函数
和函数
间偏差可以表示为：
此时我们修正累积收益的偏差：
B. 带权重的重要性采样
通过重要性采样，我们会在原有累积收益上乘上了一个偏差因子，这个偏差因子可能会因为函数和函数间的偏差而变得很大，从而导致同真实观察间的偏差太大，很难帮助函数的学习，因此是在计算价值函数时，将偏差因子的也代入：
但这种方式显示是有偏的，其价值函数估计更偏向于，但是其预估更为稳定。