强化学习笔记-05 蒙特卡罗方法Monte Carlo Method

本文是博主对《 - An 》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考 。
上一节介绍了通过动态规划法来解决强化MDP环境下的学习问题,动态规划法假设环境是完全可知,即对于状态动作间的转换概率p(s’,r|s,a)是完全可知,或者说给定状态state和运作,可以确定性地知道下一状态 。
但对于环境不可知的情况下,这时可以用蒙特卡罗方法来解决,其是通过从实际环境中去采样()一系列状态、行动来获得真实奖励,此时状态动作的价值可以通过平均奖励来估计 。
整体蒙特卡罗的学习还是基于通用两迭代过程(GPI),分为()和。阶段固定,完成价值函数value 的估计 。而在 中,通过价值函数估计来优化 。对于蒙特卡罗方法,其关键在于价值函数value 的估计 。完成价值函数估计后,优化便顺理成章了 。
1. 蒙特卡罗方法 A.
前面分析了价值函数存在状态价值函数和动作价值函数两种,但是对于环境未知的情况下,已知状态的价值函数,却无法推导出函数,因为无法确定当前状态和动作的下一状态 。因此蒙特卡罗需要预估的是动作价值函数即
,其估计值为当前状态和动作下未来收益的平均值:
蒙特卡罗方法将训练过程分成多轮,每一轮称为一个,在每一轮会从某个初始状态
和初始动作
开始,并从环境中采样一系列状态、动作、奖励序列:
其中
表示状态
和动作
首次出现之后的累积收益,即:
B.
函数可以直接根据价值函数
来计算,但是因为蒙特卡罗方法根据函数来采样一系列状态动作,如果
太硬,会导致某些状态动作一直没有机会被采样,换而言之,可能丢失探索()最优解的机会,因此一种思路是采用ε-的方法,下式中
【强化学习笔记-05 蒙特卡罗方法Monte Carlo Method】表示状态
下可能采取的动作
的数量 。
另一种方法是选择初始状态和动作时,让每一对状态和动作都有一定概率选择,称为。
2. off-蒙特卡罗方法
前文我们讨论了强化学习方法存在和的权衡,一方面需要往更优的方向去寻找,另一方面需要探索新的方向 。我们之前方法是根据ε-等方法调整函数,来兼顾和,这种通过目标函数来产出下轮训练数据的方法,称为on-方法 。
另一种更为直观的方法是将和过程分别拆分两个函数,其中优化函数称为,而另外一个专门用于生成状态和动作对,用于探索的决策函数称为,下轮训练数据不通过目标函数产出,因此称为off-方法 。off-方法描述了一种更为通用的强化学习方法 。
另一个问题是在off-中,函数和 函数会存在分布不一致,这个不一致会带来预估的偏差,因此多数的off-策略引入重要性采样,来调整 函数和 函数间的偏差 。
A.重要性采样-
对于蒙特卡罗方法,这个偏差主要在通过函数
产出的采样序列生成概率上不同,假设由初始状态

强化学习笔记-05 蒙特卡罗方法Monte Carlo Method

文章插图
,通过决策函数确定动作
,最终生成一系列的序列:
其生成概率可以表示为:
函数
和 函数
间偏差可以表示为:
此时我们修正累积收益的偏差:
B. 带权重的重要性采样
通过重要性采样,我们会在原有累积收益上乘上了一个偏差因子,这个偏差因子可能会因为 函数和 函数间的偏差而变得很大,从而导致同真实观察间的偏差太大,很难帮助 函数的学习,因此是在计算价值函数时,将偏差因子的也代入:
但这种方式显示是有偏的,其价值函数估计更偏向于,但是其预估更为稳定 。