通识强化学习,初步了解强化学习的运行规则和估值方法( 二 )


蒙特卡罗方法(Monte Carlo ):通过模拟多条路径来估计最优策略的方法 。
时序差分方法():通过利用未来奖励信息来估计最优策略的方法 。
强化学习的核心思想是智能体(AI)将通过与环境交互(通过反复试验)并接受奖励(负面或者正面)作为执行动作的反馈从环境中获取 。
强化学习是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成累计回报最大化或实现特定目标的问题 。
换句话来说,强化学习是一种学习如何从状态映射到行为,以使得获取的累积的奖励最大的学习机制 。
2.2.强化学习的构成要素
强化学习系统一般包括的要素有:智能体、环境、状态、行为、奖励、策略、价值以及模型 。
智能体:可以采取行动的智能个体,具有概率性 。
环境:指智能体行走于其中的世界,输入是智能体当前的状态和行动,输出是智能体的奖励和智能体下一步的状态 。
行动:智能体可以采取的行动,其构成的集合常用A来表示 。
奖励:衡量某个智能体的行动成败的反馈,可能是即时的,也可能是迟滞的 。
强化学习通过不断地与环境交互,不断优化智能体的策略,从而实现最大化预期奖励的目标 。
状态是在一个时间点下的动作体的整体描述,模型是这个世界的固有规律 。
智能体(agent)是作为智能决策的主体,也是RL的学习者 。智能体的目标的是最大化其收到的总效益 。
策略():智能体会用策略来选取下一步的动作
基于价值函数(value )得到最优策略:我们用价值函数来对当前状态进行评估 。价值函数用于评估智能体进入某个状态后,可以对后面的奖励带来的多大的影响,价值函数值越大,说明智能体进入这个状态越有利 。
智能体交互的所有内容都成为环境 。环境就是外部环境,它包括智能体之外的一切 。
确定的环境与随机环境 。

通识强化学习,初步了解强化学习的运行规则和估值方法

文章插图
离散环境和连续环境 。
完全可观测环境与部分可观测的环境 。
单智能体和多智能体环境 。是否有多个用户来区分 。
2.3.工作过程
强化学习过程:状态、动作、奖励和下一个状态的循环 。
马尔科夫性
马尔可夫性( )是一个数学概念,它描述了一个随机过程的状态,在一段时间内,状态会随着时间的变化而变化,但是状态之间的转移概率是固定的 。
它也是指系统的下一个状态St+1仅与当前状态St有关,而与之前的状态无关 。
马尔科夫决策过程(,MDP):MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励 。在MDP的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报 。MDP的理论基础是马尔可夫链,因此也被视为考虑了动作的马尔可夫模型 。
2.4.强化学习的主要特点
试错学习:强化学习需要训练对象不停地和环境进行交互,通过试错的方法去总结每一步的最佳行为决策 。
强化学习中的智能体通过与环境的交互来学习,而不是从外部导师那里获得指导 。
强化学习中的智能体能够延迟反馈,即智能体在即刻无法获得奖励的情况下,仍然可以通过选择合适的动作获得长期的收益 。
强化学习中的智能体可以在未知环境下进行学习,即智能体在面对全新环境时,可以通过不断试错来积累经验和知识,从而逐步提高自己的表现 。