普林斯顿大学最系统的强化学习讲义现已上线!
系统总结了强化学习领域几乎所有的概念和方法,包括多臂老虎机问题。
每章都包含pytorch实现的公式和源代码的完整解决方案。
详细目录
1。多臂老虎机:强化学习侧重于智能体与环境交互过程中的学习。在正式学习强化学习之前,需要了解多臂老虎机问题,通常可以将其视为强化学习问题的简化版本。与强化学习不同,多臂老虎机没有状态信息,只有动作和奖励,可以被认为是“与环境交互中学习”的最简单形式。多臂老虎机中的探索和利用问题一直是一个经典问题,理解它将有助于你以后了解强化学习是什么。
2。动态规划:基于动态规划的强化学习算法主要有两种类型。一种是策略迭代,另一种是值迭代。其中,策略迭代有两部分: 策略评估(Policy Evaluation)和策略改进(Policy Improvement)。具体来说,策略迭代中的策略评估使用贝尔曼期望方程来获得策略的状态值函数。这是一个动态规划过程。值迭代直接利用贝尔曼最优方程进行动态规划,得到最终的最优状态值。
3。马尔可夫决策过程(MDP):马尔可夫奖励过程(Markov Reward Process)是强化学习的基础。要成功学习强化学习,您必须首先清楚地了解马尔可夫决策过程的基础知识。我们通常在强化学习中谈论的环境一般是马尔可夫决策过程。与多臂老虎机不同,马尔可夫决策过程包括状态信息和状态之间的转换机制。如果你想用强化学习来解决一个实际问题,你必须采取的第一步就是将实际问题抽象为一个马尔可夫决策过程,即明确定义马尔可夫决策过程的各个组成部分。在本节中,我们将逐步介绍马尔可夫过程,从马尔可夫过程开始,最后介绍马尔可夫决策过程。
4。 时差学习:两种经典的强化学习算法:Sarsa和Q-learning都是基于时差的强化学习算法。与之前学习的基于动态规划的算法不同,基于时间差的算法不需要提前知道环境的状态转移函数或奖励函数,而是使用通过与环境交互而采样的数据,因为它可以直接使用,它应该适用于一些简单的实际场景中的人。同时,本课程还介绍了一套:线上线下策略学习理念。一般来说,离线策略学习可以更好地利用历史数据,从而导致样本复杂度较低(算法必须在环境中采样才能达到收敛结果的样本数量),并且一般离线策略学习算法更为常见。
5:在强化学习中,模型通常是指对环境的状态转换和奖励函数进行建模。根据环境中是否存在模型,强化学习技术可以分为两种类型:基于模型的强化学习和无模型强化学习。无模型强化学习直接根据通过与环境交互采样的数据改进策略并估计价值。 Sarsa算法和Q-learning算法是两种无模型强化学习方法,后续课程介绍的大部分方法也都是无模型强化学习方法。基于模型的强化学习允许模型预先已知或基于通过与环境交互采样的数据来学习,并且该模型可用于改进策略和估计价值。策略迭代和值迭代是基于模型的强化学习技术,其中环境模型是预先已知的。本课程介绍的Dyna-Q算法也是一种非常基础的基于模型的强化学习方法,其环境模型是通过估计得到的。
6。 DQN(Deep Q-Network):在类似CartPole的环境中获取动作价值函数Q(s,a),不能使用公共表记录,因为状态的每个维度都是连续的。解决方案这就是利用FunctionAccumulation的思路。由于神经网络强大的表示能力,我们可以用它们来表示Q函数。如果动作是无限的,神经网络的输入是状态s和动作a,输出是一个标量,表示在状态s下执行动作a可以获得的值。
7。政策梯度:
核心思想:策略梯度算法的核心思想是通过梯度上升逐步优化策略,以最大化累积奖励。在算法中,策略通常表示为参数化概率分布,智能体根据该分布选择动作。策略的参数化表示决定了行为策略的具体形式。智能体的目标是找到最优的策略参数集,使其在根据策略与环境交互时获得最大的累积奖励。主要组成部分:策略梯度算法的主要组成部分包括状态值函数、策略和策略梯度。策略是从状态到行动的概率分布,指导代理在环境中做出决策。策略梯度是策略相对于状态值函数的梯度,用于指导策略梯度算法的梯度上升。
8。
基本的
Actors(策略网络):Actors将当前状态作为输入并输出动作的概率分布。然后,参与者根据这个概率分布选择并执行一个动作。攻击者的目标是最大化预期累积奖励。 Critic(价值网络):Critic将当前状态(或状态-动作对)作为输入,并输出表示当前状态(或状态-动作对)的值的标量值。该值通常是对未来累积补偿的估计。批评家的目标是准确评估价值函数。
在学习这些知识点时,最好先掌握线性代数、概率统计、优化技术等基础数学和机器学习概念。同时,学生将通过实践和阅读加深对古典文学的理解和掌握。
见下图了解如何获取全套名校讲义。
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。