Warning: session_start() expects parameter 1 to be array, string given in /www/wwwroot/blog/wp-includes/class-wp-hook.php on line 288
强化学习 | 野风
  • 欢迎访问我的个人博客,如遇博客图片无法显示,请用IE浏览器访问。
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧!

标签:强化学习

强化学习——从Q-Learning到DQN到底发生了什么?

学习目标 复习Q-Learning; 理解什么是值函数近似(Function Approximation); 理解什么是DQN,弄清它和Q-Learning的区别是什么。 用Q-Learning解决经典迷宫问题 现有一个5房间的房子,如图1所示,房间与房间之间通过门连接,编号0到4,5号是房子外边,即我们的终点。我们将agent随机放在任一房间内,每打开……

强化学习——时序差分算法

学习目标 理解TD(0)的预测(prediction)问题; On-policy控制(control)算法SARSA; Off-policy控制(control)算法Q-learning; TD算法相对于MC算法和DP算法的优势; 简介 这次要介绍的时序差分(Temporal-Difference)算法应该是强化学习中最为核心的算法了,它结合了前面讲到的……

强化学习——蒙特卡洛方法

学习目标 理解Prediction和Control的差别; 理解什么是first-visit和every-visit; 理解什么是on-policy和off-policy; 理解蒙特卡洛方法的Prediction和Control问题; Prediction和Control 其实这两个名词在总结动态规划方法的文章中也提到过了,但是没有细说,这里再简单的说明……

强化学习——MDPs求解之动态规划

学习目标 理解策略评估(Policy Evaluation)和策略提升(Policy Improvement); 理解策略迭代(Policy Iteration)算法; 理解值迭代(Value Iteration)算法; 理解策略迭代和值迭代的不同之处; 动态规划方法的局限性; Python实现格子世界(Gridworld)策略迭代和值迭代。 动态规划(……

强化学习——马尔科夫决策过程和贝尔曼方程

学习目标 Agent和Environment之间的交互过程; 理解马尔科夫决策过程(Markov Decision Processes,MDPs)和如何解读转换图; 理解值函数(Value Functions)、动作值函数(Action-Value Functions)和决策函数(Policy Functions) 理解贝尔曼方程(Bellma……

强化学习——环境库OpenAI Gym

前言 前段时间各大新闻媒体都在报道SpaceX的马斯克,因为其公司成功发射“猎鹰9号”火箭。马斯克是一个极具传奇色彩的人物,其成就也足以让他名垂青史。但今天我们要讨论的不是马斯克这个人,而是马斯克牵头建立的人工智能非营利组织OpenAI下一个强化学习工具库Gym,它可以被用来开发和比较强化学习算法。 简单的说,gym就是提供了强化学习中与agent交互的en……

强化学习——简介

前言 我最先了解到强化学习还是看见论文中有使用强化学习算法去玩游戏,并且玩的比人类还好,之后AlphaGo系列的围棋机器人战胜世界高手也让我更进一步知道了强化学习的威力。本系列强化学习笔记将以DeepMind AlphaGo的主要研究人员David Silver《深度强化学习》视频公开课以及强化学习圣经——《Reinforcement Learning:An……