Warning: session_start() expects parameter 1 to be array, string given in /www/wwwroot/blog/wp-includes/class-wp-hook.php on line 288
算法 | 野风
  • 欢迎访问我的个人博客,如遇博客图片无法显示,请用IE浏览器访问。
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧!

标签:算法

强化学习——从Q-Learning到DQN到底发生了什么?

学习目标 复习Q-Learning; 理解什么是值函数近似(Function Approximation); 理解什么是DQN,弄清它和Q-Learning的区别是什么。 用Q-Learning解决经典迷宫问题 现有一个5房间的房子,如图1所示,房间与房间之间通过门连接,编号0到4,5号是房子外边,即我们的终点。我们将agent随机放在任一房间内,每打开……

强化学习——时序差分算法

学习目标 理解TD(0)的预测(prediction)问题; On-policy控制(control)算法SARSA; Off-policy控制(control)算法Q-learning; TD算法相对于MC算法和DP算法的优势; 简介 这次要介绍的时序差分(Temporal-Difference)算法应该是强化学习中最为核心的算法了,它结合了前面讲到的……

强化学习——蒙特卡洛方法

学习目标 理解Prediction和Control的差别; 理解什么是first-visit和every-visit; 理解什么是on-policy和off-policy; 理解蒙特卡洛方法的Prediction和Control问题; Prediction和Control 其实这两个名词在总结动态规划方法的文章中也提到过了,但是没有细说,这里再简单的说明……

一文弄懂算法的时间和空间复杂度分析

前言 一般来说,解决问题的方法不止一种。我们需要学习如何比较不同算法的性能,并选择最佳算法来解决特定的问题。一个算法的好坏,我们可以从时间和空间两个维度去衡量。并且,一般分为两个阶段,一是算法完成前的理论分析,二是算法完成后实际分析。 - 理论分析:这种算法的效率分析是通过假设所有其他因素,如处理器的速度等是恒定的,对算法的实现没有影响。 - 实际分析:当算……