Tech Blog

强化学习开源环境集

游戏环境 OpenAI Gym Retro OpenAI 发布的增强的游戏强化学习研究平台,Gym Retro。其中包括对任天堂 Game boy,NES, 世嘉游戏等各种模拟器的支持。通过附带的

解读TRPO论文,一种深度强化学习和传统优化方法结合的方法

导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research)。深度强化学习算法例如DQN或者P

深度强化学习之:Policy Gradient Theorem 一些理解

Policy gradient 定理作为现代深度强化学习的基石,同时也是actor-critic的基础,重要性不言而喻。但是它的推导和理解不是那么浅显,不同的资料中又有

解读深度强化学习基石论文:函数近似的策略梯度方法

导读:这篇式1999 年Richard Sutton 在强化学习领域中的经典论文,论文证明了策略梯度定理和在用函数近似 Q 值时策略梯度定理依然成立,本文奠定了

深度强化学习之:DQN训练超级玛丽闯关

上一期 MyEncyclopedia公众号文章 从Q-Learning 演化到 DQN ,我们从原理上讲解了DQN算法,这一期,让我们通过代码来实现任天堂

TSP问题从DP算法到深度学习4:概率最大状态序列算法

本篇是TSP问题从DP算法到深度学习系列第四篇,这一篇我们会详细举例并比较在 seq-to-seq 或者Markov Chain中的一些常见的搜索概率最大的状态序列

从零构建统计随机变量生成器之离散基础篇

在本系列中,我们会从第一性原理出发,从零开始构建统计学中的常见分布的随机变量生成器,包括二项分布,泊松分布,高斯分布等。在实现这些基础常见分

分享课程 Berkeley Deep Reinforcement Learning Bootcamp 2017

Berkeley 2017年联合了DeepMind 以及 OpenAI 举办了一个大咖云集的深度强化学习训练营,是难得的前沿深度强化学习佳品,本公众号 MyEncyclopedia 用代码实现了权威教材

通过代码学Sutton强化学习:从Q-Learning 演化到 DQN

上一期 MyEncyclopedia公众号文章 SARSA、Q-Learning和Expected SARSA时序差分算法训练CartPole 中,

TSP问题从DP算法到深度学习3:Pointer Network

本篇是TSP问题从DP算法到深度学习系列第三篇,在这一篇中,我们会开始进入深度学习领域来求近似解法。本文会介绍并实现指针网络(Pointer