1500字范文 > RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

时间：2020-12-04 01:10:20

1 废话

开始要认真的读论文的，计划每天晚上回宿舍看一半，两天看完一篇，第三天写博客总结，虽然有点慢吧，但是积少成多嘛~

今天先介绍第一篇，也是深度强化学习的开山之作。

2 动机

一般把这篇论文称作深度强化学习的第一篇论文，该论文发表与，受到Hitton和学生Alex在image net获得冠军的影响，第一次将深度学习和强化学习结合，其实就是用了CNN做观测的处理。

3 内容

（1）观测的图像的预处理（后文提到的观测为预处理后的）：把210*160，128种颜色的转为灰度图，然后下采样得到110*84，然后裁剪为84*84。

（2）观测到状态的处理：将最近的4次的观测作为当前的状态，也就是网络的输入是84*84*4。

（3）网络结构：第一个隐藏层是16个8*8的卷积核，stride为4，激活函数为rectifier nonlinearity（我看不懂，是RELU吗？求解）；第二个隐藏层是32个4*4的卷积核，stride为2，激活函数同样为rectifier nonlinearity；第三个隐藏层是全连接，256个神经元；最后输出层同样是全连接，神经元个数与动作个数相同（4到18个）。

（4）经验回放（Experience Replay）：一个FIFO，大小为1000万。

（5）奖赏的设定：获得正的游戏分数时奖赏为1，负的为-1，否则为0.

（6）训练的过程：优化方法为RMSProp，batch size 为32，训练时使用-greedy，其中在前100万次训练中从1降到0.1，之后一直未0.1.

（7）算法：如下图：

DQN算法