1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

时间:2020-12-04 01:10:20

相关推荐

RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

1 废话

开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~

今天先介绍第一篇,也是深度强化学习的开山之作。

2 动机

一般把这篇论文称作深度强化学习的第一篇论文,该论文发表与,受到Hitton和学生Alex在image net获得冠军的影响,第一次将深度学习和强化学习结合,其实就是用了CNN做观测的处理。

3 内容

(1)观测的图像的预处理(后文提到的观测为预处理后的):把210*160,128种颜色的转为灰度图,然后下采样得到110*84,然后裁剪为84*84。

(2)观测到状态的处理:将最近的4次的观测作为当前的状态,也就是网络的输入是84*84*4。

(3)网络结构:第一个隐藏层是16个8*8的卷积核,stride为4,激活函数为rectifier nonlinearity(我看不懂,是RELU吗?求解);第二个隐藏层是32个4*4的卷积核,stride为2,激活函数同样为rectifier nonlinearity;第三个隐藏层是全连接,256个神经元;最后输出层同样是全连接,神经元个数与动作个数相同(4到18个)。

(4)经验回放(Experience Replay):一个FIFO,大小为1000万。

(5)奖赏的设定:获得正的游戏分数时奖赏为1,负的为-1,否则为0.

(6)训练的过程:优化方法为RMSProp,batch size 为32,训练时使用-greedy,其中在前100万次训练中从1降到0.1,之后一直未0.1.

(7)算法:如下图:

DQN算法

4 结果

测试了7个游戏,6个超越现有算法,3个超越人类顶尖选手,主要是算法具有通用性,不同的游戏网络结构和超参数基本一样,不需要先验知识,而当前算法需要很多专家知识,所以可以说是结果特别好吧。

参考:Playing Atari with Deep Reinforcement Learning

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。