1500字范文 > 【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

时间：2024-01-06 18:10:44

文章目录

所解决的问题？背景所采用的方法？取得的效果？所出版信息？作者信息？参考链接论文题目：Dueling Network Architectures for Deep Reinforcement Learning

所解决的问题？

主要贡献是提出了一种新的应用于强化学习的神经网络框架。

背景

之前对强化学习的改进主要是集中在对现有的网络结构的改变，像什么引入卷积神经网络，LSTM和Autoencoder这些。而这篇文章是提出了一种新的神经网络结构更好地去适应model-free的强化学习算法框架。

所采用的方法？

这篇文章主要是提出了一种新的model-free强化学习框架。主要是将动作值函数拆开来，将其表示为状态值函数 (state values) V(s)V(s)V(s)和动作优势函数 ((state-dependent) action advantages) A(s,a)A(s,a)A(s,a)，将这两者一结合组成状态动作值函数 (state-action value) Q(s,a)Q(s,a)Q(s,a)。

优势函数(advantage function)的定义如下：

Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s) Aπ(s,a)=Qπ(s,a)−Vπ(s)

其中Ea∼π(s)[Aπ(s,a)]=0\mathbb{E}_{a \sim \pi(s)}\left[A^{\pi}(s, a)\right]=0Ea∼π(s)[Aπ(s,a)]=0。值函数VVV反应的是当前这个状态sss有多好，动作值函数QQQ描述的是在当前这个状态下选择这个动作的好坏程度。而优势函数说的是每个动作的重要程度。

这里主要的思想就是引入一个相对的概念，100+2跟2+2虽然都是多2，但是寓意完全不同。将优势函数和值函数分开它的鲁棒性是会更强的。

上述问题中其实是有一个约束Ea∼π(s)[Aπ(s,a)]=0\mathbb{E}_{a \sim \pi(s)}\left[A^{\pi}(s, a)\right]=0Ea∼π(s)[Aπ(s,a)]=0，并且当你给定一个QQQ的时候，并不能得出独一无二的VVV和AAA。作者在解决这两个问题所做的处理就是将AAA减去一个平均值，这样所有的AAA加起来会等于0，并且能够得到唯一的VVV。其方程可描述为如下形式：

Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−1∣A∣∑a′A(s,a′;θ,α))\begin{aligned} Q(s, a ; \theta, \alpha, \beta) &=V(s ; \theta, \beta)+\\ & \left(A(s, a ; \theta, \alpha)-\frac{1}{|\mathcal{A}|} \sum_{a^{\prime}} A\left(s, a^{\prime} ; \theta, \alpha\right)\right) \end{aligned} Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−∣A∣1a′∑A(s,a′;θ,α))

其中θ\thetaθ描述的是卷积神经网络参数，α\alphaα，β\betaβ是两个分支的全连接神经网络参数。并且这种方式训练起来会更稳定一些。

Dueling的这种结构能够去学习：哪个状态是有价值的或者说是没有价值的，而不是去学习在这个状态下哪个动作是有价值的。因为有些情况是，你在当前这个状态下，选择什么动作都是可以的，也就是所选择的动作对环境影响不大。

Value这个分支更关心的路，当然还有分数，当没有车的时候，advantage并不需要关心太多事情，因为做什么动作都不会出太大问题，而当有车的时候，advantage就会关心前方的车辆。

取得的效果？

作者先是在一个简单问题上做了一下实验，实验结果如下所示：

之后作者还将其引用与更加普遍的Atari游戏中，并且在这里就用了限制梯度(gradient clipping) 更新过大的思想。参考的是下面这篇文献。

Bengio, Y., Boulanger-Lewandowski, N., and Pascanu, R.Advances in optimizing recurrent networks. In ICASSP, pp. 8624–8628, .

作者在讨论部分就说了，Dueling的这种结构的优势在于学习效率，ValueV(s)V(s)V(s)的更新将会触及到所有的动作跟着valueV(s)V(s)V(s)一起更新，如果是Q的话，你只能更新当前状态下的状态-动作值函数。

所出版信息？作者信息？

这篇文章来自年谷歌DeepMind的文章，被International Conference on Machine Learning收录。作者Ziyu Wang，谷歌DeepMind的研究科学家。博士毕业于Oxford大学，师从Nando de Freitas。早年从事的工作主要是贝叶斯优化，现在主要研究深度强化学习。

参考链接

这篇文章也是受前人Baird思想的启发，将贝尔曼方程的更新分成两部分，状态值函数的更新和优势函数的更新。

Baird, L.C.Advantage updating. Technical Report WLTR-93-1146, Wright-Patterson Air Force Base, 1993.

并且Advantage updating收敛性更好。

Harmon, M.E., Baird, L.C., and Klopf, A.H.Advantage updating applied to a differential game. In G. Tesauro, D.S. Touretzky and Leen, T.K. (eds.), NIPS, 1995.

优势函数只表示单一的一个优势函数。

Harmon, M.E. and Baird, L.C.Multi-player residual advantage learning with general function approximation. Technical Report WL-TR-1065, Wright-Patterson Air Force Base, 1996.

但是它与advantage updating不一样的地方在于，算法是通过网络结构对其解耦，因此可以用于model free强化学习算法中。

将优势函数用于策略梯度算法其实有很长一段历史了。最早的话可以追溯到2000年sutton的的将函数近似用于策略梯度的这篇论文：

Sutton, R. S., Mcallester, D., Singh, S., and Mansour, Y.Policy gradient methods for reinforcement learning with function approximation. In NIPS, pp. 1057–1063, 2000.

在年也有Schulman等人将优势函数应用于减少策略梯度的方差。

Schulman, J., Moritz, P., Levine, S., Jordan, M. I., and Abbeel, P.High-dimensional continuous control using generalized advantage estimation. arXiv preprint arXiv:1506.02438, .