针对经典深度Q网络(DepΩ Network,DQN)算法在训练初期收敛速度慢的问题,文中提岀一种新的基于函数逼近协同更新的DQN算法。该算法在经典的DQN算法的基础上融合了线性函数方法,在训练的初期利用线性函数逼近器来代替神经网络中的行为值函数网络,并提出一种离策略值函数更新规则,与DQN协同更新值函数参数,加快神经网络的参数优化,进而加快算法的收敛速度。将改进后的算法与DQN算法用于 Cartpole和 Mountain car问题,实验结果表明,改进后的算法具有更快的收敛速度。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !