将监督学习的网络复制作为增强学习的初始网络;将当前版本网络与之前随即版本对局,得到输赢结果;利用reinforce算法更新参数最大化结果;每次迭代就复制当前网络参数到对手池中第六章传统机器学习单元小测

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页