AlphaGo算法中,深度策略网络为了避免对局的网络过于相似出现的过拟合,采用下列那些策略()A将监督学习的网络复制作为增强学习的初始网络B将当前版本网络与之前随即版本对局,得到输赢结果C利用reinforce算法更新参数最大化结果D每次迭代就复制当前网络参数到对手池中

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页