AlphaGo算法中，深度策略网络为了避免对局的网络过于相似出现的过拟合，采用下列那些策略（）A将监督学习的网络复制作为增强学习的初始网络B将当前版本网络与之前随即版本对局，得到输赢结果C利用reinforce算法更新参数最大化结果D每次迭代就复制当前网络参数到对手池中