目前强化学习探索策略主要有将特定状态动作对的价值函数用计数器的频数统计的蒙特卡罗方法和基于步骤样例学习的时间差分方法

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页