直接策略的RL直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页