Comments|Quantifying Differences in Reward Functions

本文工作的原始动因: 对很多任务,奖励函数太复杂以至于难以过程化指定,并且必须从用户数据中学到。以往工作已经通过检查从一个针对学到的奖励优化的策略产生的展开评价了奖励函数。 问题之所在: 这个方法不能区分学到的无法反应用户偏好奖励函数和无法优化学到的奖励的强化学习算法。而且,展开方法对用来评价学到奖励的环境细节极其敏感,这常常在部署环境中有差异。 解决思路: 引入了等价策略不变量比对(Equivalent-Policy Invariant Comparison,EPIC)距离来直接量化不同奖励函数的差距,而不需要训练一个策略。 结果总结: 证明了 EPIC 在一个总是规约到同样的最优策略的奖励函数的等价类上是不变的发现 EPIC 可以被准确地近似并且访问分布的选择比基线更为健壮发现学到的奖励函数到真实奖励 EPIC 距离对预测训练一个策略对成功有效,甚至在不同的转换动力系统中。 文章链接:https://arxiv.org/abs/2006.13900