基于奖励建模的可扩展智能体对齐

# Scalable agent alignment via reward modeling

By Jan Leike, DeepMind

Translated by Xiaohu Zhu, Founder of University AI, contact: neil@universityai.com

本文给出了一个新的研究论文综述,描述了解决智能体对齐问题研究方向的概况。我们的方法建立在递归应用奖励建模按照对齐用户意图的方式来解决复杂的真实世界问题。

近些年来,强化学习已经在复杂博弈(游戏)环境中取得了令人印象深刻的表现,从 Atari、Go 和 Chess 到 Dota2 和 Starcraft II,人工智能体快速在越来越复杂的领域中超过人类玩家水平。游戏是开发和测试机器学习算法的理想平台。它们所给出的挑战性任务涉及从认知能力到完成、复制在真实世界中解决问题的技巧。机器学习研究者们可以在云上并行地运行成千个模拟实验,生成足够多满足系统学习的训练数据。

最关键的是,游戏通常有一个清晰的目标和近似地达成目标过程的分数。这个分数提供了有用的奖励信号给强化学习智能体,让我们可以快速获得关于更好的算法和架构的反馈。

对齐问题 The agent alignment problem

人工智能的终极目标是赋予我们处理真实世界中越来越复杂的挑战的能力而造福于人类。但是真实世界并没有内置好的奖励函数。这就给出了一些挑战性问题,因为在这些任务上的性能并不容易定义清楚。我们需要一种良好的方式提供反馈并让智能体可靠地理解我们所想要的东西,从而帮助我们达成这些目标。换言之,我们希望在有人类反馈的情形下以一种让系统行为和我们的意图对齐的方式来训练人工智能系统。针对该目的,定义智能体对齐问题如下:

如何创建行为与用户意图一致的智能体?

对齐问题可以被建构在强化学习框架中,需要调整的是,不接受数值奖励信号,而是通过交互协议允许用户与智能体交流他们的意图。这个协议可以采取多种形式:用户可以提供 展示 demonstrations, 偏好preferences, 最优行动optimal actions, 或者交流奖励函数 communicate a reward function智能体对齐问题的解决方案是一个根据用户意图行动的策略。

在论文 new paper 中,我们描述了一个处理智能体对齐问题的研究方向。基于我们先前对人工智能安全性问题的分类和在人工智能安全性上的显现的诸多问题,我们描绘了一个这些领域的进程将如何产生出对于智能体对齐问题的解的连贯的图景。这打开了构建更好地理解如何与用户交互、从用户反馈学习和预测用户偏好的系统大门,不仅仅在是狭义的、近期的简单领域,更是在长期的那些需要的超过人类水平的理解的更加复杂抽象的领域。

基于奖励建模的对齐 Alignment via reward modeling

该研究方向的主要驱动力是基于奖励建模:我们使用用户的反馈训练一个奖励模型来刻画他们的意图。同时,也使用强化学习训练一个策略最大化来自奖励模型的奖励。换言之,我们将学习划分成学习做什么(奖励模型)和学习如何做(策略)两个部分。

奖励建模的模式解析:奖励模型从用户的反馈中训练获得来刻画他们的意图;该奖励模型提供了给由强化学习训练出的智能体奖励。

例如,在先前的工作中我们教会智能体从用户偏好中做后空翻,使用目标状态样例来摆放物品,从用户偏好和专家展示玩Atari游戏。未来我们希望涉及出算法学会适应用户提供反馈的方式(如,使用自然语言)。

规模化 Scaling up

最终,我们希望能规模化奖励建模到那些对于人类来说直接评判也太过复杂的领域中。为了达成该目的,需要提升用户评判结果的能力。我们讨论如何让奖励建模递归地应用:可以使用奖励建模训练智能体在评价过程中自动帮助用户评判。如果评价比行为更容易,那么这就可以让我们从简单的任务提升到更加一般和复杂的任务上。这可以被看作是迭代扩增的实例。

递归奖励建模的模式解析:用递归奖励模型(右侧小圆圈)训练的智能体在由当前训练的智能体产生的结果评判过程中(大圆圈)帮助用户

例如,假想我们想要训练一个智能体来设计计算机芯片。为了评判一个给出的芯片设计,我们训练其他的助手智能体,使用奖励建模在模拟中来做芯片性能基准测试、计算散热、估计芯片生命周期、尝试找出安全薄弱环节等等。总之,这些助手智能体的输出提供给出芯片设计的评判过程帮助用户训练芯片设计智能体。尽管每个助手智能体必须解决那些超出现有机器学习系统能力的非常困难的任务,这些任务相比直接设计出一个芯片更加容易:设计一个计算机芯片你需要理解每个评判任务,但反过来却容易一些。从这点上看,递归奖励建模可以帮助我们设计智能体脚手架在解决越来越难的任务同时能和用户 意图对齐。

研究挑战 Research challenges

还有一些规模化奖励建模到这样复杂问题的需要被解决的挑战。列出了5个挑战及相应解决思路,在论文中有更深入的讨论。

在规模化奖励建模过程中遇到的挑战(左)和解决这些挑战的有前景的方法(右)

这就带给我们最终重要的智能体对齐的组成部分:当在真实环境中部署智能体时,我们需要提供证据给用户,我们的智能体确实是充分对齐的。该论文讨论了5个不同研究方向帮助提升对智能体的信任:设计选择、测试、可解释性、形式验证和理论保证。一个远大的目标是安全性证书的制造:可以被证明负责任的技术发展和给用户信赖训练出的智能体的信心的材料。

展望 Outlook

尽管我们相信递归奖励建模是一个对训练对齐的智能体非常有前景的方向,但当前我们并不清楚地知道规模化表现有多么好(需要有更多的研究!)幸运的是,现在已经有了另外的一些针对智能体对齐问题的研究在同步推进:

他们的相同点和不同点都在论文中进行了深入探讨。

就像计算机视觉系统的关于对抗样本的健壮性研究对机器学习应用非常关键那样,对齐问题研究将会成为一把打开在复杂真实世界领域中部署机器学习系统的瓶颈之门的“钥匙”。我们有理由对此保持乐观:当我们期望面对规模化奖励建模时的挑战时,这些挑战其实都是可以 取得进展的具体技术研究问题。从这个意义上讲,我们的研究方向已经准备就绪,可以用深层强化学习代理进行实证研究。

在这些研究问题上取得进展是DeepMind正在进行的工作的主题。如果您是研究员、工程师或有才华的通才,有兴趣加入我们,请查看我们的空缺职位open positions,并在申请时注意您对对齐问题研究的兴趣。

Thanks to David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, Shane Legg, and many others at DeepMind, OpenAI, and the Future of Humanity Institute who contributed to this effort.

相关文章 Related articles

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s