REALab:概念化篡改问题

DeepMind安全研究

汤姆·埃弗里特,拉玛娜·库玛,乔纳森·上里索,维多利亚·克拉科夫娜,理查德·恩戈,沙恩·莱格 DeepMind

译:朱小虎 CSAGI

在两篇新论文中,我们研究了仿真中的篡改。在第一篇论文描述了一个平台,叫REALab,这使得篡改环境的物理学的自然组成部分。在第二篇论文研究的几个深学习算法,并说明去耦合批准算法避免理论和实践篡改的篡改行为。

为 AI 智能体提供目标可能是一个难题。一个困难是提出正确的目标(规范博弈问题)。但是第二个困难是确保智能体优化我们提供的目标,而不是损坏的版本。第二个难题是 AGI 安全中的两个例子:线路关断/关闭 问题

在线路游戏中,智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。

我们将此称为篡改问题:

当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?

出于以下几个原因,我们必须评估仿真中的篡改,这一点很重要。首先,我们希望评估篡改解决方案,而智能体不会在模拟之外引起问题。其次,我们现有智能体唯一能够篡改的就是对提供反馈的人类产生微妙的影响。但是,这种篡改通常难以衡量,并且引起了道德方面的关注。

在标准RL环境中无法研究篡改,因为它们假设始终以不损坏形式观察到监督者提供的反馈。换句话说,他们将任务执行与观察到的奖励等同起来。

图片发布
图片发布

为了对篡改进行建模,我们开发了环境平台REALab(REALab嵌入式代理实验室),在该平台上,任何任务信息都必须通过环境中的对象(称为寄存器)进行通信。这放宽了在标准RL环境中进行的不篡改假设,因为智能体现在可以通过推动寄存器块来影响其观察到的反馈。例如,可以通过两个寄存器块之间的 x 位置的差异来传达奖励信号,在这种情况下,RL智能体可以通过推动寄存器块之一来篡改其观察到的奖励。

由于寄存器块遵循与其余环境相同的物理特性,因此篡改成为环境的自然组成部分,而不是人为添加。

图片发布
在REALab环境中,智能体应负责捡苹果。两块寄存器将反馈传达给智能体

如上所示,REALab环境包含要在3D世界中解决的任务,其中块处于不同位置。除了为智能体定义学习算法之外,代理设计者还决定如何将任务物理传达给代理。为此,智能体设计者可以将块寄存器添加到环境中,并为这些块如何对智能体动作和查询做出反应(在一定限制内)指定功能。

这些块位置的读数是智能体程序接收到的唯一任务信息。块位置不限于编码奖励反馈,还可以表示例如价值建议或优选动作。此设置提供了灵活性,可以在任何单个REALab环境中比较许多不同的智能体,反馈类型和“物理”反馈机制。

我们已经通过向我们的一个内部环境模拟器中添加有影响力的反馈机制(寄存器)来实现REALab,并且希望相同的想法适用于其他模拟环境。我们还在上面显示的REALab环境中实现了一系列不同的代理和反馈机制,智能体应该在其中拾取苹果:

  • 标准RL智能体。奖励通过区块位置进行传达,并且应用了两种深度学习算法来优化观察到的奖励(DQN和策略梯度)。毫不意外的是,智能体学会了推动传递奖励的寄存器块,而不是捡起苹果。
  • 批准RL智能体。与其传达奖励,不如让主要职位传达对刚刚采取的行动的认可价值建议)。这使我们可以使用近视智能体,它们总是选择预期批准最高的动作。这些智能体不太容易被篡改-大多是苹果。但是,如果有机会在一个时间段内进行篡改,他们仍然会这样做。
  • 已解耦的RL智能体解耦意味着智能体会收到有关其采取的不同操作的反馈。这打破了导致上述智能体更喜欢篡改的反馈回路,这意味着这些智能体学会了可靠地摘苹果。它们有时会偶然碰到障碍物,但在任何情况下都不会系统地篡改。

这两篇论文还将“腐败奖励” MDP概括为任意形式的反馈。使用此框架,我们证明了解耦的批准智能体在收敛时和在其训练更新时(在某些假设下)都没有动机来篡改反馈。这些结果支持我们的经验发现。

我们希望REALab将提供有关篡改的有用和实用的观点,从而带来更好,更可靠的解决方案。这种解决方案的一个例子是解耦批准算法。自然而然的下一步包括研究REALab框架内更多类型的智能体,并找到使批准反馈更具可扩展性的方法。

我们要感谢Arielle Bier,Zachary Kenton,Rohin Shah,Matthew Rahtz,Tom McGrath和GrégoireDelétang对本文的帮助。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s