针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。

Written by

×

, , ,

设计智能体动机机制来避免副作用

By Victoria Krakovna (DeepMind), Ramana Kumar (DeepMind), Laurent Orseau (DeepMind), Alexander Turner (Oregon State University)
Translated by Xiaohu Zhu (University AI)

人工智能安全中的主要挑战是可靠地指定人类偏好给人工智能系统。不正确或者不完备的目标制定会导致不可知的行为。例如,考虑一个强化学习智能体,其任务是将盒子从 A 点拿到 B 点,其奖励是尽可能快地拿到目的地。如果刚好在到 B 点的最短路径上有个花瓶,那么该智能体将没有绕过花瓶的动机,因为奖励并没有提及花瓶。由于智能体其实没有必要打破花瓶而达到 B 点,打破花瓶就是一个副作用:对智能体环境的破坏,对于达成目标完全没有必要的。

该副作用问题是设计规格(design specification)问题的特例:设计规格(只对达到 B 点的智能体奖励)不同于理想规格(指定设计者对在环境中所有事情的偏好,包括花瓶)。理想规格表达起来困难,特别是在复杂的存在很多可能的副作用的环境中。

针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。

如果我们可以衡量智能体影响环境到什么程度,我们可以定义影响惩罚结合任何任务相关的奖励函数(如,尽可能快地达到点 B 的奖励)。为了区分想要的效果和副作用,我们可以设置一个奖励和惩罚之间的权衡。这可以让智能体采取可对奖励造成大影响的高影响行动,如为了蛋卷而打破鸡蛋。

影响惩罚包括两个组成部分:用作参考点或比较点的环境状态(称为基线)以及测量当前状态距离该基线状态的距离作为智能体行为的结果(称为偏离度量)的方法测量)。 例如,对于常用的可逆性标准,基线是环境的起始状态,偏离度量是起始状态基线的不可达性。 这些组件可以被单独选择。我们现在将讨论一些选项及其失败模式。

选择一个基线 Choosing a baseline

在选择基线时,很容易为智能体引入不良激励措施。起始状态基线似乎是一种自然选择。但是,与起始状态的差异可能不是由智能体引起的,因此对智能体进行处罚会使其有动机干扰其环境或其他代理。为了测试这种干扰行为,我们在AI Safety Gridworlds 框架中引入了 Convey or Belt Sushi 环境。

这个环境是一家寿司餐厅。 它包含一个传送带,在每个智能体动作后向右移动 1 个方格。 传送带上有一个寿司盘,当它到达皮带末端时被饥饿的人吃掉。 干扰行为使寿司脱离腰带(尽管没有得到奖励)。 智能体的任务是到达目标区块,可以在有或没有干扰的情况下完成。

为避免此故障模式,基线需要隔离智能体负责的工作。 一种方法是比较如果智能体从初始状态(不作为基线)开始没有做任何事情,环境就会进入的反事实状态。 然后,在传送带寿司环境中,寿司菜不会成为基线的一部分,因为人类默认会吃它。 但是,与不作为基线相比,可能会引入另一种不良行为,称为抵消

我们在输送带环境的另一种变体 —— 输送带花瓶上说明了这种行为。 在这个变型中,皮带上的物体是一个花瓶,当它到达皮带的末端时会破裂。 智能体的任务是拯救花瓶:它将花瓶从腰带上取下来获得奖励。 抵消行为是在收集奖励后将花瓶放回腰带上。 发生这种情况是因为花瓶在不作为基线中破碎,因此一旦智能体从带上取下花瓶,它就会继续受到与基线相比的这种差异的惩罚。 因此,它有动机在收集奖励后通过打破花瓶返回基线。

通过将不活动基线修改为从先前状态而不是起始状态分支,可以避免此故障模式。 这是逐步不作为的基线:在智能体没有做任何事情而不是最后一次行动的环境的反事实状态。 这只会在行动得到奖励的同时对每个行为进行一次惩罚,因此不会导致抵消行为。

选择偏离度量 Choosing a deviation measure

一种常用的偏离测量是不可达性(UR)测量:从当前状态到达基线的难度。 不可达性的折扣变体形式考虑到达到一个状态所需的时间,而未折扣的变体形式仅考虑是否可以达到该状态。

不可达性度量的一个问题是,如果智能体采取不可逆转的行动(因为基线变得无法到达),它会“最大化”。 智能体接受最大惩罚,而不受不可逆动作的大小的影响,例如: 智能体是否打破一个花瓶或一百个花瓶。 这可能导致不安全的行为,如 AI Safety Gridworlds 框架中的 Box 环境所示。

在这里,智能体需要尽快到达目标区块,但是路上有一个方框,可以推送但不能拉出。通往目标的最短路径包括将箱子向下推入角落,这是一个不可恢复的位置。所需的行为是智能体采用更长的路径将盒子推向右侧。

请注意,这两个目标路径都涉及一个不可逆转的动作:如果智能体向右推动框然后将框放回,则智能体最终会在框的另一侧,因此无法达到开始位置。使开始位置无法到达类似于打破第一个花瓶,而将盒子放在角落类似于打破第二个花瓶。 副作用惩罚必须区分两条路径,较短路径的惩罚较高 —— 否则智能体没有动力避免将方框放入角落。

为了避免这种失败模式,我们引入了一个相对可达性(RR)度量,该度量对不可逆行为的大小敏感。 我们考虑所有可能状态的可达性,而不仅仅考虑基线状态的可达性。 对于每个状态,我们可以检查当前状态(智能体的行动之后)是否比从基线更难到达,并相应地惩罚智能体。 向右推动框会使某些状态无法访问,但是向下推动框会使更多状态无法访问(例如,框不在角落的所有状态),因此惩罚将更高。

最近,引入了另一种偏差测量,也避免了这种失效模式。 可达到的效用(AU)度量考虑一组奖励函数(通常随机选择)。 对于每个奖励函数,它比较代理可以从当前状态开始并从基线开始获得多少奖励,并惩罚智能体以获得两者之间的差异。 相对可达性可以被视为该度量的特殊情况,其使用基于可达性的奖励函数,如果达到某个状态则给出奖励 1,否则给出 0,假设在达到给定状态时终止。

默认情况下,RR 度量会惩罚智能体的可达性降低,而 AU 度量会对智能体实现可用性差异进行处罚。 通过分别使用绝对值函数或 0 处的截断,可以容易地修改每个度量以惩罚差异或减少。这是另一种独立的设计选择。

设计选择的效果 Effects of the design choices

我们将三个基线(起始状态,不作为和逐步不作为)的所有组合与三个偏差度量(UR,RR和AU)进行比较,有或没有折扣。(请注意,不包括未折扣的 AU,因为它不收敛。)我们正在寻找在所有环境中都做得很好的设计选择组合:有效地惩罚 Box 环境中的副作用,而不会在 寿司 和 花瓶 环境中引入不良激励。

On the Sushi environment, the RR and AU penalties with the starting state baseline produce interference behavior. Since the starting state is never reachable, the UR penalty is always at its maximum value. Thus it is equivalent to a movement penalty for the agent, and does not incentivize interference (arguably, for the wrong reason). Penalties with other baselines avoid interference on this environment.

在寿司环境中,RR 和 AU 对起始状态基线的处罚产生干扰行为。由于起始状态永远不可达,因此 UR 惩罚始终处于其最大值。 因此,它等同于智能体的移动的惩罚,并且不会有动机去干扰(可以说是出于错误的原因)。用其他基线的处罚可避免对此环境的干扰。

在花瓶环境中,不作为基线的折扣惩罚会产生抵消行为。 由于从带子上取下花瓶是可逆的,因此没有折扣的措施不会给它带来任何惩罚,所以没有什么可以抵消的。起始状态或逐步不作为基线的处罚不会有动机抵消。

在 Box 环境中,由于其对幅度不敏感,UR 度量会为所有基线产生副作用(将框放在角落中)。RR和AU度量催生了正确的行为。

我们注意到干扰和抵消行为是由特定的基线选择引起的,尽管这些动机可以通过选择偏离度量来减轻。 副作用行为(将框放在角落中)是由偏离度量的选择引起的,并且不能通过选择基线来缓解。通过这种方式,偏离度量用作基线属性的过滤器。

总的来说,基线的最佳选择是逐步不作为,偏离度量的最佳选择是 RR 或 AU。 然而,这可能不是这些设计选择的最终决定,未来可以开发更好的选择或更好的实现。例如,我们当前的不作为实现等同于关闭智能体。 如果我们想象智能体在蜿蜒的道路上驾驶汽车,那么在任何时候关闭智能体的结果都是崩溃。因此,逐步不作为基线不会惩罚智能体在汽车中溢出咖啡,因为它将该结果与崩溃进行比较。 这可以通过更明智的不作为的实现来解决,例如遵守道路的故障安全规章。然而,这种故障保护很难以一般的与环境无关的方式来定义。

我们还研究了惩罚差异与可达性或可实现效用降低的影响。这不会影响这些环境的结果,除非对花瓶环境中的不作为基线进行处罚。在这里,从皮带上取下花瓶增加了可达性和可实现的效用,这可以通过差异而不是通过减少来刻画。因此,未折扣 RR 与不作为基线的差异惩罚变体会在此环境中产生抵消,而减少惩罚变体则不会。由于逐步不作为无论如何都是更好的基线,因此这种影响并不显着。

差异与减少的设计选择也会影响智能体的可中断性。 在 AU 论文中引入的 Survival 环境中,智能体可以选择禁用关闭开关,以防止回合在智能体到达目标之前结束。 我们发现 RR 和 AU 的减少惩罚变体在这种环境中禁用了关闭开关,而差别惩罚变体没有。 然而,惩罚可达性或可实现效用的差异也具有缺点,因为这可能妨碍智能体创造理想的环境变化而不是惩罚减少的能力。

未来方向 Future directions

作为更广泛的人工智能安全领域的调查领域,副作用的研究直到最近才被重视。在过去的一年中看到几篇论文令人鼓舞,包括我们在这篇文章中没有涉及的一些论文。许多悬而未决的问题仍然存在,比如从将影响惩罚扩大到更复杂的环境,到发展对抵消等不良激励的理论理解。 该研究领域仍处于早期阶段,我们希望感兴趣的研究人员能够加入我们的研究过程。

制定良好的影响措施可以减轻对人工智能体的人类偏好教学的一些挑战。由于人类可能表现出不合理性或不一致的偏好,因此人类提供的数据(如演示或反馈)通常不是最理想的。 因此,智能体不可能在不对其偏见做出假设的情况下准确地学习某人的偏好。影响措施可以是一种确保可接受的智能体行为而无需充分了解人类偏好的方法。 即使智能体不知道人类的奖励功能,它也可以以保持人类偏好的状态的可达性或人类效用函数的可达性的方式行事。 这可以被认为是价值一致的简约形式。

更好地理解副作用问题可以阐明如何设计良好的智能体动机措施,以及我们在这样做时可能需要做出哪些权衡。 量化智能体的影响可以帮助澄清我们对安全性的概念性理解,这反过来又可以为人工智能体提供更高程度的保证。

Special thanks to Damien Boudot for producing the designs for this post.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Create a website or blog at WordPress.com

%d bloggers like this: