作者:Tom Everitt、Ryan Carey、Lewis Hammond、James Fox、Eric Langlois 和 Shane Legg 

译者:Xiaohu Zhu

大约2年前,我们发布了最初 几篇 论文上使用因果影响图来理解智能体的激励机制。这篇博文将总结自那时以来取得的进展。

什么是因果影响图?

人工智能对齐领域内的一个关键问题是理解智能体的激励机制。有人担心智能体可能会被激励去避免纠正操纵用户不当影响他们的学习。这尤其令人担忧,因为训练模式通常以微妙令人惊讶的方式塑造激励措施。出于这些原因,我们正在开发基于因果影响图 (CID) 的正式激励理论。

下面是一个用于一步马尔可夫决策过程 (MDP) 的 CID 示例。随机变量 S₁ 表示时间 1 的状态,A₁ 表示智能体的动作,S₂ 表示时间 2 的状态,R₂ 表示智能体的奖励。

动作 A₁ 用决策节点(方形)建模,奖励 R₂ 用效用节点(菱形)建模,而状态是正常机会节点(圆形边缘)。因果联系表明 S₁ 和 A₁ 影响 S₂,而 S₂ 决定 R₂。信息链接 S₁ → A₁ 指定智能体在选择其动作 A₁ 时知道初始状态 S₁。

一般来说,可以选择随机变量来表示智能体决策点、目标和环境的其他相关方面。

简而言之,CID 指定:

  • 智能体决策
  • 智能体目标
  • 环境中的因果关系
  • 智能体信息约束

在试图找出智能体的激励时,这些信息通常是必不可少的:如何实现目标取决于它与环境中其他(可影响的)方面的因果关系,智能体的优化受其拥有访问权限的信息的约束。在许多情况下,由(非参数化)CID 表达的定性判断足以推断激励的重要方面,对实施细节的假设最少。相反,研究表明需要了解环境中的因果关系来推断激励,因此通常不可能用比 CID 表达的信息少的信息来推断激励。这使得 CID 自然地代表了许多类型的激励分析。

CID 的其他优点是它们建立在因果关系影响图等经过充分研究的主题之上,因此允许我们利用这些领域已经完成的深入思考的工作。

激励理念

拥有统一的目标和训练设置语言使我们能够开发普遍适用的概念和结果。我们在Agent Incentives: A Causal Perspective (AAAI-21) 中定义了四个这样的概念:

  • 信息的价值:智能体在做出决定之前想知道什么?
  • 响应激励:最优智能体对环境中的哪些变化做出响应?
  • 控制的价值:智能体想要控制什么?
  • 工具控制激励:智能体对什么既感兴趣又能够控制?

例如,在上面的一步 MDP 中:

  • 对于 S₁,如果 S₁ 发生变化,最优智能体会采取不同的行动(即响应),并且会重视了解和控制 S₁,但它不能通过其行动影响 S₁。所以 S₁ 具有信息价值、响应激励和控制价值,但没有工具控制激励。
  • 对于 S2 和 R2,最优智能体无法对变化做出反应,也无法在选择其行动之前了解变化,因此它们既没有信息价值,也没有响应激励。但智能体会重视控制他们,并且能够影响他们,所以S2和R2具有控制价值和工具控制激励。

在论文中,我们证明了它们中的每一个的合理和完整的图形标准,以便可以直接从图形 CID 表示中识别它们(请参阅之前的博客 文章)。

信息价值和控制价值是已经存在很长时间的经典概念(我们为图形标准做出了贡献),而响应激励和工具控制激励是我们发现在一些应用中有用的新概念。

对于熟悉本文先前 版本的读者,我们注意到一些术语已更新。工具控制激励以前简称为“控制激励”。新名称强调将控制作为工具目标,而不是作为副作用(或由于相互信息)产生的控制的信息值和控制值的分别被称为“观察激励”和“干涉激励”,。

用户干预和中断

接下来让我们转向这些概念的一些最新应用。在强化学习智能体修改其动作时的行为方式(AAAI-21) 中,我们研究了不同的强化学习算法如何对用户干预(例如中断和覆盖的动作)做出反应。例如,桑德斯等人开发了一种安全探索方法,用户可以忽略危险操作。或者,如果对他们的“想法”(或内部激活)的分析表明他们正在计划一些危险的事情,那么他们可能会被打断。这种干预如何影响各种强化学习算法的激励?

首先,我们通过使用描述动作修改的参数 PA 扩展 MDP 来形式化动作修改。然后,我们使用 CID 对此类修改后的 MDP进行建模:

在这里,我们将智能体的策略 Π 建模为决策而不是动作 Ai,因为后者不受智能体的完全控制,但也会受到动作修改 PA 的影响(如箭头 PA → Aᵢ 和 Π → Aᵢ)。智能体可能会从训练期间的中断中知道中断方案 PA,因此我们包含了一个信息链接 PA → Π。

我们根据它们对环境做出的因果假设来分析不同的原型 RL 算法:

  • 诸如进化策略之类的黑盒优化算法会考虑所有因果关系。
  • 相比之下,Q-learning的更新规则有效地假设下一个动作将被最优地采取,没有动作修改。这意味着 Q-learners 忽略了因果效应 PA → Aᵢ。类似地,具有智能体在 TD 更新中选择的动作的SARSA假定它将控制其下一个动作。我们称这个版本为虚拟 SARSA。
  • 基于修改动作的SARSA(经验SARSA)忽略了动作修改对当前动作的影响,但考虑了对后续动作的影响。

我们可以用以下 CID 来表示差异。(经验 SARSA 的额外策略节点 Π’ 表示动作是单独优化的,而不是联合优化的。)

CID 可用于通过路径特定响应激励的图形标准来了解不同算法如何适应中断。黑盒优化试图模糊其策略并禁用其关闭开关,而 Q-learning 和 Virtual SARSA 两者都没有。经验性 SARSA 试图禁用关闭开关,但不会试图掩盖其策略。

我们在相关的AI 安全网格世界中以及智能体必须在模拟中表现良好才能在现实中部署的一个新环境中凭经验验证这些结果,在这种环境中,黑盒优化器表现出“危险转向”般的行为。结果是Orseau 和 Armstrong对 Q-learning 和 SARSA 的可中断性结果的概括。

缩小来看,这些结果是 ML 算法因果分析的一个很好的例子。不同的设计选择转化为不同的因果假设,进而决定激励。特别是,分析强调了为什么会出现不同的激励措施,从而加深了我们对行为如何形成的理解。

奖励篡改

我们使用 CID 研究的另一个 AI 安全问题是奖励篡改。奖励篡改可以采取几种不同的形式,包括代理:

  • 重写其实现的奖励函数的源代码(“wireheading”),
  • 影响训练学习奖励模型的用户(“反馈篡改”),
  • 操纵奖励函数用来推断状态的输入(“RF 输入篡改/妄想盒问题”)。

例如,智能体影响其奖励函数的问题可以用以下 CID 建模,其中 휣ᴿᵢ 代表智能体在不同时间步长的奖励函数,红色链接代表不良的工具控制激励。

Reward Tampering Problems and Solutions(发表在备受推崇的哲学期刊 Synthese 上)中,我们使用 CID 对所有这些不同的问题以及一系列提议的解决方案进行了建模,例如电流射频优化、不可影响的奖励学习基于模型的效用功能。有趣的是,尽管这些解决方案最初是独立于正式的因果分析而开发的,但它们都通过以一种避免工具控制激励的方式切断一些因果联系来避免不良激励。

通过在因果框架中表示这些解决方案,我们可以更好地了解它们的工作原理、它们需要哪些假设以及它们如何相互关联。例如,当前 RF 优化和基于模型的效用函数都根据前一时间步的观察到的随机变量来制定修改后的目标,而不受影响的奖励学习(例如CIRL) 使用潜在变量。因此,前一种方法必须处理时间不一致和缺乏学习动力,而后者需要推断潜在变量。这可能取决于上下文是否比另一个更可取,或者组合是否比单独使用更好。无论如何,提炼出关键思想应该让我们处于更好的位置,可以在新的环境中灵活地应用这些见解。

我们参考之前的博客文章,了解有关current-RF优化的详细信息。自从先前共享预印本以来,论文本身已得到显着更新。

多智能体 CID

当多个智能体交互时会出现许多有趣的激励问题,每个智能体都试图优化自己的奖励,同时又影响彼此的收益。在多智能体影响图中的均衡改进(AAMAS-21) 中,我们开始为理解具有多智能体 CID (MACID) 的多智能体情形奠定一些基础。

首先,我们将 MACID 与扩展形式游戏(EFG) 相关联,这是目前最流行的游戏图形表示。虽然 EFG 有时会提供更自然的游戏表示,但与 MACID 相比,它们有一些明显的缺点。特别是,EFG 可能呈指数级增长,不代表条件独立性,并且缺乏可应用激励分析的随机变量。

举个例子,考虑一个游戏,商店(智能体 1)决定(D¹)是根据他们当前的库存水平(X)对产品收取全价(F)还是半价(H),而客户(智能体 2) ) 决定 (D²) 是购买 (B) 还是通过 (P) 取决于价格和他们想要多少 (Y)。商店试图最大化他们的利润 U¹,如果客户以高价购买,利润会更大。如果库存积压而客户不购买,则他们必须支付额外的租金。客户总是乐于以半价购买,有时甚至以全价购买(取决于他们想要多少产品)。

这个游戏的EFG表示相当大,用信息集(用虚线表示)来表示商店不知道顾客想要多少小工具,顾客不知道商店当前的商品库存水平:

相比之下,MACID 表示明显更小更清晰。MACID 不依赖于信息集,而是使用信息链接(虚线边缘)来表示每个玩家可用的有限信息:

从 MACID 中更明确的另一个方面是,对于任何固定的客户决策,商店的收益与客户想要产品的程度无关(没有边 Y→U¹)。类似地,对于任何固定的产品价格,客户的收益与商店的库存水平无关(没有边 X→U²)。在 EFG 中,只能通过仔细查看收益来推断这些独立性。

MACID 明确表示这些条件独立性的一个好处是,可以将游戏的更多部分识别为独立可解。例如,在 MACID 中,可以识别以下独立可解分量。我们称这些组件为MACID 子游戏:

对任何 D¹ 值求解这个子博弈表明,无论是否有折扣,客户总是在他们真正想要产品时购买。这些知识使接下来计算商店的最佳策略变得更简单。相比之下,在 EFG 中,信息集阻止识别任何适当的子博弈。因此,使用 MACID 表示解决游戏通常比使用 EFG 表示更快。

最后,我们将 MACID 和 EFG 之间的各种形式的均衡概念联系起来。最著名的均衡类型是纳什均衡,当没有玩家可以单方面提高他们的收益时,就会发生这种均衡。纳什均衡的一个重要改进是子博弈完美均衡,它通过要求在每个子博弈中进行纳什均衡来排除不可信的威胁。商店与顾客博弈中不可信威胁的一个例子是顾客“威胁”商店只以折扣价购买。威胁不可信,因为对客户来说,最好的做法是即使他真的想要,也以全价购买产品。有趣的是,只有子博弈完美的 MACID 版本才能排除这种威胁,因为只有在 MACID 中,客户的选择才被认为是适当的子博弈。

最终,我们的目标是使用 MACID 来分析多智能体设置中的激励措施。根据上述观察,我们已经将自己置于开发多智能体激励理论的位置,该理论与更广泛的博弈论文献有适当的联系。

软件

为了帮助我们研究 CID 和激励措施,我们开发了一个名为PyCID的 Python 库,它提供:

  • 定义 CID 和 MACID 的便捷语法,
  • 计算最优策略、纳什均衡、d-分离、干预、概率查询、激励概念、图形标准等的方法,
  • (MA)CID 和预定义示例的随机生成。

无需设置,因为有了 Colab,教程笔记本可以直接在浏览器中运行和扩展。

我们还提供了用于绘制 CID的Latex 包,并推出了causalincentives.com作为收集指向我们正在生产的各种论文和软件的链接的地方。

展望未来

最终,我们希望有助于更仔细地了解设计、训练和交互如何塑造智能体的行为。我们希望基于 CID 的精确且广泛适用的语言能够在这些问题上实现更清晰的推理和交流,并促进对如何思考和设计强大的 AI 系统的累积理解。

从这个角度来看,我们发现其他几个研究小组采用 CID 来:

我们目前正在追求几个进一步研究的方向:

  • 将一般激励概念扩展到多个决策和多个智能体。
  • 将它们应用于公平性和其他 AGI 安全设置。
  • 分析迄今为止工作中发现的局限性。首先,考虑阿姆斯特朗和戈尔曼提出的问题其次,考虑比工具控制激励更广泛的概念,因为影响力也可以作为目标的副作用被激励。
  • 进一步探索其哲学基础,并为决策和实用程序节点建立更清晰的语义。

希望我们能尽快分享更多消息!

我们要感谢 Neel Nanda、Zac Kenton、Sebastian Farquhar、Carolyn Ashurst 和 Ramana Kumar 对本文草稿的有益评论。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s