新研究工作简介:塑造行为的动机

Ryan Carey 和 Eric Langlois 介绍了塑造行为的动机论文的工作。由 Xiaohu Zhu 翻译。

机器学习算法通常非常有效,但是很难确定它们的安全性和公平性。通常,机器学习系统的属性是通过测试确定的。但是,即使系统在测试环境中行为安全,部署时它也可能做出不安全或不公平的行为。然而,可以通过分析输入扰动个体决策网络激活来研究模型的属性,但这通常很困难、耗时且对专业知识的要求很高。

除了检查或测试个体模型外,我们的替代方法是查看给定的训练环境是否会引发不安全或不公平的决定。

这种方法并不完全是新颖的 — — 动机是讨论的一个直觉而相关的对象。例如,请参阅下面 Stuart Russell 对推荐系统动机措施的讨论。(其他示例包括 Hadfield-Mennell 等人的评论 1 和 Steve Omohundro 的 The Basic AI Drives。

被放进[社交媒体推荐]机器的目的是什么?给人们提供他们想点击的东西,因为这就是我们的赚钱方式。那么如何最大程度地提高点击率 — — 你只是向人们发送他们喜欢点击的内容,对吗?就那么简单。实际上,这不是算法正在做的事情 …… 这不是强化学习的工作原理。强化学习改变了世界的状态来最大化奖励。在这种情况下,世界的状态就是你的大脑 … [所以] 它以一种使你更容易预测的方式改变了你自己,从而可以向你发送它知道你将要单击的内容。” — Stuart Russell

修改用户行为的压力可以看作是一个不想要的动机。像这样的基于动机的论点很强大,因为它们独立于系统体系结构而适用。然而,以前有关动机措施的大多数研究工作都集中在特定问题上,这使得将其应用于新问题和新情况变得困难。在我们最近的工作中,我们已经开始发展一种通用的因果动机理论,该理论使我们能够在一个统一的框架内陈述和制定针对多种公平与安全问题的解决方案。

在我们的理论中,动机大致是智能体为实现其目标所必须采取的措施。我们考虑两种类型的动机措施:当智能体必须控制其环境的某些组成部分以最大化其效用时(例如,上面社交媒体推荐示例中的“用户意见”),便存在控制动机措施。一个响应动机 response incentives 出现,当智能体的决定必须是因果响应其环境的某些组件 — — 例如,在崎岖地形导航时,机器人应该注意障碍物的位置。

控制动机

例子

为了使动机分析形式化,我们可以使用因果影响图。因果影响图通过将其分解成图表来表示决策问题,其中每个变量都取决于其父变量指代的值(如果存在箭头 X -> Y,则 X 是 Y 的父变量)。它由三种类型的节点组成:

例如,Stuart Russell 的社交媒体操纵示例可以用以下影响图表示。

对用户意见有控制动机

在此模型中,推荐程序算法选择一系列帖子来向用户显示,以使用户单击的帖子数量最大化。如果我们将用户对每个帖子的回复视为独立事件,那么用户欣赏的内容将获得更多点击。但是,这些帖子也有间接影响。如果用户查看了许多偏颇的文章,那么他们可能会采纳其中的一些观点,并且在点击内容方面变得更具可预测性。这可以使该算法在该系列的后续文章中获得更高的点击率,并且意味着对受影响的用户意见具有控制动机。

为了减轻 Stuart Russell 的顾虑(在保留系统功能的同时),我们希望删除用户意见的控制动机,同时保留点击的动机。我们可以重新设计系统,以使它不会因获得真实的点击率而得到奖励,而会因基于原始用户意见模型的预测的帖子点击而获得奖励。以这种方式训练的智能体会将用户意见的任何修改视为与提高其性能无关。

为了在实践中起作用,点击预测本身不能包含用户意见修改的影响。我们可以通过使用一种假设模型来实现此目的,该模型假定帖子之间是独立的,或者是通过仅向每个用户显示一篇帖子来学习的。在对动机进行推理时,这需要考虑一个重要的考虑因素:只有当变量(例如预测的点击)中没有一个充当另一个的“代理”时,对变量(例如点击)缺乏动机才有意义。否则,即使没有点击控制动机,对预测点击的控制动机也可能会系统地诱发与点击控制动机相同的决策。在未来的工作中,我们计划分析哪些隐含动机代理因素会产生。

对用户意见无控制动机

此示例适合将控制动机与安全性和性能相关联的重复模式:为了获得良好的性能,某些控制动机是必要的,但是错误的控制动机可能会导致系统不安全。例如,AlphaGo 之所以运作良好,是因为它具有控制动机来保护其性能(性能)而不保护服务器(安全性)。确保控制动机符合用户的偏好是安全的动机设计中的核心问题。

定义控制动机

既然我们已经掌握了控制动机的基本概念,那么我们可以考虑如何定义它们。假设存在一些变量 X(例如用户的政治观点)。如果 AI 系统的行为不同,我们可以考虑 X 可以达到的值。如果将X 设置为任何可达到的值 x(例如“左翼”,“中间派”或“右翼”)会改变性能,那么我们说 X 就有控制动机。在此定义下,控制动机从决策到效用的因果路径上的任何变量都可能出现。

Everitt等定义了干预动机的相关概念。如果可以通过直接设置其价值来获得效用,则该变量将面临干预动机。(这等于控制不为零。)干预动机比控制动机对行为预测的能力要少,因为干预动机没有考虑行为主体能够影响其决策的因素,因此,本文标题为“塑造行为”。

让我们回到我们的例子中,以强调这两种动机措施之间的区别。导致效用的所有变量都具有干预动机,但是只有那些也在行动下游的变量才具有控制动机。

响应动机

最佳决策必须对哪些事件做出响应?

这个问题对人工智能安全性和公平性都有重要意义。为了安全性,如果变量是关闭命令,则人工智能系统的行为希望对此变量做出响应。这样的响应动机不足以保证安全,但这是一个好的开始。相反,如果没有这种动机措施,那么最优策略很容易是不安全的。总体上对人的命令具有响应动机,以及对于价值学习系统对人的价值也有具有响应动机,这两者都是需要的。

这对公平性也具有重要意义。如果诸如种族或性取向之类的敏感变量具有响应动机,则这表明受过训练的算法反事实的不公平的动机。我们在论文中表明,如果对敏感属性具有响应动机,则所有最佳策略在该属性上实际上都是不公平的。我们的论文采取了一些步骤来定义不公平的动机措施:主要集中于如何排除给定图中不公平的动机措施的存在。

因此,响应动机的可取性取决于变化的变量。对于某些变量,我们希望人工智能系统对其进行响应,以确保行为安全。对于其他变量,如果人工智能系统对此做出响应,那么我们认为该系统是不公平的。

应用、局限性和后续步骤

该理论已经通过其应用证明了其价值。除了讨论的安全性和公平性问题外,它还被用于分析人工智能 盒式方案 和 奖励篡改问题博客文章)。正如公平示例所示,该理论不一定要求主体进行因果推理或具有因果模型,而我们(设计人员)可以对主体的行为进行因果推理。

从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。

该理论尚未完成,因为它目前仅限于单一智能体设置。我们正在努力将其扩展到一个多步决策案例,最终,我们希望它能够处理多个智能体。该文件可在以下网址获得:

R Carey,E Langlois,T Everitt和S Legg。塑造行为的动机(2020),SafeAI @ AAAI。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s