作者:Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik 和 Geoffrey Irving DeepMind译者:Xiaohu Zhu CSAGI 原文:https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c 你的人工智能会欺骗你吗?在考虑人工智能的安全性时,这是一个核心问题,这是从当前系统到未来通用人工智能的许多最紧迫风险的基础。我们最近在语言智能体(使用自然语言的人工智能系统)方面取得了令人瞩目的进步。这促使人们对其安全特性进行更仔细的调查。 在我们最近的论文中,我们从人工智能对齐的角度考虑语言智能体的安全性,即如何让人工智能智能体的行为与一个人或一群人想要它做的事情相匹配。未对齐可能是由于人工智能的设计者在指定人工智能智能体应该做什么时出错,或者人工智能智能体误解了指令。这可能会导致令人惊讶的不良行为,例如当人工智能智能体“游戏”其错误指定的目标时。 我们对机器学习的方式进行分类根据问题是来自训练数据、训练过程本身还是分布漂移(即训练和部署环境之间的差异),任务可能会被错误指定。 机器学习中的错误指定形式,以及语言智能体设置中的示例。 训练数据错误指定可能会发生,因为我们无法控制输入从网络上抓取的大规模文本数据集的数据,其中包含数千亿个单词,其中包含许多不需要的偏差。当为解决一种问题而设计的学习算法应用于某些假设不再适用的另一种问题时,可能会出现训练过程错误指定。例如,应用于答案可以影响世界的环境的问答系统,可能会被激励去创造自我实现的预言。当我们将人工智能智能体部署到现实世界时,可能会发生分布漂移错误指定,这可能不同于 训练时分布。例如,聊天机器人 Tay 在其训练环境中运行良好,但在发布到包括攻击该服务的用户在内的更广泛的互联网上时,很快就变得有毒。 任何类型的错误指定都可能产生多种不同类型的危害。大多数以前的人工智能安全研究都集中在代表人类在世界上采取物理行动的人工智能智能体(例如机器人技术)。相反,我们关注语言智能体环境中出现的危害。这些危害包括欺骗、操纵、有害内容和目标使坏游戏。由于有害内容和客观游戏已在其他地方得到处理,因此我们在这篇博文中专注于欺骗和操纵(尽管有关这些问题的部分,请参阅我们的论文)。 任何形式的错误指定都可能引起的问题,以及语言智能体的示例。 我们以哲学和心理学文献为基础,提供欺骗和操纵的具体定义。 稍微简化一下,我们说人工智能智能体会欺骗人类,如果他们传达的东西使人类相信某些不一定正确的东西,并且有利于人工智能智能体。操纵是相似的,除了它会导致人类以一种他们不应该有的方式做出反应,因为要么绕过人类的推理,要么将人类置于压力之下。我们的定义可以帮助衡量和减轻欺骗和操纵,而不是依赖于将意图归因于人工智能。我们只需要知道什么对人工智能智能体有好处,这通常可以从它的损失函数中推断出来。 欺骗和操纵已经成为当今语言智能体的问题。例如,在对谈判语言智能体的调查中,发现人工智能智能体学会了通过假装对它实际上并不重视的物品感兴趣来欺骗人类,以便以后通过承认它来妥协。 分类错误的形式和类型 它们可能引发的行为问题提供了一个框架,我们可以在此框架上构建我们对人工智能系统的安全性和对齐性的研究。我们相信这种研究将有助于减轻未来语言智能体环境中的潜在危害。查看我们的论文以获取更多详细信息和对这些问题的讨论以及可能的方法。
元式训练成的智能体实现了贝叶斯最优的智能体
@archillect Memory-based meta-learning is a powerful technique to build agents that adapt fast to any task within a target distribution. A previous theoretical study has argued that this remarkable performance is because the meta-training protocol incentivises agents to behave Bayes-optimally. We empirically investigate this claim on a number of prediction and bandit tasks. Inspired by … Continue reading 元式训练成的智能体实现了贝叶斯最优的智能体
REALab:概念化篡改问题
智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。我们将此称为篡改问题:当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?
规格欺骗:人工智能创造力的另一面
作者:维多利亚·克拉科夫娜(Victoria Krakovna),乔纳森·上萨(Jonathan Uesato),弗拉基米尔·米库里克(Vladimir Mikulik),马修·拉赫兹(Matthew Rahtz),汤姆·埃弗里特(Tom Everever),拉玛娜·库玛(Ramana Kumar),扎克·肯顿(Zac Kenton),杨·雷克(Jan Leike),沙恩·莱格(Shane Legg)—— DeepMind 人工智能安全团队 译者:朱小虎(Xiaohu Zhu)—— Center for Safe AGI 创始人 本文交叉发布在 DeepMind 的官方网站上。 规格欺骗是一种在没有达到预期结果的情况下满足目标字面规格的行为。即使没有这个名称,我们都有过规格欺骗的经验。读者可能已经听说过迈达斯国王的神话和点石成金的故事,其中国王要求将他接触的任何东西都变成黄金 —— 但很快就发现,甚至是食物和饮料也变成了他手中的金属。在现实世界中,当学生因在一项家庭作业上的出色表现而获得奖励时,他可能会抄袭另一个学生来获得正确的答案,而不是通过学习材料,从而利用了任务规格中的漏洞。 在人工智能体的设计中也会出现这个问题。例如,强化学习智能体可以找到一条获得大量奖励的捷径,而无需按照人工设计者的意图完成任务。这些行为很常见,到目前为止,我们已经收集了大约 60 个示例(汇总了现有 列表和人工智能社区的持续贡献)。在这篇文章中,我们回顾了规格欺骗的可能原因,分享了在实践中发生这种情况的案例,并争论了关于解决规格问题的原则方法的进一步工作。 让我们来看一个例子。在乐高积木堆叠任务中,理想的结果是使红色块最终位于蓝色块的顶部。当智能体未触摸红色块的底面高度时,会对其进行奖励。智能体没有执行相对困难的操作来捡起红色方块并将其放置在蓝色方块的顶部,而是简单地将其翻转到红色方块上以收集奖励。这种行为达到了既定目标(红色方块的高底面),而牺牲了设计人员实际关心的内容(将其堆叠在蓝色方块的顶部)。 资料来源:数据有效的深度强化学习,用于敏捷操作(Popov等人,2017年) 我们可以从两个不同的角度考虑规格欺骗。在开发强化学习(RL)算法的范围内,目标是构建学会实现给定目标的智能体。例如,当我们使用 Atari 游戏作为训练强化学习算法的基准任务时,目标是评估我们的算法是否可以解决困难的任务。在这种情况下,智能体程序是否通过利用漏洞来解决任务并不重要。从这个角度来看,规格欺骗是一个好的信号 —— 智能体已找到一种实现指定目标的新式方法。这些行为说明了算法的独创性和强大能力,它们可以找到确切地执行我们告诉他们的操作的方法。 但是,当我们希望智能体实际去堆叠乐高积木时,相同的创造力可能会带来问题。在构建能够在世界范围内实现预期结果的对齐的智能体的更广泛范围内,规格欺骗是有问题的,因为它涉及智能体以牺牲预期结果为代价来利用规格中的漏洞。这些行为是由于预期任务的规格不正确而不是强化学习算法中的任何缺陷引起的。除了算法设计之外,构建对齐智能体的另一个必要组件是奖励设计。 准确地反映人类设计者意图的设计任务规格(奖励功能,环境等)往往很困难。甚至对一个存在轻微的错误规格指定,一个非常好的RL算法也许能够找到与预期解决方案完全不同的复杂解决方案,即使一个更差的算法无法找到该解决方案,但得出的结果反而更接近于预期的解决方案。这意味着,随着强化学习算法的改进,正确指定意图对于实现所需结果变得更加重要。因此,至关重要的是,研究人员正确指定任务的能力必须与智能体寻找新颖解决方案的能力保持一致。 我们在广义上使用术语任务规格来涵盖智能体开发过程的许多方面。在强化学习设置中,任务规格不仅包括奖励设计,还包括训练环境和辅助奖励的选择。任务说明的正确性可以确定智能体的创造力是否符合预期结果。如果规格正确,智能体的创造力将产生理想的新颖解决方案。这就是 AlphaGo 走出著名的第 37 步的原因,这使人类围棋专家感到惊讶,但这在与李世石的第二场比赛中至关重要。如果规格错误,则可能会产生不良的博弈行为,例如翻转方块。这些类型的解决方案取决于一个范围,我们还没有一个客观的方式来区分它们。 现在,我们将考虑规格欺骗的可能原因。奖赏功能失准的一种根源是设计不当的奖赏塑造。奖励塑形通过在解决任务的方式上给予智能体一些奖励,而不是仅仅奖励最终结果,使学习一些目标变得更加容易。但是,如果奖励不是基于潜力的,则可以改变最优策略。考虑一个在海岸奔跑者游戏中控制船只的智能体,该游戏的预期目标是尽快完成比赛。智能体因在赛道上击中绿色方块而获得了成形奖励,这将最佳策略更改为绕行并一遍又一遍击中相同的绿色方块。 资料来源:荒谬的奖励功能(Amodei&Clark,2016年) 指定能够准确捕获所需最终结果的奖励本身可能是一项挑战。在乐高积木堆叠任务中,仅指定红色块的底面必须高出地面是不够的,因为智能体可以简单地翻转红色块来实现此目标。对所需结果的更全面说明还包括:红色块的顶面必须在底面之上,并且底面必须与蓝色块的顶面对齐。在指定结果时,很容易错过这些标准之一,从而使规格变得过于宽泛,并且可能更容易满足于一个退化的解决方案。 与其尝试创建涵盖所有可能的极端情况的规格,不如从人类反馈中学习奖励函数。评估结果是否已实现通常比明确指定结果要容易得多。但是,如果奖励模型没有学习到反映设计者偏好的真实奖励函数,则此方法也会遇到规格欺骗问题。错误的一种可能来源可能是用于训练奖励模型的人为反馈。例如,执行抓取任务的智能体通过在相机和对象之间悬停而学会了愚弄人类评估者。 资料来源:《人类偏好的深度强化学习》(Christiano等,2017) 由于其他原因,例如泛化不佳,学习的奖励模型也可能被错误指定。可以使用其他反馈来更正智能体尝试利用奖励模型中的不准确性的尝试。 另一类规格欺骗示例来自利用模拟器错误的智能体。例如,一个本应学会走路的模拟机器人想出了如何将双腿钩在一起并沿着地面滑动的方法。 资料来源:AI学步(Code Bullet,2019) 乍一看,这些示例可能看起来很有趣,但没那么有趣,并且与在没有模拟器错误的现实世界中部署智能体无关。但是,根本问题不是错误本身,而是智能体可以利用的抽象失败。在上面的示例中,由于对模拟器物理的错误假设,错误地指定了机器人的任务。类似地,通过错误地假设交通流量路由基础结构不具有足够聪明的智能体可以发现的软件错误或安全漏洞,可能会错误地指定现实世界的流量优化任务。无需明确地做出这样的假设 —— 更有可能的是,它们只是设计者从未想到的细节。而且,由于任务变得过于复杂而无法考虑每个细节,规格设计期间的错误假设。这就提出了一个问题:是否有可能设计能够纠正这种错误假设而不是进行假冒的智能体架构? 任务规格中通常做出的一种假设是,任务规格不会受到智能体的动作的影响。对于在沙盒模拟器中运行的智能体,这是正确的,但对于在现实世界中运行的智能体,则不是这样。任何任务说明都具有物理表现:存储在计算机上的奖励功能或存储在人脑中的偏好。部署在现实世界中的智能体程序可能会操纵目标的这些表示,从而产生奖励篡改问题。对于我们假设的流量优化系统,在满足用户的偏好(例如,通过给出有用的指示)与影响用户之间并没有明显的区别。(例如,通过轻推它们以选择更容易达到的目的地)。前者满足了目标,而后者则操纵了目标在世界上的表示(用户偏好),两者都为人工智能系统带来了丰厚的回报。再举一个极端的例子,一个非常先进的人工智能系统可以劫持运行它的计算机,并手动将其奖励信号设置为较高的值。 综上所述,解决规格欺骗至少要克服三个挑战: … Continue reading 规格欺骗:人工智能创造力的另一面
新研究工作简介:塑造行为的动机
从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。
具有避免奖励函数篡改动机的智能体设计
从人工智能安全的角度来看,拥有一个清晰的设计原则和一个清晰的表明了它解决了什么问题的特性描述就意味着我们不必去猜测哪些智能体是安全的。在本文和这篇论文中,我们描述了一种称为当下奖励函数优化的设计原理如何避免奖励函数篡改问题。
用因果影响图建模通用人工智能安全框架
我们写了一篇论文,将用来设计安全通用人工智能(AGI)的各种框架(例如,带有奖励建模的强化学习,合作式逆强化学习 CIRL,辩论 debate 等)表示为因果影响图(CID),以帮助我们比较框架并更好地理解相应的智能体激励机制。
设计智能体动机机制来避免副作用
针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。
利用因果影响图来理解智能体动机
影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。