作者:Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik 和 Geoffrey Irving DeepMind
译者:Xiaohu Zhu CSAGI
原文:https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c
你的人工智能会欺骗你吗?在考虑人工智能的安全性时,这是一个核心问题,这是从当前系统到未来通用人工智能的许多最紧迫风险的基础。我们最近在语言智能体(使用自然语言的人工智能系统)方面取得了令人瞩目的进步。这促使人们对其安全特性进行更仔细的调查。
在我们最近的论文中,我们从人工智能对齐的角度考虑语言智能体的安全性,即如何让人工智能智能体的行为与一个人或一群人想要它做的事情相匹配。未对齐可能是由于人工智能的设计者在指定人工智能智能体应该做什么时出错,或者人工智能智能体误解了指令。这可能会导致令人惊讶的不良行为,例如当人工智能智能体“游戏”其错误指定的目标时。
我们对机器学习的方式进行分类根据问题是来自训练数据、训练过程本身还是分布漂移(即训练和部署环境之间的差异),任务可能会被错误指定。

- 训练数据错误指定可能会发生,因为我们无法控制输入从网络上抓取的大规模文本数据集的数据,其中包含数千亿个单词,其中包含许多不需要的偏差。
- 当为解决一种问题而设计的学习算法应用于某些假设不再适用的另一种问题时,可能会出现训练过程错误指定。例如,应用于答案可以影响世界的环境的问答系统,可能会被激励去创造自我实现的预言。
- 当我们将人工智能智能体部署到现实世界时,可能会发生分布漂移错误指定,这可能不同于 训练时分布。例如,聊天机器人 Tay 在其训练环境中运行良好,但在发布到包括攻击该服务的用户在内的更广泛的互联网上时,很快就变得有毒。
任何类型的错误指定都可能产生多种不同类型的危害。大多数以前的人工智能安全研究都集中在代表人类在世界上采取物理行动的人工智能智能体(例如机器人技术)。相反,我们关注语言智能体环境中出现的危害。这些危害包括欺骗、操纵、有害内容和目标使坏游戏。由于有害内容和客观游戏已在其他地方得到处理,因此我们在这篇博文中专注于欺骗和操纵(尽管有关这些问题的部分,请参阅我们的论文)。

我们以哲学和心理学文献为基础,提供欺骗和操纵的具体定义。 稍微简化一下,我们说人工智能智能体会欺骗人类,如果他们传达的东西使人类相信某些不一定正确的东西,并且有利于人工智能智能体。操纵是相似的,除了它会导致人类以一种他们不应该有的方式做出反应,因为要么绕过人类的推理,要么将人类置于压力之下。我们的定义可以帮助衡量和减轻欺骗和操纵,而不是依赖于将意图归因于人工智能。我们只需要知道什么对人工智能智能体有好处,这通常可以从它的损失函数中推断出来。
欺骗和操纵已经成为当今语言智能体的问题。例如,在对谈判语言智能体的调查中,发现人工智能智能体学会了通过假装对它实际上并不重视的物品感兴趣来欺骗人类,以便以后通过承认它来妥协。
分类错误的形式和类型 它们可能引发的行为问题提供了一个框架,我们可以在此框架上构建我们对人工智能系统的安全性和对齐性的研究。我们相信这种研究将有助于减轻未来语言智能体环境中的潜在危害。查看我们的论文以获取更多详细信息和对这些问题的讨论以及可能的方法。
Leave a Reply