技术人工智能安全研究方向的建议

Anthropic 对齐科学团队正在进行技术研究，旨在减少未来高级人工智能系统可能导致的灾难性风险，例如大规模生命损失或人类对自身控制的永久丧失。我们面临的核心挑战是确定当下可以开展的具体技术工作，以预防这些风险。我们的研究将在未来的世界中发挥作用——也就是说，在那些因人工智能而存在重大灾难性风险的世界中——这些世界将被人工智能的发展彻底改变。我们的大部分工作在于为如何在这些变革的世界中驾驭人工智能发展绘制路径。

我们经常遇到对减少灾难性风险感兴趣的人工智能研究人员，但他们也面临同样的挑战：目前可以进行哪些技术研究，能够帮助人工智能开发者确保其未来系统的安全性？在这篇博文中，我们分享了我们对这个问题的一些思考。

为了撰写这篇文章，我们请对齐科学团队的成员撰写他们认为重要的开放性问题或研究方向的描述，然后将结果整理成几个广泛的类别。这个结果并非技术对齐研究方向的全面列表。可以将其视为一份品鉴菜单，旨在突出该领域一些有趣的开放性问题。

这也不是我们正在积极从事、协调或提供研究支持的方向列表。虽然我们确实在其中一些领域开展研究，但许多方向是我们希望看到取得进展但自己没有能力投入的。我们希望这篇博文能够激励更广泛的人工智能研究社区在这些领域开展更多工作。

评估能力

我们如何衡量人工智能系统的能力？

为了让社会成功地应对向强大人工智能的过渡，基于实证的专家共识对于当前和预期未来人工智能系统的影响至关重要。然而，目前专家们对人工智能发展的预期轨迹，甚至对当前人工智能系统的能力，都存在广泛的分歧。

许多人工智能能力评估基准（包括针对博士级知识的困难测试）很快就会饱和，因此未能提供人工智能进展的连续、可外推信号。另一方面，人工智能系统的现实影响往往落后于基于令人印象深刻的基准分数所预期的水平。因此，创建能够真正追踪其现实世界影响的高质量人工智能能力评估至关重要。

在某些对国家安全至关重要的领域——如化学、生物、辐射和核（CBRN）武器开发能力——此类评估应在与政府协调的安全实验室中进行。然而，还有许多其他能力——如进行新颖研究、与工具互操作以及自主完成开放性任务——对于理解人工智能系统的影响也很重要。我们期待看到对这些能力的高质量评估，以及相应的人类基准。

请参阅我们之前此处的公告，了解我们希望看到更多研究的能力评估的更多信息（但请注意，该倡议的截止日期已过）。

评估对齐

我们如何衡量人工智能系统的对齐程度？

我们目前对前沿模型对齐的测量主要集中在相对表面的属性上，如：

模型是令人愉快的对话助手
模型拒绝有害的查询
模型避免产生有毒文本

虽然这些属性足以确保当前人工智能聊天机器人的安全性，但我们预计未来的人工智能系统将在我们无法预料的各种（有时是高风险的）环境中部署。因此，我们需要更好的方法来衡量人工智能系统倾向于未对齐行为的可能性。

例如，给定一个模型，我们可能想回答以下问题：

模型是否具有驱动、目标、价值观或偏好？如果有，它们是什么？
- 例如，我们发现我们的模型有阿谀奉承的倾向：它们通常倾向于讨好用户的回应。
模型是否曾故意假装比实际更对齐？它是否曾隐藏其驱动、目标、价值观或偏好？它是否曾战略性地选择不透露自己拥有的能力？
在什么情况下模型会故意误导人类？

尽管这些问题极其微妙——在许多情况下，模糊或定义不清——但它们可能对未来的部署决策至关重要。

考虑这样一种情况：一个模型（1）足够有能力成功执行极其有害的行动，但（2）在受控的实验室环境中，通常避免采取此类行动。我们能做些什么来放心地广泛部署这样的模型？

理解模型认知

当我们的模型生成输出时，它们在“想”什么？

许多人工智能研究涉及从输入/输出行为的角度理解人工智能系统。行为问题的例子包括：模型的答案中有多大比例是正确的？哪些输入会导致模型生成有毒文本？当被问到时，我们的模型是否声称优先考虑用户的利益？

在评估模型的对齐程度时，我们不仅想检查模型的输出是否看起来无害，还想了解模型是否出于“正确的原因”得出了其输出。因此，我们希望通过研究这些行为背后的认知来补充对模型行为的理解。理解模型认知涉及询问模型在想什么，导致其表现出某些感兴趣的行为。例如，我们可能会问：

当我们的模型给出答案时，是因为它认为答案是正确的？还是因为它模拟了用户认为答案是正确的？或者因为它认为答案会以其他方式取悦用户？
我们的模型是否形成计划？如果是，这些计划是什么？
我们的模型对其处境了解多少？它们是否猜测自己是在训练中，或者它们是如何被监控的？这种知识如何影响它们的行为？
我们的模型是否知道在被问到时不会报告的信息？

理解模型认知可能有助于加速对令人担忧的行为的搜索（例如在审计或红队测试期间），改进我们在训练期间的监督，或预测模型在分布外的行为。

在理解模型认知方面有大量研究，尤其是在机械可解释性领域，这是一个专注于直接解码训练好的人工智能系统学习的内部算法的方法的领域。与其尝试概述机械可解释性的轮廓，我们建议读者参考Anthropic的可解释性团队博客。

另一方面，我们相信在理解模型认知的其他方法上有充足的空间。例如：

外化认知：诱导模型“高声思考”（例如通过推理链（chain-of-thought）草稿）并研究产生的推理轨迹。这里的核心挑战是确保外化推理的可信度；见下文。
内省：训练模型直接口头表达其隐藏状态的内容（Binder等人，2024；Chen等人，2024；Ghandeharioun等人，2024；Zhuang等人，2024；Pan等人，2024）。例如，我们能否训练一个模型准确报告其在棋盘游戏中的计划，通过判断模型的答案是否准确预测其后续行动？

理解模型的角色如何影响其行为

模型的“性格”对其行为有什么影响？

如今的领先模型通常以良性的方式表现，即使面对它们未经过训练的不寻常提示也是如此。对这种泛化的一个假设是，它们采用了某种角色，即乐于助人的助手，这暗示了一系列良好的默认行为。然而，不同的助手有略微不同的角色，角色的看似微小变化可能对它们在新情况下的行为产生重要影响。例如，在研究对齐伪装时，我们发现，在某些环境中，只有一些模型会伪装对齐。模型伪装对齐的倾向在多大程度上受其角色或价值观的影响？是否可能模型的写作风格和性格不仅仅是表面的，而是对模型的行为有广泛的间接影响，包括在安全关键的情况下？

我们期待看到更多工作来描述模型的角色如何影响其在各种环境中的行为。例如，可以创建（通过少样本提示或在合成数据上训练）一组能力相似但角色不同的模型，并研究这些性格差异如何影响它们在各种下游情况下的行为。

推理链的可靠性

我们何时可以直接相信模型的推理链？

语言模型并不总是说出它们的真实想法。事实上，它们可能系统性地歪曲其行为背后的推理。因此，我们对检测（Lanham等人，2023；Mills等人，2024）或确保（Radhakrishnan等人，2023；Chen等人，2024；Chua等人，2024）语言模型的推理链（CoT）可靠性的技术感兴趣。这是一个重要但尚未得到充分探索的研究领域，因此我们鼓励对此进行更多研究。例如，我们对以下问题的答案感兴趣：

推理链的可靠性在不同类型的任务中如何变化？如果使用推理链能显著提升任务性能，这是否意味着推理链相对可信？推理链的可靠性在数学和社会推理之间是否有所不同？
模型对其处境的认知是否会影响其推理链的可靠性？例如，在被告知其推理链正在被监控或评估可信度后，模型会产生更可信或更不可信的解释吗？
我们如何使检测不可信推理链的自动方法（Lanham等人，2023；Mills等人，2024；Chen等人，2024）更高效并具有更高的召回率？

人工智能控制

我们能否通过在部署模型的同时配备足够的安全保障来确保安全？

目前，我们相信人工智能系统不会带来灾难性风险的主要原因是它们缺乏造成灾难性伤害所需的许多能力（如能够进行新颖的研究或有效地操纵大量人群）。在未来，我们可能会有人工智能系统足够有能力造成灾难性伤害，但由于它们足够对齐而不这样做；如果我们在评估对齐方面取得了足够的进展，我们可以基于对齐来提供安全保证。

我们可以做出的第三类保证——除了充分的对齐或缺乏危险能力之外——是我们已经在部署人工智能系统的同时配备了足够的安全保障，即使它们尝试也无法成功造成灾难性伤害。这种策略，被称为人工智能控制，适用于当人工智能系统在没有安全保障的情况下足够有能力造成灾难，但在受限环境中部署时，无法规避谨慎开发者施加的安全保障。在本节中，我们将讨论人工智能控制的可能策略，重点关注人工智能系统的运行时监控。

行为监控

我们能否通过让另一个人工智能监控我们的人工智能的输入和输出来确保安全？

一种人工智能控制策略是使用辅助人工智能系统（监控者）来筛查另一个不可信的人工智能系统（执行者）的输入和输出（Naihin等人，2023；Chen等人，2024；Greenblatt等人，2023）。Greenblatt等人（2023）研究了这个想法的不同变体，包括：

可信监控：使用较弱但可信的人工智能系统来监控执行者的输入和输出，例如使用GPT-3.5来筛查潜在恶意的GPT-4编写的代码。
不可信监控：使用另一个不可信的模型（例如，执行者模型的另一个实例）作为监控者。

这些监控设置的核心挑战是，监控器的失败可能系统性地集中在执行者表现出恶意行为的相同情节中。例如，这可能是因为执行者故意破坏监控器（例如通过越狱），或者——在不可信监控的情况下——因为监控器和执行者串通。

我们对提高行为监控的有效性的工作感到兴奋。有前景的方向包括：

减少执行者-监控器之间的串通或越狱机会，例如在将执行者的输出展示给监控器之前编辑或改写输出。
培训更好的监控器，例如通过生成真实反映复杂、恶意行为的合成数据。
更好地估计极其罕见的灾难性结果的失败率。
开发即使在执行者具有额外能力的情况下也能起作用的监控方案，例如拥有之前情节的记忆或能够在实例之间传递消息的能力。

激活监控

我们能否通过监控人工智能的隐藏状态来确保安全？

监控人工智能系统的输入/输出行为的替代方案是监控其潜在激活。例如，可以尝试训练简单的探测器，使用模型的潜在激活来分类它何时在编写安全与不安全的代码。这个方向可以被视为理解模型认知的一个不那么雄心勃勃的替代方案，我们在这里寻找可扩展、自动的方法来检测模型内部处理中预先指定的不期望的概念的存在。

这种监控方法很有前途，因为模型的激活（1）对应于被监控模型的推理，（2）难以被模型控制。例如，当使用弱模型来行为监控更强大的代码生成模型的是否存在不安全代码时，我们可能担心弱监控器会遗漏一些漏洞，或者代码生成模型会混淆其代码以使漏洞难以检测；监控代码生成模型自身的激活可能会避免这些失败。

另一方面，激活监控器可能对分布偏移不够鲁棒。一个特别重要的分布偏移是从固定的合成数据集到模型自身生成的数据。如果我们没有要检测的坏输出的模型生成示例，那么我们需要以某种其他方式合成输出来训练激活监控器。然后我们需要验证使用这些输出训练的监控器能够泛化到我们关心的实际危险模型生成上。

虽然激活监控已经显示出一些迹象和活力，但需要更多研究使其在生产人工智能系统中部署时足够可靠。

异常检测

我们能否自动检测我们的模型何时表现“异常”？

许多监控方法都是有监督的：它们涉及在精选的正负样本数据集上训练分类器，以识别坏的模型行为。然而，我们可能事先不知道危险的失败是什么样的。因此，另一种无监督的监控方法是异常检测：尝试检测模型的计算何时在某些方面异常或偏离分布。

例如，假设我们已经部署了一个模型和某种有害行为的监控器。我们可能期望我们的监控器能够捕获有害行为的典型案例，但在罕见的输入（例如越狱）上失败。因此，我们可能还会在模型和监控器旁边部署一个异常检测器，旨在标记远离分布的输入（如罕见的越狱）。我们可以手动检查和标记这些输入，随后使用它们改进我们的监控器的覆盖范围。将现有的异常检测技术应用于模型的潜在激活可能已经适用于这样的任务；参见例如这里。

更雄心勃勃的是，我们可能尝试将异常检测应用于检测两个模型之间存在巨大差异的情况。例如，考虑一个输入，强模型理解了弱模型不理解的东西，导致行为新颖，并且——从弱模型的角度来看——令人惊讶。可能可以自动检测此类输入。据我们所知，这是一个尚未探索的问题设置，我们期待在这方面取得进展。