在此处找到所有Alignment Newsletter资源。特别是，你可以注册或浏览此电子表格，查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

此处的音频版本（可能尚未启用）。

强调

进行内部对齐的实证研究 （Evan Hubinger） （由 Rohin 总结）：上周，我们发现mesa 优化器（AN＃58）令人担忧的事情是它们可能具有健壮能力但没有健壮的对齐（AN＃66））。这会导致 内部对齐失败：智能体将采取有能力的高度优化的操作来追求你不想要的目标。

这篇文章建议我们通过尝试构建 mesa 优化器，以经验方式研究可能会学习哪种 mesa 目标函数。为此，我们需要两个东西：首先，在这种环境中有许多不同的智能体导致训练环境上的良好行为，其次，该架构实际上将学习一个自身执行搜索的模型，以便具有强大的功能。然后，该实验很简单：使用深度强化学习训练模型，并研究分布之外的行为，以区分其可能学到的各种可能的智能体奖励函数。（下一个摘要有一个示例。）

一些理想的特性：

– 训练分布上的 proxy 不应相同。

– 不应有太多合理的 proxy ，因为那样很难确定神经网络学习了哪个 proxy 。

– proxy 在“有趣的”属性上应该有所不同，例如 proxy 从模型的观察中计算的难易程度，以便我们可以弄清楚特定属性如何影响模型是否可以学习 proxy 。

Rohin 的意见：我对这一总体研究感到非常兴奋：实际上，我按照相同的思路制定了自己的建议。结果，我有很多意见，我在这篇评论中写下了很多意见，但在这里我将给出一个摘要。

我非常同意这些高层细节（将重点放在健壮能力而没有健壮对齐上，将多个 proxy 确定为关键问题，并关注环境设计和体系结构选择）。我确实在细节上有所不同。我对制作引人注目的 mesa 优化示例更感兴趣，因此我关心的是拥有足够复杂的环境，例如 Minecraft。我也不希望神经网络的一部分真正地计算 mesa 目标。我只是希望神经网络学习到的启发式方法将与某些 proxy 奖励函数的优化相一致。结果，我对研究诸如“计算 mesa 目标的难度有多困难”这样的任务并不感到兴奋。

展示 mesa 未对齐的简单环境 （Matthew Barnett） （由 Rohin 总结）：这篇文章提出了一个具体的环境，我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫，其中包含钥匙和箱子。真正的目的是打开箱子，但是打开箱子需要你已经有了一把钥匙（并用完了钥匙）。在训练过程中，钥匙要比箱子少得多，因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它，它会绕过地捡起钥匙，同时可能忽略箱子，这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”，因为祖先环境中的食物稀缺，即使现在食物很丰富。

Rohin 的意见：虽然我希望有一个更复杂的环境来提出一个更令人信服的案例，证明这将是现实环境中的问题，但我确实认为这将是一个很好的环境，可以开始进行测试。总的来说，我喜欢“真正的目标是 Y，但是在训练过程中，你需要做 X 才能得到 Y”：在这种情况下，即使当前的系统似乎也很可能学会熟练地追求 X。

技术AI对齐

迭代扩增

关于IDA的机器学习项目 （Owain Evans 等） （由 Nicholas 总结）：本文描述了三个建议的项目，这些项目建立在迭代提炼和扩增（IDA）的基础上，这是一种在保持对齐的同时训练机器学习系统的方法。第一个项目是将 IDA 应用于解决数学问题。第二个是将 IDA 应用于神经程序解释，即复制其他程序的内部行为及其输出的问题。第三是在自适应计算方面进行实验，其中将计算能力定向到最有用的地方。对于每个项目，它们还包括动机、方向和相关工作。

Nicholas 的观点：找出一个有趣且有用的项目进行工作是任何研究项目的主要挑战之一，并且它可能需要与项目实施不同的技能。结果，我感谢作者使其他研究人员直接跳入解决问题的过程。鉴于动机、指示和相关工作的详细程度，这份文件使我震惊，因为它是某人更广泛地开始其有关 IDA 或 AI 安全性的第一个研究项目的绝佳方法。此外，尽管有许多 IDA 的公开说明，但我发现这是我阅读过的最清晰，最完整的说明之一。

阅读更多： Alignment Forum摘要

已解决的有关IDA混淆问题列表（ Wei Dai）（由 Rohin 总结）：这是阐明有关 IDA 某些术语的有用文章。我不做总结，因为每个点都已经很短了。

mesa 优化

内部对齐的具体实验 （Evan Hubinger） （由 Matthew 总结）：尽管上面突出显示的帖子详细介绍了一个可以阐明内部对齐问题的特定实验，但本文简要地介绍了一些有用的实验。一个示例实验是让通过强化学习训练的很好的智能体直接获得其奖励，作为观察的一部分。在测试过程中，我们可以尝试通过更改模型的观察奖励使其与实际模型不符，从而使模型处于混乱状态。希望我们可以深入了解受过强化学习训练的智能体何时在内部代表“目标”，以及它们是否与环境相关（如果有的话）。你需要阅读该帖子才能看到所有实验。

Matthew 的意见：我目前坚信，现在进行实验工作将有助于我们理解 mesa 优化，这是引导我得出该结论的工作之一。我仍然有点怀疑，当前的技术足以证明强大的学习型搜索算法的类型，该算法可以刻画内部对齐失败的最坏结果。无论如何，我认为此时对故障模式进行分类是非常有益的，并且像本文中那样进行测试将使事情变得容易得多。

学习人的意图

从“人类偏好” 中微调 GPT-2 （Daniel M. Ziegler等人） （由 Sudhanshu 总结）：此博客文章及其相关文章描述了几个文本生成/继续实验的结果，其中人类对初始/旧样本的反馈是用于强化学习奖励信号的形式，用于微调 7.74 亿基本参数 GPT-2语言模型（AN＃46）。这里的主要动机是了解与人类的交互是否可以帮助算法更好地学习并适应自然语言生成任务中的人类偏好。

他们报告的结果好坏参半。对于继续以积极的情绪或肢体描述语言表达文字的任务，他们报告说，仅对基本模型生成的样本的 5,000 个人判断进行了微调后，报告的性能就比基线高（由外部检查员评估）。汇总任务需要 60,000个在线人类反馈样本来执行与简单基准线 Lead-3 类似的结果，即由人类评估得出的前三个句子作为摘要返回。

进行这项研究时吸取的一些经验教训包括：1）需要更好、更少歧义的任务和标签协议以获取更高质量的注释，以及2）提醒“错误可以针对不良行为进行优化”，因为符号错误会通过训练过程以生成“not gibberish but maximally bad output”。该工作的结论是，这是迈向可扩展的 AI 对齐方法（例如辩论和扩增）的一步。

Sudhanshu的观点：很高兴看到有关 NLProc/ML主流任务的研究，其中包括关于挑战、失败模式以及与 AI 研究更广泛的动机目标的相关性的讨论。

这项工作为 OpenAI 的对齐议程开辟了有趣的道路，例如，学习各种偏好（A OR B）或依次选择偏好层次（A AND B），而不会造成灾难性的遗忘。

为了扩展规模，我们希望通过半监督强化学习来生成自动贴标器，以从每个人工输入中获得最大收益。在我们确信这样的系统可以形成学习者的等级体系之前，例如在扩增过程中，这种健壮性需要进一步的经验和概念研究。

Rohin的意见：我在这里特别喜欢的一件事是评估是由人类完成的。作为评估指标，这似乎比我们可以想到的任何自动化系统都要强大得多，我希望将来有更多的人使用人工评估。

阅读更多： 论文：根据人类偏好进行微调的语言模型

防止不良行为

健壮的描述更改 （Dong Huk Park等人） （由 Dan H 总结）：安全的探索要求智能体避免破坏其环境。先前的工作，例如 Krakovna等。（AN＃10），惩罚了智能体对环境造成的不必要的副作用。为了使此类技术在现实世界中起作用，智能体还必须估算环境破坏、副作用和变化，而不会因外围变化和不受影响的变化而分散注意力。本文提出了一个数据集，以进一步研究“描述更改”，其中场景变化由机器学习系统以自然语言描述。即，在图像之前和之后给出的系统描述场景中的显著变化。在可以估计变化的系统上进行工作可能会促进安全的探索。

可解释性

通过人类为人类学习表示 表述（Sophie Hilgard，Nir Rosenfeld 等人， 由 Asya 总结）：从历史上看，可解释性方法涉及机器充当专家，做出决策并为其决策产生解释。本文采用略有不同的方法，而是使用机器作为顾问他们正在努力为人类（最终决策者）提供最佳建议。向模型提供输入数据并对其进行训练，以根据导致人类采取最佳行动的数据生成视觉表示。在本文的主要实验中，人类的任务是根据贷款申请的详细信息来决定是否批准或拒绝贷款。咨询网络生成逼真的面孔，其表情代表了对于贷款决策至关重要的多元信息。当提供面部表情“建议”时，人类会做得更好，而且可以基于面部使用类比推理来证明自己的决定是合理的，例如“由于x与x’相似，x可能会被偿还，而x’被偿还”。

Asya的观点：在我看来，这是一个非常合理的故事，说明了 AI 系统如何在不久的将来融入人类决策。我确实担心，在整个决策过程中，仅向 AI 提供建议的 AI 系统将无法与 AI 系统竞争。从可解释性的角度来看，在我看来，拥有代表复杂多元数据的“建议”仍然隐藏着许多推理，如果我们担心未对齐的 AI，这可能很重要。我喜欢这篇论文强调在训练过程中要让人处于循环中，并提出一种有效的机制来根据人的选择进行梯度下降。

Rohin的意见：本文的 一个有趣之处是它与“ 从人类偏好中的深度强化学习相似：它还训练了一个人类模型，随着时间的推移，它会通过收集来自真实人类的更多数据而得到改进。不同之处在于 DRLHP 生成了人类奖励函数的模型，而本文中的模型则预测了人类的行为。

人工智能的其他进展

强化学习

强化学习泛化中不变最优性的原则 （Alex Irpan 和 Xingyou Song）（由 Flo 总结）：在图像识别任务中，每个图像通常只有一个标签，因此存在将每个图像映射到正确图像的最佳解决方案。因此，可以将模型的良好通用性直接定义为先前看不见的数据的图像到标签映射的良好近似。

在强化学习中，我们的模型通常不将环境映射到最佳策略，而是将给定环境中的状态映射到相应的最佳动作。在一个状态下的最佳动作可能取决于环境。这意味着需要在不同环境中权衡模型的性能。

作者提出了不变最优性的原则：在强化学习的泛化基准中，应该至少有一种对训练和测试集中的所有环境均最佳的策略。通过这样做，泛化不会与单个环境中的良好性能冲突。如果该原则最初不适用于给定的一组环境，则可以通过为智能体提供更多信息来更改此原则。例如，智能体可以接收一个参数，该参数指示其当前正在与哪个环境进行交互。

Flo 的观点：我在这里有点受挫：一方面，该原则使我们有可能通过在有限的一组训练环境中解决任务来找到全局最优解决方案。这样，泛化问题就可以更好地定义和接受理论分析了，这对于增进我们对强化学习的理解很有用。

另一方面，我不希望该原理适用于大多数实际问题。例如，在与其他适应性智能体进行交互时，性能将取决于这些智能体的策略，这可能难以推断和动态变化。这意味着，如果没有其他智能体的策略的准确信息，最优不变性的原则就不会成立，而很难获得这些信息。

更笼统地说，在此以及对AI安全网格世界的一些批评将它们定义为一个定义不明确的基准时，我有点担心过多地关注非常“干净”的基准可能会导致与真实世界混乱相关的问题偏离。我希望看到本文的条件更多结论，而不是一般性原则。

AGI Watchful Guardians

AN #67 创建在其中研究内部对齐故障的环境

强调

技术AI对齐

迭代扩增

mesa 优化

学习人的意图

防止不良行为

可解释性

人工智能的其他进展

强化学习

Leave a comment Cancel reply

AN #67 创建在其中研究内部对齐故障的环境

强调

技术AI对齐

迭代扩增

mesa 优化

学习人的意图

防止不良行为

可解释性

人工智能的其他进展

强化学习

共享此文章：

Leave a comment Cancel reply