在此处找到所有Alignment Newsletter资源。特别是，你可以注册或浏览此电子表格，查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

此处的音频版本（可能尚未启用）。

强调

设计智能体激励措施以避免奖赏篡改 （Tom Everitt，Ramana Kumar 和 Marcus Hutter） （由 Flo 总结）：当强化学习智能体积极改变其奖励功能时，就会发生奖励篡改。该帖子使用因果影响图（AN＃61）分析了一个简单的网格世界中的问题，在这个网格世界中，智能体可以轻松地更改其奖励的定义。提出的解决方案是 当下-RF优化：智能体程序不会搜索并执行将使当下未更改的奖励信号最大化的操作计划，而不是最大化每次操作后将获得的奖励总和（奖励信号可以随时间动态变化）。然后，将不激励智能体篡改奖励功能，因为当下的奖励没有通过这种篡改而最大化。这样做有两种不同的方式：注意时间不一致性的智能体会由于修改后的奖励信号而对自己的行为进行将来的更改，而不注意时间不一致性的智能体则在其计划中忽略了这一点。注意时间不一致性的智能体有动机保留自己的奖励信号，因此有潜在的缺陷。

Flo 的观点：我喜欢因果图的这种应用，并且认为对故障模式（例如 wireheading），工具性目标（例如奖励保留）和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说，对于提议的解决方案的可行性，我并不感到兴奋，因为它似乎需要智能体对反事实奖励的详细了解。另外，我希望在实际问题中，奖励信号的变化和状态变化之间的区别也很模糊，而当下-RF优化似乎需要非常严格的界限，而状态变化也会影响奖励。

Rohin 的观点： 我同意 Flo 的上述意见，并且我认为博客文章中的示例表明“影响奖励的概念”的概念是如何模糊的：在受游戏 Baba Is You 启发的网格世界中，他们说移动单词“奖励”下来以使岩石获得回报是“篡改”，而鉴于我对 Baba Is You 的了解，我会认为这是一种完全合法的游戏方式。

阅读更多： 论文：强化学习中的奖励篡改问题和解决方案：因果影响图的观点

技术性人工智能对齐

问题

越来越具有操纵性的新闻提要（MichaëlTrazzi 和 Stuart Armstrong） （由 Matthew 总结）：专门人工智能安全工作的一个早期论点是，人们会激励未对齐的系统在他们很弱的时候说谎，以掩盖其意图，以便对其进行修正。然后，当未对齐的人工智能可以免于被修正时，它们将变得危险。Ben Goertzel 发现论点不太可能，指出弱的系统不会擅长欺骗。这篇文章断言，弱的系统仍然可以操纵的，并给出了一个具体的例子。该论据基于经过训练的机器学习系统，该系统可以使用户在其新闻源中标记为“无偏见”的文章数量最大化。它可能开始具有欺骗性的一种方法是为用户提供一些偏颇的文章。实施此策略可能会导致用户将其他所有内容标记为无偏见，因为它更改了他们的评估参考。因此，该系统被激励为不诚实的，而不必具有纯粹的欺骗能力。

Matthew 的观点：尽管我赞赏并同意这篇文章的论点 —— 机器学习模型不必具有极强的能力而被操纵 —— 我还是希望有一个不同的例子来说服怀疑的研究人员。我怀疑许多人会回答说，我们无需进行专门的安全工作就可以轻松解决此问题。特别是，如果我们通过监督学习来训练系统，而不是训练系统以最大化用户标记为无偏见的文章数量（这需要强化学习），则很难看到这种策略是如何产生的。

Rohin 的观点：我当然同意这篇文章，即机器学习模型不需要有能力而被操纵。然而，值得注意的是，这是通过模型（在探索过程中）随机操纵人类并注意到它有助于实现其目标而发生的。该模型可能需要通过危险的“转弯”行为而导致人类灭绝，因此需要进行零次（zero-shot）操作。这似乎不太可能发生（尽管我不会说这是不可能的）。

mesa 优化

极小的电路是否具有欺骗性？ （Evan Hubinger） （由 Rohin 总结）：尽管有人认为解决复杂任务的最简单程序可能具有欺骗性，但尚未有人提出解决复杂任务的最快程序是否具有欺骗性。这篇文章认为，快速的程序通常会被迫学习一个好的策略（就像我们今天需要做的那样），而学到的策略可能具有欺骗性（大概是由于学习到的优化带来的风险（AN＃58））。因此，至少在某些任务中，最快的程序也会具有欺骗性。

Rohin 的观点： 这是一个有趣的假设，但我尚未确信：不清楚为什么最快的程序必须学习最佳策略，而不是直接对最佳策略进行硬编码。如果存在多个可能的任务，则该程序可能具有嵌套的if结构，该结构可以确定需要完成的任务，然后为该任务执行最佳策略。此评论中有更多详细信息。

影响度量和价值中立性验证 （Evan Hubinger） （由 Rohin 总结）：到目前为止，大多数影响形式化方法（AN＃64）对内部对齐没有帮助，因为我们只是在（外部）损失函数上添加了影响。这篇文章表明，影响形式化也可以适用于验证优化算法是否是 价值中立的，也就是说，无论你将其应用于什么目标，它都可以提供大致相同的收益。特别是 AUP （AN＃25）衡量 期望值 给定操作的可获得效用变化的分布情况。你可以通过计算此分布的标准偏差来衡量某项行动的价值中立性，因为它可以衡量效用变化的差异。（Evan 会使用策略而不是行动，但是从概念上讲，这是一个很小的差异。）验证价值中立性可以用来确保策略窃取假设（AN＃65）是正确的。

Rohin 的观点：我仍然对战略窃取假设的目的感到困惑，因此我对价值中立性验证的重要性没有强烈的认同。我确实认为，将更改分布到可获得的效用上是一个强大的数学对象，并且有意义的是，还有其他感兴趣的属性需要进行分析。

梯度被黑 （Evan Hubinger） （由 Rohin 总结）：这篇文章引起人们对梯度被黑问题的关注，在 梯度被黑中，受梯度下降训练的强大智能体可以以某种方式构造其计算，从而导致其梯度在某些情况下进行更新。具体做法。例如，mesa 优化器可以将其计算结构化，以首先检查其目标是否已被篡改，如果是，则灾难性地失败，以使梯度趋向于指向篡改目标。

Rohin 的观点：我会对进一步勾勒出可能发生这种情况的工作感兴趣。我在此评论中写了一些特定的细节。

学习人的意图

利用人类指导进行深度强化学习任务 （Ruohan Zhang 等人） （由 Nicholas 总结）：强化学习中的核心问题是将我们的目标和先验知识传达给智能体。一种常见的方法是模仿学习：人工提供任务示例演示，智能体学习模仿它们。但是，这种方法存在一些局限性，例如要求人员能够胜任这项任务。本文概述了智能体可以从中学习的五种不同模式：评估、偏好、层次反馈、观察和关注（例如，人类在解决任务时所看的地方）。然后提出了未来的研究方向。

对于本摘要，我将重点关注未来的研究方向，但是你可以阅读全文以了解现有方法。第一个问题是人类指导的数据集难以捕获，并且取决于提供指导的个人的许多特定因素。因此，本文建议创建标准数据集以节省工作量并实现公平的比较。第二个方向是更好地了解人类应该如何教智能体。文献目前强调学习方法的进步，但是改进的教学方法在人类指导下学习可能同样有价值。最后是在不同输入方式下统一学习；理想情况下，智能体可以在学习的不同阶段从许多不同类型的人工指导中学习。

Nicholas 的观点： 我认为向人员提供人工指导的问题是对齐研究中的核心问题，我很高兴看到对该问题的更多讨论。我通常认为，这种类型的广泛概述对于将研究交流给那些只希望对该领域具有广泛概述而无需了解每篇论文的个人细节的人来说非常有价值。但是，如果对不同范式之间的折衷进行更多的定量比较，我将不胜感激。引言中提到了采样效率和人工标记所需的大量工作，这使我希望对采样效率和标记效率方面不同方法的理论或经验进行比较。由于缺乏这一点，这也让我不清楚他们是如何推动他们建议的研究方向的。就个人而言，如果有定量的结果显示出特定的失效模式或当前激发该特定方法的负面特征，我将更加追求研究方向。

Rohin 的观点：这似乎是一份很棒的调查报告，我喜欢他们提出的未来方向，尤其是在从各种人类指导中学习以及改进教学方法方面。虽然拥有人类指导数据集以比较算法似乎确实有用，但这阻止了研究人员通过找出数据集中不存在的新形式的指导来进行改进。结果，我对基准测试感到更加兴奋，该基准是通过 Mechanical Turkers 训练一名智能体完成任务所需的时间来评估的。诚然，研究人员进行这种评估在时间和金钱上都将更加昂贵。

杂项（对齐）

Vox 采访 Stuart Russell （Kelsey Piper）（Rohin 总结）：Kelsey 与 Stuart Russell谈了他的新书《人类合拍性》（AN ＃69）。

人工智能的其他进展

元学习

隐式渐变元学习 （Aravind Rajeswaran 等人） （由 Nicholas 总结）：元学习领域致力于创建不仅会学习而且学习如何学习的智能体。具体而言，目标是在任务的子集上训练算法，以使其在最少的训练下就可以在不同的任务子集上获得低的误差。

模型不可知元学习（MAML）通过找到一组初始参数 θ 解决了此问题，从中可以快速学习其他任务。在训练过程中，内部循环将 θ 复制到参数 φ 中，并针对固定步数优化 φ。然后，外部循环通过内部优化过程（例如，通过梯度下降进行反向传播）来计算 θ 的梯度，并相应地更新 θ。

如上所述的 MAML 有一些缺点，该论文解决了这些问题。

基本优化器本身必须是可微的，而不仅仅是损失函数。
梯度计算需要在步数上进行线性计算和存储，并且随着梯度数的增加，梯度会消失和爆炸。
在内部循环中，尽管φ最初与θ相同，但随着步数的增加，其对θ的依赖性逐渐减弱。

隐式 MAML（iMAML）通过两项创新解决了这些问题。首先，它添加了一个正则化项以使 φ 接近 θ，从而在整个训练过程中保持 φ 对 θ 的依赖性。其次，它纯粹基于 φ 的最终值而不是使用整个优化轨迹，以封闭形式计算外部更新梯度。因为内循环是一个优化过程，所以最终结果是最佳的，因此具有零梯度。这导致了一个隐式方程，该方程在微分时给出了 θ 梯度的闭合形式表示。这使 iMAML 可以使用具有更多训练步骤或无法区分的内部优化序列。

Nicholas 的观点：我不是元学习专家，但是我的印象是，本文消除了元学习未来研究的主要瓶颈，并为元学习和更复杂的内部优化器的未来工作提供了明确的方向。我也特别感兴趣这将如何与学习到的优化中的风险相互作用（AN＃58）。特别地，在我看来，外部参数 θ 或其中的一个子集可能潜在地编码内部 mesa 优化器。另一方面，他们可能只是在学习参数空间中的位置，从中容易找到有用的配置。权重的可解释性是一个棘手的问题，但是我对任何能够阐明 θ 的特性使它能够跨任务概括的工作感到兴奋。

AGI Watchful Guardians

AN #71 通过当下-RF优化避免奖励篡改

强调

技术性人工智能对齐

问题

mesa 优化

学习人的意图

杂项（对齐）

人工智能的其他进展

元学习

Leave a comment Cancel reply

AN #71 通过当下-RF优化避免奖励篡改

强调

技术性人工智能对齐

问题

mesa 优化

学习人的意图

杂项（对齐）

人工智能的其他进展

元学习

共享此文章：

Leave a comment Cancel reply