中文版

对齐周报第 103 期

对齐周报是每周出版物，其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是，你可以浏览此电子表格，查看其中的所有摘要。此处的音频版本（可能尚未启用）。

TABLE_OF_CONTENTS: TableOfContents

强调

关于人类存在性安全的人工智能研究注意事项 （Andrew Critch 等人）（由 Rohin 总结）：CHAI 之外的研究议程直接处理长期主义者关注的问题：如何预防与人工智能相关的存在性灾难。这与“可证明有益”的概念明显不同：可证明有益的一个关键挑战是定义我们甚至所说的“有益”。相比之下，有一些预防人工智能引起的人类灭绝的途径并不需要了解“有益的”：最易见的是，我们可以进行协调以决不构建可能导致人类灭绝的人工智能系统。

由于重点放在人工智能系统的影响上，因此作者需要为此类人工智能系统重新命名。他们将强大的人工智能系统定义为不受人类控制的人工智能系统，并有可能以至少与整个人类一样具有影响力的方式改变世界。这样的人工智能系统不必是超级智能的，甚至不需要通用人工智能。它可能在狭窄的领域中具有强大的功能，例如技术自主性、复制速度或能够实现优势的社交敏锐度。

根据定义，强大的人工智能系统能够彻底改变世界。但是，人类持续生存有许多条件，而世界上的大多数变革都不会保留这些条件。（例如，考虑地球的温度或大气的成分。）因此，人类灭绝是部署强大的人工智能系统的默认结果，只有在该系统旨在保护人类存在的前提下，才可以避免灭绝人类。相对于其动作的重要性而言，精度很高。他们将未对齐的强大的人工智能系统（MPAI）定义为部署会导致人类灭绝的系统，因此主要目标是避免 MPAI 的部署。

作者将 MPAI 的部署风险分为五个子类别，具体取决于开发人员的信念、行为和目标。人工智能开发人员可能无法预测优势，无法预测未对齐，无法与其他团队协调部署形成 MPAI 的系统，偶然（单方面）部署 MPAI 或有意（单方面）部署 MPAI。还有一些危险的社会条件可能会增加风险的可能性，例如不安全的种族发展、人类的经济转移、人类的软弱无力以及完全避免谈论存在性风险。

从风险转到解决方案，作者根据他们所考虑的设置沿三个轴对研究方向进行了分类。首先，有一个或多个人；第二，有一个或多个人工智能系统；第三，它是否帮助人们理解，指导或控制人工智能系统。因此，多/单指令将涉及多个人指令一个人工智能系统。尽管我们最终将需要多重/多重场景，但是前面的情况是较容易解决的问题，从中我们可以获取有助于解决一般多重/多重情况的见解。同样，理解可以帮助指导，两者都可以帮助控制。

然后作者继续列出 29 个不同的研究方向，在此不再赘述。

Rohin 的观点：我喜欢本文的摘要和介绍部分，因为它们直接说明我们想要和关心的内容。我也非常赞成可证明有益和降低存在性风险与单/多分析之间的区别。

应用于通用智能体的人为脆弱性论点有些棘手。一种解释是，“硬度”源于这样一个事实，即您需要一堆“位”的知识/控制权才能使人保持周围。但是，似乎一般智能的AI应该可以轻松地使人类“愿意”，因此人工智能中已经存在这些东西。（作为类比：我们对环境进行了很大的改变，但如果愿意的话，我们可以轻松地保护鹿的栖息地。）因此，这实际上是一个问题，即你期望人工智能系统是从哪个“分布”中取样的：如果你认为我们将构建尝试做人类想要的人工智能系统，那么我们可能还不错，但是如果你认为会有多个人工智能系统可以各自满足用户的需求，

研究方向非常详细，尽管有些建议对我来说似乎并不是特别有用，但总的来说，我对这份清单感到满意。（正如论文本身所指出的，有用和不有用取决于你的人工智能发展模型。）

通过从文本中进行转移学习来进行深度强化学习的人类教学 （Felix Hill 等人）（由 Nicholas 总结）：本文提出了“从文本转移到人的模拟指令”（SHIFTT）方法，用于训练强化学习智能体以自然语言接收来自人类的命令。解决此问题的一种方法是训练强化学习智能体基于模板响应命令。然而，这对于人类如何改变命令表达方式的微小变化并不健壮。相反，在 SHIFTT 中，你从诸如 BERT 之类的经过预先训练的语言模型开始，并首先通过该语言模型提供模板化命令。然后将其与愿景输入相结合以制定策略。人工命令随后通过相同的语言模型进行反馈，他们发现该模型即使在结构上有所不同，也可以零人工迁移到人工命令。

Nicholas 的观点：自然语言是一种非常灵活，直观的向人工智能传达指令的方式。在某些方面，这将对齐问题从强化学习智能体转移到了受监督的语言模型，后者仅需要学习如何正确解释人类语音背后的含义。这种方法的一个优势是，语言模型是经过单独训练的，因此可以在用于训练强化学习智能体之前对其进行安全性标准的测试和验证。它可能比诸如奖励模型等替代方案更具竞争力，而替代方案则需要为每个任务训练新的奖励模型。

但是，我确实看到了这种方法的一些缺点。首先是人类并不擅长以自然语言表达其价值观（例如，迈达斯国王希望他所接触的一切变成黄金），自然语言可能没有足够的信息来传达复杂的偏好。即使人类给出了准确正确的命令，语言模型也需要正确验证这些命令。由于当前的语言模型难以解释并且包含许多有害的偏见，因此这可能很困难。

参与中的基础语言 （Corey Lynch等人）（由Robert总结）：本文提出了一种在机器人技术中学习遵循自然语言人类指导的新方法。它建立在与从游戏中学习潜伏计划（AN＃65）类似的思想的基础上，它使用了无监督的“参与”数据（人类在机器人上玩游戏的轨迹，自身并没有目标）。

本文结合了一些想法，以使训练策略可以遵循自然语言的说明，并且仅提供有限的人工注释。

在 Hindsight 指令配对 中，人工注释者会从播放数据中观察小轨迹，并用剪辑中正在完成的指令对其进行标记。该说明可以采用任何形式，这意味着我们无需选择说明并要求人员执行特定任务。
多上下文模仿学习 是一种旨在通过多种不同类型的目标学习目标条件策略的方法。例如，我们可以有很多示例轨迹，其中目标是最终状态图像（因为这些轨迹可以在没有人类的情况下自动生成），而只有少量示例轨迹，其中目标是自然语言指令（使用 Hindsight指令收集配对）。该方法是为每种类型的目标规范学习目标嵌入网络，以及将目标嵌入作为输入的单个共享策略。

结合这两种方法，他们可以使用从（轨迹，图像目标）对的大型数据集和（轨迹，自然语言目标）对的小型数据集中的模仿学习来训练策略，并端到端地嵌入网络。在具有各种按钮和对象的相当复杂的抓取环境中，该策略可以遵循很长的自然语言指令序列。即使 LfP 使用目标图像代替自然语言指令作为目标条件，他们的方法也比从游戏学习（LfP）方法获得更好的效果。

此外，他们提出，与其学习自然语言指令的目标嵌入，不如使用预先训练的大型语言模型来产生嵌入。与从头开始学习嵌入相比，这提高了他们的方法的性能，作者声称这是大语言模型中的知识被转移并提高了机器人领域性能的第一个示例。当他们有目的地创建不经分发的自然语言指令（即具有奇怪的同义词，或由其他语言进行谷歌翻译）时，该模型也可以很好地发挥作用。

Robert 的观点：我认为本文显示了两个重要的方面：

将自然语言指令嵌入到与图像调节相同的空间中，效果很好，并且是扩展人类注释有用性的好方法。
可以使用大型预先训练的语言模型来提高语言条件强化学习（在这种情况下为模仿学习）算法和策略的性能。

使我们能够将人类反馈扩展到复杂设置的方法很有用，并且这种方法似乎可以很好地扩展，尤其是在使用预先训练的大型语言模型时，这可能会进一步减少所需的语言注释量。

技术性人工智能对齐

杂项（对齐）

从 ImageNet 到图像分类 （Dimitris Tsipras等）（由 Flo 总结）：ImageNet 是通过将图像呈现给 MTurk workers 来众包的，MTurk workers 必须从通过互联网搜索获得的图像池中选择包含给定类别的图像。这是有问题的，因为包含多个类别的图像基本上将被分配给一个合适的随机类别，这可能会导致 ImageNet 性能与识别图像的实际能力之间出现差异。作者使用 MTurk 并让 workers 为 10000 个 ImageNe t验证图像池中的给定图像选择多个类别以及一个主类别。大约 20％的图像似乎包含代表多个类别的对象，这些图像的平均准确性比各种各样的图像分类器的平均准确性差 10％左右。虽然下降幅度很大，它仍然比预测图像中的随机类要好得多。同样，在与人类识别的主要类别不一致的情况下，高级模型仍能够预测 ImageNet 标签，这表明它们利用了数据集生成中的偏差。尽管针对新识别的主要类别的模型预测的准确性仍在提高，并且在预测标签方面具有更高的准确性，但准确性差距似乎不断扩大，我们可能很快就会达到 ImageNet准确性所获得的收益与改进的图像分类不符的地步。

阅读更多：论文：从 ImageNet 到图像分类：基准化的背景化进展

Flo 的观点：我通常发现这些经验测试可以证明ML系统是否实际执行了假定做的事情，这对于更好地校准关于人工智能进展的直觉和使故障模式更加突出非常有用。虽然我们有后者，但我对这对人工智能进展意味着什么感到困惑：一方面，这支持这样的说法，即改进的基准进度并不一定会转化为更好的现实世界适用性。另一方面，似乎图像分类可能比利用 ImageNet 中存在的数据集偏差更容易，这意味着与正确的数据集进行图像分类相比，我们可能会比 ImageNet 上达到更高的准确性。

重点：允许你不善于实现自己的目标（Adam Shimi）（由 Rohin 总结）：目标导向（AN＃35）是人工智能风险的主要诱因之一：这是导致工具性子目标收敛的潜在因素。但是，到目前为止，它还没有一个很好的定义：我们不能简单地说这是一些简单奖励函数的最佳策略，因为这暗示 AlphaGo 不是目标导向的（因为它被 AlphaZero 击败了），这似乎是错误的。基本上，目标导向不应直接与能力相关联。因此，我们不仅可以考虑最佳策略，还可以考虑强化学习算法可能已经输出的，可能资源有限的任何策略。形式上，我们可以为 G 构建一套策略，该策略可以通过运行例如具有不同资源量（以 G 作为奖励）的 SARSA 产生，并将系统对 G 的关注点定义为系统策略与所构建集合的策略之间的距离。

Rohin 的观点：我当然同意我们不应该要求完全胜任才能将系统称为目标导向。我不太相信这里的特殊结构：当前的强化学习策略在泛化时通常很糟糕，表格 SARSA 甚至没有明确尝试泛化，而我将泛化视为目标导向的关键特征。

你可以想象之间策略会获得更多资源，因此能够在不泛化的情况下理解整个环境，例如，如果它们能够在每个状态上至少更新一次。但是，在这种情况下，针对目标的现实策略会因“不知道他们应该知道什么”而受到惩罚。例如，假设我想吃甜的东西，并且遇到了从未见过的新水果。所以我尝试了水果，结果发现它非常苦。这将被视为“不是针对目标的”，因为强化学习关于“吃甜食”的策略早就知道该水果是苦的，因此不会食用。

人工智能的其他进展

深度学习

识别数据集复制中的统计偏差 （Logan Engstrom 等）（由 Flo 总结）：处理有限和固定测试集以及由此导致的对测试集过度拟合的一种方法是数据集复制，其中一种是尝试模仿原始模型数据集创建过程以获得更大的测试集。如果新测试图像的难度分布与原始测试集中的难度不同，则可能导致偏差。以前在ImageNet上进行数据集复制的尝试试图通过测量人类在时间压力下有多少次正确回答有关图像类别（修剪选择频率）的是/否问题来解决这个问题，这可以看作是分类困难的一个代名词。

然后，使用此数据对每个类别的候选图像进行采样，这些图像与原始测试集中的难度分布相匹配。尽管如此，所有测试模型在复制测试集上的表现都比原始测试集差。这种偏差的部分原因可以通过噪声测量加上难度的初始分布中的差异来解释，这可能是由于对原始 ImageNet 数据进行了质量预过滤。基本上，我们对难度的估计越嘈杂，难度的原始分布就越重要。举一个极端的例子，想象一个类别，原始测试集中的所有图像的选择频率为 100％，但是新测试集中 90％的候选者的选择频率为 50％，而只有 10％的选择频率同样容易归类为原始测试集中的图像。然后，如果我们只是用单一的人类标注员，候选池中的半数困难图像很难从简单的里面区分出来，使得最终在新的测试集中大多数图像相比原始图像更加难以分类，甚至在调整后也是如此。

然后，作者使用不同数量的注释器复制 ImageNet 数据集复制，发现原始测试集和新测试集之间的准确性差距逐渐缩小，噪声从使用一个注释器的 11.7％减少到使用40个注释器的5.7％。最后，他们讨论了更多复杂的估算器，以进一步降低偏差，从而将精度差距进一步降低至3.5％左右。

Flo的观点：这是一个非常有趣的文章，并提供了针对过度拟合对测试集的巨大影响的证据。另一方面，类似的结果似乎也凸显了基准对于模型比较而言最有用，以及它们对于相当良性的分布变化的鲁棒性。

冷案例：丢失的MNIST数字 （Chhavi Yadav 等）（由 Flo 总结）：由于 MNIST 测试集仅包含 10,000 个样本，因此有人提出了进一步改进本质上过度拟合测试集的担忧。有趣的是，MNIST原本打算拥有 60,000 个测试集，与训练集一样大，但是其余的 50,000 个已丢失。作者进行了许多尝试，以尽可能接近地重建从 NIST 笔迹数据库获得 MNIST 的方式，并提出了 QMNIST（v5），该功能具有 MNIST 的另外 50,000 张测试图像，而其余图像非常接近于 MNIST 的原始图像。他们使用多种分类方法测试了自己的数据集，发现使用 MNIST 还是 QMNIST 进行训练几乎没有区别，但是另外 50,000 张图片的测试错误始终高于原始 10,000张测试图像或其重建。尽管对过度使用测试集的担忧是合理的，但所测得的效果大部分很小，而成对差异对统计模型选择的有用性可能会抵消它们的相关性。

Flo 的观点：我对过度拟合部分感到困惑，因为他们尝试的大多数方法（例如 ResNets）似乎都没有为 MNIST 测试集选择性能。诚然，LeNet 似乎比其他模型降级得多，但似乎 QMNIST 中的其他测试图像实际上很难分类。我认为，上一个摘要中讨论的问题是造成大多数性能差距的原因，尤其是因为作者提到了高中生与政府雇员生成的 NIST 图像易于分类之间的二分法，但似乎没有提及任何尝试处理潜在的选择偏见。

AN #103 ARCHES：存在性安全的议程和组合自然语言的深度强化学习

对齐周报第 103 期

强调

技术性人工智能对齐

杂项（对齐）

人工智能的其他进展

深度学习

共享此文章：

Leave a comment Cancel reply