中文版

对齐周报第 108 期

对齐周报是每周出版物，其最新内容与全球人工智能对齐有关。在此处找到所有对齐周报资源。特别是，你可以浏览此电子表格，查看其中的所有摘要。此处的音频版本（可能尚未启用）。

TABLE_OF_CONTENTS: TableOfContents

强调

Ben Garfinkel 对人工智能风险的经典争论的仔细检查（Howie Lempel 和 Ben Garfinkel）（由 Asya 总结）：在本播客中，Ben Garfinkel 考察了他对人工智能风险经典的争论持怀疑态度的几个原因（先前在此处进行了讨论（AN＃45）））。播客比此摘要具有更多的细节和细微差别。

Ben 认为，从历史上看，很难以一种可以预见的长期方式对变革性技术产生影响 —— 例如，很难看到我们可以在农业或工业化发展方面做些什么会影响到今天的世界。他认为，可以通过解决日益增加的政治动荡或锁定的可能性来获得长期影响的一些潜在途径，尽管他认为目前尚不清楚我们可以采取什么措施来影响锁定的结果，尤其是在遥远的情况下。

在对齐方面，Ben 聚焦于 Nick Bostrom 的《超级智能》（Superintelligence）中概述的标准论证集，因为它们具有广泛的影响力，而且充实。Ben 对这些论点有一些异议：

他认为不会突然跳升至功能极为强大和危险的人工智能系统，并且认为如果能力逐渐提高，我们将有更大的机会纠正出现的问题。
他认为，使人工智能系统具有能力和使人工智能系统具有正确的目标很可能并存。
他认为，仅仅因为有很多方法可以创建具有破坏性的系统，并不意味着创建该系统的工程过程很可能会被那些破坏性的系统所吸引；似乎我们不太可能偶然创建足以破坏人类的破坏性系统。

Ben 还花了一些时间讨论Mesa 优化（AN＃58），这是关于人工智能风险的新论点。他在很大程度上认为，mesa 优化的理由尚未充分充实。他还认为，学习不正确的目标可能是由于系统不够复杂而无法正确表示目标的结果。经过足够的训练，我们实际上可能会收敛到我们想要的系统。

鉴于当前的争论状态，Ben 认为值得 EA 充实有关人工智能风险的新争论，但也认为在人工智能相关主题上没有相对优势的 EAer 不一定要转向人工智能。Ben 认为，我们在人工智能安全和治理上花费的资金比 Alec Baldwin 主演的 2017 年电影《老板宝贝》（Boss Baby）投入更少是一种道德上的愤怒。

Asya 的观点：该播客涵盖了现有论点的令人印象深刻的广度。许多推理类似于我从其他研究人员那里听到的（AN＃94）。我非常高兴 Ben 和其他人花时间批评这些论点。除了向我们展示我们错在哪里，它还帮助我们引导到更合理的人工智能风险场景。

我在很大程度上同意 Ben 对 Bostrom 人工智能模型的批评。我认为 mesa 优化是当前人工智能风险的最佳案例，很高兴看到更多有关此方面的工作。我最不同意本的播客部分是：

– 我认为即使没有确凿的论据，我也对AI拥有生存威胁的重大机会感到满意，这部分是因为我认为将AI纳入“新智能物种”的参考类别是合理的除了“新技术”。

– 我不确定机构是否会充分解决故障，即使进步是渐进的并且有警告（AN＃104）。

Rohin 的观点：我建议你收听完整的播客，因为其中包含了许多本摘要中不适合的细节。总的来说，我非常同意 Ben。我确实认为，某些反对意见来自与经典争论不同的框架。例如，许多反驳涉及尝试从当前的机器学习实践中概括得出关于未来人工智能系统的主张。但是，我通常会想到经典论点基本上会忽略当前的机器学习，而是声称如果人工智能系统是超级智能的，那么它必须是目标导向的并且具有收敛的工具子目标。如果当前的机器学习系统不会导致目标导向的行为，我希望经典论点的支持者会说它们也不会导致超智能人工智能系统。

技术性人工智能对齐

迭代扩增

基于市场设计的人工智能安全性 （Evan Hubinger）（由 Rohin 总结）：如果你有一名专家，但不信任他们为你提供真实的信息，你如何激励他们告诉你真相？一种选择是，每当他们提供改变你想法的证据时向他们支付费用，希望只有在你相信真相时，才会有任何证据可以改变你的想法。这篇文章提出了一种类似的人工智能对齐方案。

我们训练两种模型，M 和 Adv。给定一个问题 Q，训练 M 预测程序结束时人类对 Q 的回答。另一方面，对 Adv 进行训练以产生使 M 最“改变主意”的论据，即，输出的答案分布与先前输出的分布大不相同。M 然后可以做出新的预测。重复进行 T 次，最终为人类提供 Adv 产生的所有 T 输出，并提供最终答案（用于为 M 提供梯度信号）。经过训练后，我们放弃了 Adv，仅使用 M 作为我们的问题解答系统。

考虑这一点的一种方法是，M 受过训练以提供关于“人类将回答的内容”的预测市场，而 Adv 受过训练以通过提供将改变人类所说的内容的新论据来操纵市场。因此，一旦你看到 M 提供了一个稳定的结果，就意味着该结果对于 Adv 可以提供的任何论点都是可靠的，因此这就是人类在看到所有论点之后会说的话。

该方案与辩论（AN＃5）类似，并且可以从有助于辩论的方案中受益，尤其是交叉检查（AN＃86）。特别是，Adv 可以在每个步骤中交叉检查 Adv 的先前版本。如果先前的化身具有欺骗性，那么当前的化身可以向人类证明这一点，这将导致他们无视先前的论点。我们还可以添加监督，在这种监督下，有权访问模型的监督者可以确保模型不会成为非近视或欺骗性的。

Rohin 的观点：我喜欢“发现人类不再改变主意的观点”这一想法的简单性，这是关于如何将人工智能系统的训练扩展到超出人类水平性能的一个新想法。但是，我不相信这篇文章中给出的训练程序会达到这种平衡，除非人类非常明确地指导训练这样做（我认为我们通常无法做出这样的假设）。看来，如果我们要达到 M 稳定地报告该问题的真实答案的状态，那么 Adv 将永远不会得到任何回报 —— 但是 Adv 可以通过随机化它提出的参数来做得更好，这样 M 便无法知道 H 的哪个参数将被暴露，因此无法稳定地预测 H 的最终答案。在此文章列表中查看更多详细信息。

通过非零和辩论的人工智能不安全性 （Vojtech Kovarik）（由 Rohin 总结）：这篇文章指出，辩论（AN＃5）关键在于创建零和游戏，以确保辩论者指出存在缺陷的地方。彼此的论点。例如，如果你修改了辩论以使两个智能体都因没有定论的辩论而受到惩罚，则智能体如果认为有可能使法官感到困惑，则可能决定不指出论点中的缺陷。

防止不良行为

在影响度量的基准选择的理想属性之间的权衡 （Victoria Krakovna）（由 Flo 总结）：影响度量（AN＃10）通常需要一个基准状态，相对于该基准状态我们定义了影响。选择此基线会对影响度量的属性产生重要影响：例如，流行的逐步不行动基线（在该步骤中，将当前操作的效果在每一步都与不执行操作进行比较）不会产生干扰环境过程或激励措施的诱因。抵消其自身行动的影响。但是，它忽略了延迟的影响，并且缺乏动机来抵消不需要的延迟影响。

这表明在惩罚延迟效果（总是希望的）和避免抵消激励之间进行权衡，如果要抵消的效果是目标的一部分，则是合乎需要的，如果不是，则是不希望的。我们可以通过修改任务奖励来规避权衡：如果仅在任务仍然解决的状态下对智能体进行奖励，则抵消抵消有助于完成任务的效果的动机就会减弱。在这种情况下，初始不行动基准（将当前状态与代理迄今为止没有执行任何操作所发生的状态进行比较）可以更好地处理延迟的影响，并正确地激励抵消与任务无关的影响，而抵消任务相关影响的激励措施通过任务奖励来抵消。如果修改任务奖励是不可行的，则在稀疏奖励的情况下，可以通过使用不行动基线并在获得奖励时将其初始状态重置为当前状态来实现相似的属性。通过基于时间的初始不行动基准 Markovian 来定义影响度量，我们可以从不活动展示中采样单个基准状态，或者在情节开始时计算一个惩罚，将不活动展示与智能体策略的展示进行比较。

Flo 的观点：我喜欢这种见解，即抵销并不总是坏事，并且喜欢使用任务奖励来处理坏事的想法。捕获任务当前是否完成的基于状态的奖励功能，在实现任务并未结束情节的情况下，直观上也似乎是指定奖励的正确方法。

不行动和初始状态基线之间的动态不一致 （Stuart Armstrong）（由 Rohin 总结）：在固定，固定的环境中，我们希望我们的智能体保持时间一致：也就是说，他们不应有积极的动力去限制他们未来的选择。但是，诸如AUP（AN＃25）之类的影响度量是通过查看智能体可以采取的其他措施来计算影响的。结果，智能体有动机改变这种反事实，以减少其受到的惩罚，并且它可以通过限制其未来的选择来做到这一点。这是通过 Gridworld 示例具体演示的。

Rohin 的观点：值得注意的是，像 AUP 之类的措施确实会创建一个马尔可夫奖励函数，通常会导致时间一致的智能体。之所以在这里不适用，是因为我们假设对未来选择的限制是环境和形式化的“外部”因素，但仍会影响惩罚。如果相反，我们在环境“内部”有此限制，那么我们将需要包含一个状态变量，用于指定操作集是否受到限制。在那种情况下，影响度量将创建依赖于该状态变量的奖励函数。因此，解决问题的另一种方式是，如果你添加了将将来的行为限制在环境中的功能，则冲击惩罚会导致奖励函数，该函数取决于是否限制了行为集，这在直观上是我们所不希望的。（这一点在后续发布也有提及）

杂项（对齐）

反对近视训练的争论 （Richard Ngo）（由 Rohin 总结）：人工智能对齐的几个（AN＃34）提议（AN＃102）涉及某种形式的近视训练，其中人工智能系统被训练为采取仅能最大程度地提高视力的动作。在下一个时间步长中反馈信号（而不是像典型的奖励信号那样跨越事件或跨越所有时间）。为了使它起作用，反馈信号需要考虑到人工智能系统动作的未来后果，以激励良好的行为，因此提供反馈变得更具挑战性。

这篇文章认为，近视训练似乎没有任何主要好处，因此，我们不得不提供更具挑战性的反馈而付出的成本是不值得的。特别是，近视训练并不一定会导致“近视认知”，即行动者在选择一项行动时不会考虑长期后果。要看到这一点，请考虑我们知道理想奖励函数 R* 的情况。在这种情况下，为近视训练提供的最佳反馈是最佳 Q 函数 Q*。但是，无论我们是使用 R* 进行常规训练还是使用 Q* 进行近视训练，如果智能体估算出 Q* 以便选择正确的行动，智能体都会做得很好，这反过来又可能需要长期思考其行动的后果。因此，如果我们提供依赖于（对长期后果的预测）反馈，则似乎没有充分的理由期望近视训练会导致近视认知。实际上，对于我们可能提供的任何批准反馈，都会有同等的奖励反馈来激励相同的最佳策略。

近视训练的另一个论点是，它可以防止奖励篡改和操纵主管。作者没有发现这种吸引力。在奖励篡改的情况下，智能体似乎不会“偶然地”灾难性地篡改其奖励，因为篡改很难做到，所以他们只能有意地这样做，在这种情况下，对于我们而言，防止此类篡改很重要产生的意图，我们不应该期望近视训练有很大帮助。他认为，在操纵主管的情况下，就近视训练而言，主管必须考虑智能体的未来产出以提高竞争力，这反过来可能会导致操纵。

Rohin 的观点：我同意我认为这篇文章的要点：近视训练并不意味着所产生的特质将具有近视认知。但是，我认为这并不意味着近视训练是没有用的。据我说，近视训练的主要好处是，常规强化学习奖励规格中的小错误可以激励灾难性结果，而近视强化学习批准反馈中的小错误则不太可能激励灾难性结果。（这是因为我们指定的“简单”奖励通常会导致收敛的工具性子目标（AN＃107），而对于批准反馈则不必如此。）此注释中有更多详细信息。

关于构建安全的高级人工智能的建议空间 （Richard Ngo）（由 Rohin 总结）：这篇文章确定了可以将这些先前的对齐建议（AN＃102）分类的六个轴，希望通过推动特定的轴可以产生新的建议。六个轴是：

监督者提供适当的反馈有多困难。
我们在多大程度上试图逼近我们事先知道的计算结构。
我们是否依赖人工智能体之间的竞争。
提案在多大程度上取决于自然语言。
该提议在多大程度上取决于对神经网络内部工作的解释。
提案在多大程度上取决于特定的环境或数据集。

人工智能战略与政策

符合反托拉斯法的人工智能行业自我监管 （Cullen O’Keefe）（由 Rohin 总结）：降低不安全人工智能系统风险的一种方法是在公司之间达成协议，以促进降低风险的措施。但是，此类协议可能会违反反托拉斯法。本文建议可以在“理性规则”下进行这种自我调节，在这种情况下，只要有经验的专业人士（例如“人工智能工程”）可以自我调节，以纠正市场失灵。这种规定的效果是促进而不是损害竞争。

在人工智能中，如果人工智能工程师自我调节，则可以说是纠正了人工智能工程师（知道风险）和人工智能系统用户（不知道风险）之间的信息不对称性。另外，由于人工智能工程师可以说没有金钱上的激励，所以自我调节不需要反竞争。因此，这似乎是一种可行的方法，通过该方法可以在不违反反托拉斯法的情况下进行人工智能自我调节，因此值得进一步研究。

人工智能的其他进展

深度学习

GShard：通过条件计算和自动分片来扩展巨型模型 （Dmitry Lepikhin 等人）（由 Asya 总结）：本文介绍了 GShard，该模块可以轻松编写并行计算模式，而对现有模型代码的更改很少。GShard 自动完成许多跨计算机拆分计算的工作，从而可以轻松创建比以前更大的模型。

作者使用 GShard 训练了一个 6000 亿参数的多语言 Transformer 转换模型，该模型较宽而不是较深（36层）。他们使用“专家混合”模型，其中 Transformer 中的某些单个前馈网络被一组前馈网络取代—— 每个前馈网络在翻译的某些部分中都是“专家”。专家分布在不同的机器上，学习了向专家发送输入的功能，每个输入都发送给最相关的前两名专家。由于每个专家只需要处理所有输入的一小部分，因此所需的计算量大大少于通过单个较大的网络馈送每个输入的情况。所需计算的减少伴随着网络完成的权重分配量的减少。

本文将 6000 亿参数模型的性能与其他几个较小的模型以及仅 23 亿参数的 96 层深度模型进行了比较。对于广泛的网络，作者发现，通常来说，较大的模型会更好，但是对于“资源匮乏”的语言（在这种情况下，没有太多训练数据的语言）来说，较大的模型开始表现较差。作者认为这是因为资源匮乏的语言受益于“积极的语言转移”，即权重编码从其他语言的训练中学到的知识，然后可以将其应用于资源贫乏的语言。随着你在某个特定点上增加了广泛模型中的专家数量，每位专家所做的训练数量就会减少，因此在每个专家中有更少的正面语言迁移到低资源语言。

他们还发现，更深层的网络在采样量相同的情况下，采样效率更高，达到了更好的测试误差，但计算效率却较低（给定当前的限制）。具有 6000 亿参数的 36 层模型需要 22.4 TPU 核年和 4 天的时间进行训练，达到 BLEU 基准 44.3 的得分。这个 23 亿参数的 96 层模型需要 235 TPU 核年和 42 天的训练时间，达到 BLEU 基准 36.9 的得分。

Asya 的观点：我花了大部分时间来讨论语言模型，但我认为实际上更酷的东西实际上是 GShard，因为它将使其他超大型模型将来可以进行模型并行化。

由于我们能够训练甚至更通用的更深层模型，并且比宽模型效率更高的样本效率，这里宽模型的效率提高似乎消失了。

从技术上讲，此模型比 GPT-3 具有更多的参数，但是它“稀疏”，因为并非所有输入都用于更新所有参数。有时人们将神经网络中参数的数量与人脑中突触的数量进行比较，以猜测何时我们可能获得人类级别的人工智能。我发现直接使用这个数字是非常可疑的，部分原因是，正如本文所说明的，即使在相对狭窄的人工神经网络范围内，系统的精确体系结构也会对每个参数的有效能力产生很大影响。

GPT-3 创意小说 （Gwern Branwen 和 GPT-3）（由 Rohin 总结）：用 Gwern 的话来说，这是“由 OpenAI 的 GPT-3 模型创作的作品，展示了诗歌、对话、双关、文学模仿和故事讲述”。

Rohin 的观点：我经常发现直接盯着原始数据以了解某些事物的工作原理非常有用，除了查看汇总统计数据和提供数据的高级视图的图表外。虽然这不是字面上的原始数据（Gwern 巨资设计了提示，而且有些策划的输出），我认为它提供了一个看看 GPT-3 如何工作的重要机会，而你不会从阅读论文（AN＃102）中获得这些。

AGI Watchful Guardians

AN #108 为何需要仔细检查人工智能风险的争论

对齐周报第 108 期

强调

技术性人工智能对齐

迭代扩增

防止不良行为

杂项（对齐）

人工智能战略与政策

人工智能的其他进展

深度学习

Leave a comment Cancel reply

AN #108 为何需要仔细检查人工智能风险的争论

对齐周报第 108 期

强调

技术性人工智能对齐

迭代扩增

防止不良行为

杂项（对齐）

人工智能战略与政策

人工智能的其他进展

深度学习

共享此文章：

Leave a comment Cancel reply