中文版

对齐周报第 105 期

对齐周报是每周出版物，其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是，你可以浏览此电子表格，查看其中的所有摘要。此处的音频版本（可能尚未启用）。

TABLE_OF_CONTENTS: TableOfContents

强调

建模人类轨迹 （David Roodman）（由 Nicholas 总结）：这篇文章分析了从公元前 10,000 年到现在的人类轨迹，并考虑了其对未来的影响。用于此的度量标准是世界生产总值（GWP），即一年中世界上生产的商品和服务的总和。

我们可以从这段很长的历史过程的世界生产总值中得出一些有趣的结论。首先，直到 1800 年，大多数人都生活在基本生活水平附近。这意味着全球升温潜能值的增长主要由人口增长驱动。从那时起，人口增长放缓，人均 GWP 增加，导致我们今天的生活质量大大提高。其次，指数函数根本无法很好地拟合数据。在指数函数中，GWP 翻倍的时间将是恒定的。取而代之的是，世界生产总值似乎快了一倍，这更符合幂律关系。但是，推断这种关系向前发展的结论是，经济增长非常快，随着 2047 年临近，世界生产总值接近无限。

接下来，Roodman 创建一个随机模型，以便不仅分析模态预测，还获得关于特定结果可能性的完整分布。通过仅对过去的数据进行拟合，他分析了全球升温潜能值每个时期的惊人程度。结果发现，工业革命及其后的时期超过了模型分布的 90％，这与令人惊讶的快速经济增长相对应。类似地，在过去 30 年中，增长异常反常，下降了 25 个百分点。这表明该模型的随机性不能适当地反映现实世界 —— 虽然一个好的模型肯定可以在一个时期内被高增长或低增长所“惊讶”，但可能不应该像在这里那样始终朝着同一方向感到惊讶。

除了凭经验查看数据外，他还提供了一个理论模型，说明如何通过归纳标准经济模型来实现这种加速增长。通常，经济模型假定技术是固定的投入或具有固定的增长率，并且不允许将生产再投资于技术改进。一旦将再投资纳入模型，经济增长率便会像历史数据一样加速。

Nicholas 的观点：我发现这篇论文非常有趣，并对结果感到惊讶。也就是说，我对应该从中得出什么结论感到困惑。幂律趋势似乎确实非常适合历史数据，但是过去的 70 年非常适合指数趋势。对于我来说，哪一个与预测未来有关（如果有的话）。

提出的理论模型对我来说更有意义。如果技术负责增长率，那么将生产再投资于技术将导致增长率更快。我很想知道有关将 GWP 的哪一部分重新投资于改进技术以及如何与其他趋势保持一致的数据。

Rohin 的观点：我喜欢这篇文章；它使我对带有噪声的双曲模型的外观有一种内在的感觉（有关此信息，请参阅博客文章，摘要未提到它）。总的来说，我认为我的收获是，尽管最初听起来很疯狂，但用于人工智能爆炸性增长风险的图片实际上是合理的。当然，它实际上并不会发散到无穷大 —— 我们最终将达到某种增长极限，即使是“指数”增长也是如此 —— 但是这个极限可能远远超过我们迄今为止所达到的极限。另请参阅此相关文章。

优化的基础 （Alex Flint）（由 Rohin 总结）：关于人工智能风险的许多争论都取决于“优化”的概念，但是到目前为止，它还没有一个很好的定义。一种自然的方法是说，优化器根据一些合理的效用函数使世界具有更高的值，但这似乎不足，因为瓶盖将成为用于将水保持在瓶中的优化器（AN＃22）。

这篇文章提供了优化的新定义，方法是从嵌入式代理（AN＃31）中提取一页内容并分析整个系统，而不是将代理和环境分开。一个优化系统是从任何地方开始时在一些较大的一组配置（称为吸引盆）即使系统被扰动的一个趋向于朝向的一些专门配置（称为演进目标配置集）。

例如，在梯度下降中，我们从对参数 θ 的一些初始猜测开始，然后连续计算损耗梯度并在适当的方向上移动 θ。目标配置集是所有损失情况的局部最小值。这样的程序具有非常特殊的属性：在运行时，你可以更改 θ 的值（例如，通过调试器），并且该程序可能仍然可以运行。这非常令人印象深刻：如果你在执行过程中任意更改其中一个变量的值，当然大多数程序将无法运行。因此，这是一个优化系统，对 θ 的扰动具有健壮性。当然，它对任意扰动都不可靠：如果在程序中更改任何其他变量，它可能会停止工作。通常，我们可以通过优化系统对扰动的健壮性以及目标配置集的大小来量化优化系统的功能。

瓶盖示例不是一个优化系统，因为没有广泛的配置盆地可以使瓶子充满水。当瓶盖没有开始装满水时，瓶盖不会导致装满水。

优化系统是目标导向代理系统的超集，需要将优化器与要优化的事物分开。例如，一棵树肯定是一个优化系统（目标是成为一棵完全生长的树，它对于土壤质量的扰动或切断树枝等具有健壮性）。但是，它似乎不是目标导向的代理系统，因为很难将其分为“优化器”和“正在优化的事物”。

这确实意味着我们不再可以在优化系统中询问“正在做什么优化”。这是一个功能，而不是错误：如果你希望始终能够回答此问题，则通常会产生令人困惑的结果。例如，你可能会说你的肝脏正在为赚钱而优化，因为如果没有赚钱，你将死亡而无法赚钱。

整篇文章还提供了其他一些示例，可以使概念更清晰。

Rohin 的观点：我以前曾争论过（AN＃35），我们需要在优化或目标导向行为的定义中考虑泛化。该定义通过主要分析优化系统对扰动的健壮性来实现。尽管这确实依赖于反事实的概念，但它似乎仍然比以前进行基础优化的尝试要好得多。

我特别喜欢这个概念并不会强迫我们拥有单独的代理和环境，因为仔细检查后，这种区别似乎还是很有漏洞的。在这篇评论中，我试着解释了人工智能对齐的其他几个概念，并且效果很好。特别是，如果存在这样的环境，则计算机程序是目标导向的人工智能系统：将计算机程序添加到环境中后，会将其转换为针对某些“有趣”目标配置状态的优化系统（注释中有一个警告）。

技术性人工智能对齐

智能体基础理论

公共静态：什么是抽象？ （John S Wentworth）（由 Rohin 总结）：如果我们要了解嵌入式代理，则可能需要了解抽象（请参见此处（AN＃83））。这篇文章提出了一种抽象的观点，在这种观点中，对于某些查询集（无论是概率性还是因果性的），我们将低级区域抽象为一个高级地图，该地图仍然可以对该区域做出可靠的预测。

例如，在理想气体中，低级配置将指定每个单个气体粒子的位置和速度。但是，我们可以创建一个高级模型，在其中跟踪分子数量，分子平均动能等事物，然后可以用来预测诸如施加在活塞上的压力之类的事物。

给定一个低层区域L和我们希望能够回答的一组查询 Q，最小信息高层模型为每个可能的 Q 和 L 存储 P(Q | L)。但是，实际上我们不从一组查询开始，然后提出抽象，而是开发可以回答许多查询的简洁明了的抽象。开发此类抽象的一种方法是，仅保留“遥远”可见的信息，并丢弃可能被噪声清除的信息。例如，当在计算器中键入 3 + 4 时，电路中的确切电压不会影响除几微米之外的任何东西，最终结果 7 除外，这会影响更广阔的世界（例如，通过我看到答案）。

如果我们改从系统角度来看，我们想要抽象多个不同的低层事物，那么我们可以等效地说，两个遥远的低层事物在给出它们的高层次抽象时应该彼此独立，应该能够量化他们所有的互动。

阅读更多：抽象序列

Rohin 的观点：我真的很喜欢抽象的概念，并认为它是智能的重要组成部分，因此我很高兴能获得更好的工具来理解它。我特别喜欢这样的表述：在给出高层次抽象的情况下，低级组件应该是独立的 —— 这与软件设计中的封装原理完全对应，并且似乎是一个相当自然而优雅的描述，尽管在实践中当然是抽象的只会大致满足此属性。

学习人类意图

通过偏好的快速贝叶斯奖励推断 （Daniel S. Brown等人）（由 Zach 总结）进行安全的模仿学习：贝叶斯奖励学习将在进行模仿学习时进行严格的安全性分析。然而，贝叶斯奖励学习方法通常在计算上使用昂贵。这是因为每个奖励假设都需要解决一个单独的 MDP。这项工作的主要贡献是提出了一种称为贝叶斯 REX 的更有效的奖励评估方案的建议（另请参见早期版本（AN＃86））。它通过预训练观察空间的低维特征编码来工作，该编码允许将奖励假设评估为学习特征的线性组合。演示使用成对偏好进行排序，这是相对的，因此在概念上更易于人类进行评估。使用这种方法，可以非常迅速地对奖励假设进行采样和评估：使用 PC 仅需 5 分钟即可完成 100,000 个采样。此外，贝叶斯 REX 可通过找到最能解释均值偏好的最可能或均值奖励假设，然后将其用作智能体的奖励功能，来玩 Atari 游戏。

前提内容： T-REX

Zach 的观点：值得强调的是，这并不是一种纯粹的 IRL 方法。除了演示本身之外，他们还使用对演示的首选项，因此与纯 IRL 上下文相比，它们具有更多信息。但是，值得强调的是（如作者所示）像素级功能使使用 IRL 或 GAIL 学习模仿策略变得很困难，这意味着我不希望在这里使用纯粹的 IRL 方法。从概念上讲，贝叶斯方法的有趣之处在于，奖励分配中的不确定性会转化为预期奖励的置信区间。

防止不良行为

在复杂环境中避免副作用 （Alexander Matt Turner，Neale Ratzlaff 等人）（由 Rohin 总结）：以前，可获得的实用程序保护（AUP）已用于解决一些简单的gridworld （AN＃39）。我们还可以使用它来避免在复杂的高维环境中产生副作用吗？本文表明我们至少可以在SafeLife（AN＃91）。该方法很简单：首先在环境中的随机展开上训练 VAE 模型，然后使用 VAE 特征的随机生成的线性函数作为 AUP 惩罚的辅助奖励函数。可以使用深度强化学习算法学习这些辅助奖励函数的 Q 函数。然后，我们可以使用指定的奖励和 AUP 惩罚进行常规的深度强化学习。事实证明，仅使用一个辅助奖励函数和一个隐含空间大小为 1 的 VAE，就可以减少副作用。由于某种原因，它也导致更快的学习。作者假设发生这种情况是因为 AUP 惩罚是一个有用的成形项，但不知道为什么会这样。

预测

你可能认为很近的未来不可能实现人类水平的人工智能的原因 （Asya Bergal）（由 Rohin 总结）：关于人工智能发展时间线存在很多分歧，这可能与决策相关。尤其是，如果我们确信未来 20 年内 AGI 的可能性小于 5％，那么这可能会大大改变该领域的总体战略：例如，我们可能会更多地关注运动的建立，而不是实证研究，而是更多 MIR I的智能体基础研究。这篇演讲并没有果断地回答这个问题，而是讨论了三种不同的证据来源可以证明这一立场：专家调查的结果，计算趋势以及当前方法不足以支持 AGI 的论点。

专家调查通常显示 20 年内 AGI 的可能性大大高于 5％，但这对问题的特定框架非常敏感，因此尚不清楚这是否能提供足够的信息。如果我们改为问专家，他们任职期间解决了哪个领域的百分比并将其外推到 100％，那么初级研究人员的外推往往是乐观的（数十年），而高级研究人员的外推则是悲观的（几个世纪）。

同时，在计算（AN＃7）上花费的金额一直在迅速增加。按照估计的趋势，到 2022 年它将达到 2000 亿美元，这在大型政府的范围内是可以实现的，但据推测可能必须在这一点上放慢速度，这有可能导致整体人工智能进度放缓。更好的价格性能（每美元可以购买多少次 flops）可能可以弥补这一点，但历史上一直没有以可比的速度增长。

另一个论点是，我们的大部分努力现在都在进行深度学习，而主要依赖于深度学习的方法对于 AGI 来说是不够的，例如，因为它们无法使用人类先验知识或无法进行因果推理等。不要尝试评估这些论点，因此也没有具体的建议。

Rohin 的观点：尽管时间表存在很多不确定性，但我认为在未来 20 年内将 AGI 的可能性降低到 5％以下是不合理的。所谓“神经网络从根本上说不能用 X 表示”的说法几乎总是错误的：循环神经网络是图灵完备的，因此可以对任意计算进行编码。因此，真正的问题是我们是否可以找到与因果推理相对应的参数化。

我很同情这一点很难做到：神经网络找到了执行任务的最简单方法，通常不涉及一般推理。尽管如此，通过执行越来越复杂和多样化的任务，你似乎可以借助 GPT-3（AN＃102）是这种趋势的最新例子。当然，即使如此，由于计算的限制，仍可能难以达到 AGI。我并不是在说我们已经有了一般推理，也不是说我们一定会很快得到它：只是似乎我们不能排除一般推理很快就会发生的可能性，至少不是没有对它进行相对复杂的分析。我们将来可以期望多少计算量，以及通过任务多样性进行 AGI 所需量的下限。

相关 AGI-前的可能性 （Daniel Kokotajlo）（由 Rohin 总结）：此页面列出了在 AGI 开发之前可能发生的 47 件事，这些事可能对人工智能安全或人工智能政策很重要。你也可以使用该网页为将来生成非常简单的轨迹，就像 Daniel 在这种情况下所做的那样。

Rohin 的观点：我认为这种对未来的推理，特别是确保你不会太固守自己的信念，这对你未来的推理特别有益，因为你会被迫进入情景并必须推理必须发生的事情并得出影响。关于未来，这可能太狭窄了。

杂项（对齐）

准备与人工智能项目的“对话” （Daniel Kokotajlo）（由 Rohin 总结）：在将来的某个时刻，似乎可以进行一次对话，人们可以在其中进行决定是否部署潜在风险的人工智能系统。因此，要考虑的一类干预措施是使此类对话顺利进行的干预措施。这包括提高对特定问题和风险的认识，但也可能包括确定可能参与此类对话的人员，以及关注人工智能风险，并通过培训，资源和实践帮助他们为此类对话做准备。后面的干预措施尚未完成：潜在干预措施的一些简单示例将生成人工智能安全问题和解决方案的正式列表，这些清单可以在此类对话中指出，或者对这些对话进行“练习”。

Rohin 的观点：我当然同意我们应该考虑如何使主要决策者相信他们正在构建的系统的风险等级（无论该风险等级是多少）。我认为，从目前的角度来看，最好是通过更好地估计和解释人工智能系统的风险来最好地做到这一点，但是，这里提出的干预措施将来似乎会变得越来越重要。

人工智能战略与政策

中期人工智能与社会 （Seth D. Baum）（由 Rohin 总结）：像先前总结的论文（AN＃90）一样，本论文旨在寻找中期的近期和长期优先事项之间的共同点。关注。这可以沿着人工智能系统的多个维度进行定义：按时间顺序出现时，构建它的可行性如何，可以构建它的确定性如何，系统的能力如何，系统的影响力和紧急程度它正在努力。

本文阐述并评估了中期人工智能假设的合理性：从中间论者和未来主义者的角度来看，存在一个中间时间段，其中人工智能技术和伴随的社会问题很重要。但是，对于该假设是否成立并没有强烈的意见。

AGI Watchful Guardians

AN #105 人类的经济轨迹和优化可能的“真正”含义

对齐周报第 105 期

强调

技术性人工智能对齐

智能体基础理论

学习人类意图

防止不良行为

预测

杂项（对齐）

人工智能战略与政策

Leave a comment Cancel reply

AN #105 人类的经济轨迹和优化可能的“真正”含义

对齐周报第 105 期

强调

技术性人工智能对齐

智能体基础理论

学习人类意图

防止不良行为

预测

杂项（对齐）

人工智能战略与政策

共享此文章：

Leave a comment Cancel reply