AN #75 用学到的游戏模型解决 Atari 和围棋问题以及一位 MIRI 成员的想法

到目前为止,免模型强化学习方法在 Atari 等视觉丰富的领域一直是最新技术,基于模型的强化学习对于需要提前规划许多步骤的游戏(例如围棋,国际象棋和将棋)都非常出色。本文使用基于模型的方法 MuZero 在 Atari 上获得了最先进的性能,同时在围棋、国际象棋和将棋上达到了 AlphaZero (AN#36)水平,同时使用了较少的计算量。重要的是,它不需要任何游戏规则方面的知识就可以做到这一点。

AN #74 将向善的人工智能分解为能力、对齐和应对影响

第三,分类与我们开发的人工智能系统的细节相对不可知 —— 这些仅显示在第 4 级中,其中 Paul 指出他主要考虑的是学习方式的对齐,而不是规划和演绎。如果考虑其他类型的人工智能系统,我尚不清楚分解的高的层面在多大程度上有意义:如果我认为分解不如强大的演绎算法带来的风险那么好,我不会感到惊讶这将取决于演绎算法如何变得如此强大的细节。看到更多的工作提出了更强大的通用人工智能系统的更具体的模型,并对这些模型中的风险进行推理,我会感到特别兴奋,就像《学习型优化的风险》 (AN#58)中所做的那样。

AN #73 通过了解智能体如何崩溃来检测灾难性故障

在安全至关重要的领域中,一个重要的问题是准确估计灾难性故障的可能性很小:百万分之一与十亿分之一有很大不同。标准的蒙特卡洛方法需要数百万或数十亿次试验才能找到单个故障,这是非常昂贵的。本文建议在训练过程的早期使用智能体来为学习的失败概率预测器提供信号。例如,对于仿人机器人,故障定义为机器人摔倒。在早期智能体上训练神经网络,以预测智能体从给定状态跌落的可能性。为了评估最终智能体,根据神经网络认为状态导致故障的可能性对状态进行重要性抽样。这基于这样的假设,即最终智能体的故障模式与早期智能体的某些故障模式相似。总体而言,该方法将准确估计故障概率所需的样本数量减少了多个数量级。

AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。”

AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。

AN #68 影响的可获得效用理论

该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?”

AN #67 创建在其中研究内部对齐故障的环境

这篇文章提出了一个具体的环境,我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫,其中包含钥匙和箱子。真正的目的是打开箱子,但是打开箱子需要你已经有了一把钥匙(并用完了钥匙)。在训练过程中,钥匙要比箱子少得多,因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它,它会绕过地捡起钥匙,同时可能忽略箱子,这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”,因为祖先环境中的食物稀缺,即使现在食物很丰富。

AN #66 将健壮性分解为能力健壮性和对齐健壮性

通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑 mesa 优化 (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。

AN #65 通过观看人类‘玩游戏’学习有用的技能

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。

AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

Asya 的观点:我对作为正则化工具的影响和作为安全协议的影响感到非常兴奋。我觉得在运行时刻受到影响限制的 AI(影响限制条件)不太可能与其他没有影响力的 AI竞争(这将在后文中讨论)。我发现这样一种论点,即影响对于取消混淆的强制性尤其有用。

Rohin 的观点:在我看来,安全协议参数是针对训练时的有限动作,而影响限制因素是针对测试时的有限动作。我真的不知道正则化器应该与这两种情况有什么不同 —— 也许是因为它是 AI 专门优化的效用函数分布上的正则化器?这仍然令人困惑,我希望影响限制器的情况也可以改变效用函数。像 Asya 一样,我也担心竞争力:请参阅 下面有关可逆变化的文章  。