AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。

AN #68 影响的可获得效用理论

该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?”

AN #67 创建在其中研究内部对齐故障的环境

这篇文章提出了一个具体的环境,我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫,其中包含钥匙和箱子。真正的目的是打开箱子,但是打开箱子需要你已经有了一把钥匙(并用完了钥匙)。在训练过程中,钥匙要比箱子少得多,因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它,它会绕过地捡起钥匙,同时可能忽略箱子,这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”,因为祖先环境中的食物稀缺,即使现在食物很丰富。

AN #66 将健壮性分解为能力健壮性和对齐健壮性

通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑 mesa 优化 (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。

AN #65 通过观看人类‘玩游戏’学习有用的技能

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。

AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

Asya 的观点:我对作为正则化工具的影响和作为安全协议的影响感到非常兴奋。我觉得在运行时刻受到影响限制的 AI(影响限制条件)不太可能与其他没有影响力的 AI竞争(这将在后文中讨论)。我发现这样一种论点,即影响对于取消混淆的强制性尤其有用。

Rohin 的观点:在我看来,安全协议参数是针对训练时的有限动作,而影响限制因素是针对测试时的有限动作。我真的不知道正则化器应该与这两种情况有什么不同 —— 也许是因为它是 AI 专门优化的效用函数分布上的正则化器?这仍然令人困惑,我希望影响限制器的情况也可以改变效用函数。像 Asya 一样,我也担心竞争力:请参阅 下面有关可逆变化的文章  。

AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型?

什么地方出了错?问题是我们评估机器智能的方式,没有考虑到机器对我们有用的事实。HC 提出:  机器在可以预期它们的动作可以实现 我们的 目标这个意义上是 有益。当然,现在,我们仍然不知道我们的目标是什么。但这一定义,而不是我们的人工智能系统优化确定的,错误的目标,他们将 成为不确定的目标。HC 通过提出人工智能系统设计的三项原则对此进行了扩展,我将在此处完整引用:

1.  机器的唯一目的是最大程度地实现人们的偏好。

2.  机器最初不确定这些偏好是什么。

3.  关于人类偏好的信息的最终来源是人类行为。

AN #70 帮助仍在学习自己的偏好的人类的智能体

关于人类最佳行为的标准逆强化学习假设似乎不切实际;我认为,本文提供了一个没有此假设的有见地的初始步骤,并以干净而引人注目的方式对问题的非最优版本进行了建模。我认为值得注意的是,这个问题对参与人的学习模型非常敏感,并且我同意该论文,这表明我们应该努力研究实际的人类学习策略。我不确定如何考虑将这些见解推广到其他逆强化学习案例。

AN #59 对人工智能风险的争论是如何随着时间而改变的

对于AI风险争论的转移 (Tom Sittler)由早期参数为AI安全焦点上存在风险的原因: 有着在AI能力上的尖锐的不连续跳跃的对齐失败。为了争论一个危险的转折,需要不连续性假设,例如:没有不连续性,我们可能会看到能力较弱的 AI 系统无法隐藏他们的错误对齐目标,或者试图欺骗我们而没有成功。同样,为了使 AI 系统获得决定性的战略优势,它需要比已经存在的所有其他 AI 系统更强大,这需要某种不连续性。

AN #58 Mesa 优化:这是什么,为什么我们应该关心它

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 高级机器学习系统中学到的优化的风险 (Evan Hubinger等):假设你搜索一个程序空间,寻找能够很好地玩 TicTacToe 的程序。最初,你可能会发现一些很好的启发式方法,例如去中心广场,如果你沿着一行有两个,然后放置第三个,等等。但最终你可能会找到 minimax 算法,通过搜索最好的行动从而最优化自身行为。值得注意的是,你对程序空间的外部优化发现了一个程序 本身就是 一个针对可能行动进行搜索的优化器。用本文语言来说,minimax 算法是一个 mesa 优化器:一个由基本优化器自主发现的优化器,在这种情况下的搜索针对所有程序。 为什么这与人工智能有关?嗯,梯度下降是一种优化算法,它搜索神经网络的参数空间,以找到在某个目标函数上表现良好的参数集合。发生同样的事情似乎也很合理:梯度下降可以找到一个本身正在进行优化的模型。那个模型将成为 mesa 优化器,它优化的目标是 mesa 目标。请注意,虽然 mesa 目标应该导致与训练分布上的基目标类似的行为,但它不需要在偏离分布时这样。这意味着 mesa 目标是 伪对齐的 ; 它如果在偏离分布时也导致类似行为,它是 健壮的(Robust)对齐。 人工智能对齐的一个主要担忧是,如果强大的智能体优化了错误的目标,它可能会导致人类的灾难性后果。由于 mesa 优化器的可能性,这种担心加倍:我们需要确保基目标函数与人类对齐(称为 外部对齐)并且 mesa 目标与基目标对齐(称为 内部对齐)。一个特别令人担忧的方面是 欺骗性对齐:mesa 优化器具有长期的 mesa 目标,但知道它正在针对基目标进行优化。因此,它在训练期间优化了基目标以避免被修改,但在部署时,当被修改的威胁消失时,它就只追求 mesa 目标。 下面我们来举例说明动机,如果有人想要创建最好的生物复制器,他们可以合理地使用自然选择/进化作为这个目标的优化算法。然而,这将导致人类的创造,他们将是优化其他目标的 mesa 优化器,并且不优化复制(例如通过使用节育控制)。 本文有更多的细节和分析,哪些因素使得 mesa 优化更有可能,更危险等等。你必须阅读论文了解所有这些细节。一种通用模式是,当使用机器学习解决某些任务 X 时,有许多属性会影响学习启发式或代理的可能性,而不是实际学习针对 X 的最佳算法。对于任何此类属性,使启发式/代理更多可能会导致 mesa 优化的可能性降低(因为优化器不像启发式/代理),但是在 mesa … Continue reading AN #58 Mesa 优化:这是什么,为什么我们应该关心它