AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。 … More AN #71 通过当下-RF优化避免奖励篡改

AN #68 影响的可获得效用理论

该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?” … More AN #68 影响的可获得效用理论

AN #67 创建在其中研究内部对齐故障的环境

这篇文章提出了一个具体的环境,我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫,其中包含钥匙和箱子。真正的目的是打开箱子,但是打开箱子需要你已经有了一把钥匙(并用完了钥匙)。在训练过程中,钥匙要比箱子少得多,因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它,它会绕过地捡起钥匙,同时可能忽略箱子,这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”,因为祖先环境中的食物稀缺,即使现在食物很丰富。 … More AN #67 创建在其中研究内部对齐故障的环境

AN #66 将健壮性分解为能力健壮性和对齐健壮性

通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑 mesa 优化 (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。 … More AN #66 将健壮性分解为能力健壮性和对齐健壮性

AN #65 通过观看人类‘玩游戏’学习有用的技能

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。 … More AN #65 通过观看人类‘玩游戏’学习有用的技能

AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

Asya 的观点:我对作为正则化工具的影响和作为安全协议的影响感到非常兴奋。我觉得在运行时刻受到影响限制的 AI(影响限制条件)不太可能与其他没有影响力的 AI竞争(这将在后文中讨论)。我发现这样一种论点,即影响对于取消混淆的强制性尤其有用。

Rohin 的观点:在我看来,安全协议参数是针对训练时的有限动作,而影响限制因素是针对测试时的有限动作。我真的不知道正则化器应该与这两种情况有什么不同 —— 也许是因为它是 AI 专门优化的效用函数分布上的正则化器?这仍然令人困惑,我希望影响限制器的情况也可以改变效用函数。像 Asya 一样,我也担心竞争力:请参阅 下面有关可逆变化的文章  。

More AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型?

什么地方出了错?问题是我们评估机器智能的方式,没有考虑到机器对我们有用的事实。HC 提出:  机器在可以预期它们的动作可以实现 我们的 目标这个意义上是 有益。当然,现在,我们仍然不知道我们的目标是什么。但这一定义,而不是我们的人工智能系统优化确定的,错误的目标,他们将 成为不确定的目标。HC 通过提出人工智能系统设计的三项原则对此进行了扩展,我将在此处完整引用:

1.  机器的唯一目的是最大程度地实现人们的偏好。

2.  机器最初不确定这些偏好是什么。

3.  关于人类偏好的信息的最终来源是人类行为。

More AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型?