AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。” … More AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

A Comparative Analysis of Expected and Distributional Reinforcement Learning

Clare Lyle, Pablo Samuel Castro, and Marc G. Bellemare Since their introduction a year ago, distributional approaches to reinforcement learning (distributional RL) have produced strong results relative to the standard approach which models expected values (expected RL). However, aside from convergence guarantees, there have been few theoretical results investigating the reasons behind the improvements distributional … More A Comparative Analysis of Expected and Distributional Reinforcement Learning

AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。 … More AN #71 通过当下-RF优化避免奖励篡改

AN #68 影响的可获得效用理论

该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?” … More AN #68 影响的可获得效用理论

AN #67 创建在其中研究内部对齐故障的环境

这篇文章提出了一个具体的环境,我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫,其中包含钥匙和箱子。真正的目的是打开箱子,但是打开箱子需要你已经有了一把钥匙(并用完了钥匙)。在训练过程中,钥匙要比箱子少得多,因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它,它会绕过地捡起钥匙,同时可能忽略箱子,这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”,因为祖先环境中的食物稀缺,即使现在食物很丰富。 … More AN #67 创建在其中研究内部对齐故障的环境

AN #66 将健壮性分解为能力健壮性和对齐健壮性

通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑 mesa 优化 (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。 … More AN #66 将健壮性分解为能力健壮性和对齐健壮性

AN #65 通过观看人类‘玩游戏’学习有用的技能

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。 … More AN #65 通过观看人类‘玩游戏’学习有用的技能