最坏情况下的保证(重制版)

即使我们非常小心地部署机器学习,也可能会达到少数相关性失败(correlated failures)很快就会变成灾难性的地步。强大的模型可能会积极地破坏保护措施,抵制纠正措施,并操纵其操作。
我认为机器学习系统的长期安全性需要能够排除这种行为,我称之为不可接受(unacceptable),甚至对于在输入分布上极其罕见的输入也应如此。
在这篇文章中,我将通过强调我认为最重要的三个因素:对抗式训练、透明度和松弛来解释为何我认为这个目标很可能是可以实现的。 … More 最坏情况下的保证(重制版)

AN #59 对人工智能风险的争论是如何随着时间而改变的

对于AI风险争论的转移 (Tom Sittler)由早期参数为AI安全焦点上存在风险的原因: 有着在AI能力上的尖锐的不连续跳跃的对齐失败。为了争论一个危险的转折,需要不连续性假设,例如:没有不连续性,我们可能会看到能力较弱的 AI 系统无法隐藏他们的错误对齐目标,或者试图欺骗我们而没有成功。同样,为了使 AI 系统获得决定性的战略优势,它需要比已经存在的所有其他 AI 系统更强大,这需要某种不连续性。 … More AN #59 对人工智能风险的争论是如何随着时间而改变的

用因果影响图建模通用人工智能安全框架

我们写了一篇论文,将用来设计安全通用人工智能(AGI)的各种框架(例如,带有奖励建模的强化学习,合作式逆强化学习 CIRL,辩论 debate 等)表示为因果影响图(CID),以帮助我们比较框架并更好地理解相应的智能体激励机制。 … More 用因果影响图建模通用人工智能安全框架

AN #58 Mesa 优化:这是什么,为什么我们应该关心它

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 高级机器学习系统中学到的优化的风险 (Evan Hubinger等):假设你搜索一个程序空间,寻找能够很好地玩 TicTacToe 的程序。最初,你可能会发现一些很好的启发式方法,例如去中心广场,如果你沿着一行有两个,然后放置第三个,等等。但最终你可能会找到 minimax 算法,通过搜索最好的行动从而最优化自身行为。值得注意的是,你对程序空间的外部优化发现了一个程序 本身就是 一个针对可能行动进行搜索的优化器。用本文语言来说,minimax 算法是一个 mesa 优化器:一个由基本优化器自主发现的优化器,在这种情况下的搜索针对所有程序。 为什么这与人工智能有关?嗯,梯度下降是一种优化算法,它搜索神经网络的参数空间,以找到在某个目标函数上表现良好的参数集合。发生同样的事情似乎也很合理:梯度下降可以找到一个本身正在进行优化的模型。那个模型将成为 mesa 优化器,它优化的目标是 mesa 目标。请注意,虽然 mesa 目标应该导致与训练分布上的基目标类似的行为,但它不需要在偏离分布时这样。这意味着 mesa 目标是 伪对齐的 ; 它如果在偏离分布时也导致类似行为,它是 健壮的(Robust)对齐。 人工智能对齐的一个主要担忧是,如果强大的智能体优化了错误的目标,它可能会导致人类的灾难性后果。由于 mesa 优化器的可能性,这种担心加倍:我们需要确保基目标函数与人类对齐(称为 外部对齐)并且 mesa 目标与基目标对齐(称为 内部对齐)。一个特别令人担忧的方面是 欺骗性对齐:mesa 优化器具有长期的 mesa 目标,但知道它正在针对基目标进行优化。因此,它在训练期间优化了基目标以避免被修改,但在部署时,当被修改的威胁消失时,它就只追求 mesa 目标。 下面我们来举例说明动机,如果有人想要创建最好的生物复制器,他们可以合理地使用自然选择/进化作为这个目标的优化算法。然而,这将导致人类的创造,他们将是优化其他目标的 mesa 优化器,并且不优化复制(例如通过使用节育控制)。 本文有更多的细节和分析,哪些因素使得 mesa 优化更有可能,更危险等等。你必须阅读论文了解所有这些细节。一种通用模式是,当使用机器学习解决某些任务 X 时,有许多属性会影响学习启发式或代理的可能性,而不是实际学习针对 X 的最佳算法。对于任何此类属性,使启发式/代理更多可能会导致 mesa 优化的可能性降低(因为优化器不像启发式/代理),但是在 mesa … More AN #58 Mesa 优化:这是什么,为什么我们应该关心它

PapeRman #8

1906.03708.pdf 1906.03972.pdf 1906.04053.pdf 1906.03506.pdf 1906.03242.pdf 1906.04341.pdf 1906.03352.pdf 1906.03704.pdf 1906.03553.pdf 1906.03499.pdf

ICML 2019 Workshops – #1 ERL

Exploration in RL Homepage: https://sites.google.com/view/erl-2019/ The following YouTube playlist has all the talks from the workshop:https://www.youtube.com/playlist?list=PLbSAfmOMweH3YkhlH0d5KaRvFTyhcr30b Slides for all contributed talks are available here:https://docs.google.com/presentation/d/1zkqtsM-GywKN9kzX4r0j-C1SUF5I0N0mgsxpfvJyl7s Open Problems Below is a list of open questions related to exploration in reinforcement learning. We encourage researchers working on any of these problems to submit to our workshop. Is there … More ICML 2019 Workshops – #1 ERL