AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。” … More AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没好)。 强调 召唤 Alignment Newsletter 贡献者 (Rohin Shah):我正在寻找内容创作者和本期简报的发行人!请在 9 月 6 日前申请。 对抗性的例子不是错误,它们是特征 (Andrew Ilyas,​​Shibani Santurkar,Dimitris Tsipras,Logan Engstrom等)(由Rohin 和 Cody总结):Distill 发表了对本文的讨论。这个重点部分将涵盖整个讨论; 所有这些摘要和意见都应该一起阅读。 考虑两种可能的对抗性样本的解释。首先,它们可能是因为模型“幻觉”一个对分类无用的信号而引起的,并且它对这个特征变得非常敏感。我们可以将这些“错误”称为“错误”,因为它们并不能很好地概括。第二,他们可以通过该功能引起的  不  推广到测试集,而是  可以  通过对抗扰动进行修改。我们可以将这些称为“非健壮特征”(与“健壮特征”相反,而这些特征不能通过对抗性扰动来改变)。作者认为,基于两个实验,至少有一些对抗性扰动属于第二类,即有信息但敏感的特征。 如果“幻觉”的解释是正确的,那么幻觉可能是由训练过程,架构的选择,数据集的大小引起的,  而不是由数据类型引起的。因此,要做的一件事就是看看我们是否可以构建一个数据集,使得在该数据集上训练的模型在没有对抗训练情况下  已经很  健壮了。作者在第一个实验中这样做。他们采用经过对抗地训练得到的健壮的分类器,并创建其特征(健壮分类器的最终激活层)与某些未修改输入的特征匹配的图像。生成的图像仅具有健壮的特征,因为原始分类器是健壮的,并且实际上在该数据集上训练的模型是自动变得健壮的。 如果“非健壮特征”的解释是正确的,那么模型应该可以在仅包含非健壮特征的数据集上学习(这对于人类来说看起来毫无意义),并且  仍然可以推广到看似正常的测试集。在第二个实验(以下称为 WrongLabels)中,作者构建了这样一个数据集。他们的假设是,对抗性扰动通过引入目标类的非健壮特征而起作用。因此,为了构建他们的数据集,他们采用带有原始标签 y 的图像 x,对某些类 y’ 进行对抗扰动以获得图像x’,然后将(x’,y’)添加到他们的数据集中(即使对于人类而言) x’ 看起来像类 y)。它们有两个版本:在 RandLabels 中,目标类 y’ 是随机选择的,而在 DetLabels 中,y’ 被选择为 y … More AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

具有避免奖励函数篡改动机的智能体设计

从人工智能安全的角度来看,拥有一个清晰的设计原则和一个清晰的表明了它解决了什么问题的特性描述就意味着我们不必去猜测哪些智能体是安全的。在本文和这篇论文中,我们描述了一种称为当下奖励函数优化的设计原理如何避免奖励函数篡改问题。 … More 具有避免奖励函数篡改动机的智能体设计

AN #61 人工智能策略与治理,来自该领域两位专家的分享

人工智能的许多类比都很破碎。人工智能是一套非常广泛的软件技术,不同于非常离散的核武器。使用出口制将“AI”保留在美国境内是不可行的。此外,人工智能将比创造致命的自主武器更加根本地影响战争 – Helen认为最大的军事影响可能是物流。将数据与石油进行比较也很奇怪,因为石油是竞争商品(两个人不能使用相同的油),而数据很容易被复制。此外,一桶油可以替代任何其他桶,但数据非常特定于具体应用。Helen的首选类比是将人工智能视为电力 —— 这是一种非常通用的工具,可以改变社会的许多方面。然而,这样类比也会有问题 —— 例如,人工智能研究社区看起来非常重要,但是对于电力倒不存在这样的情况。 … More AN #61 人工智能策略与治理,来自该领域两位专家的分享

AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

我很高兴看到一个项目非常直接地定位在推断复杂环境中的最终用户意图。这似乎是该领域走向的一个伟大方向。我认为Minecraft也可以作为一个测试平台,研究人员或工程师 (而不是最终用户)试图让智能体做某事:我们可以在这里承担更多的专家经验和知识。理想情况下,这将使我们能够解决比最终用户使用自然语言更复杂的任务。我个人计划沿着这些方向与Minecraft合作。 … More AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

最坏情况下的保证(重制版)

即使我们非常小心地部署机器学习,也可能会达到少数相关性失败(correlated failures)很快就会变成灾难性的地步。强大的模型可能会积极地破坏保护措施,抵制纠正措施,并操纵其操作。
我认为机器学习系统的长期安全性需要能够排除这种行为,我称之为不可接受(unacceptable),甚至对于在输入分布上极其罕见的输入也应如此。
在这篇文章中,我将通过强调我认为最重要的三个因素:对抗式训练、透明度和松弛来解释为何我认为这个目标很可能是可以实现的。 … More 最坏情况下的保证(重制版)

用因果影响图建模通用人工智能安全框架

我们写了一篇论文,将用来设计安全通用人工智能(AGI)的各种框架(例如,带有奖励建模的强化学习,合作式逆强化学习 CIRL,辩论 debate 等)表示为因果影响图(CID),以帮助我们比较框架并更好地理解相应的智能体激励机制。 … More 用因果影响图建模通用人工智能安全框架