AN #59 对人工智能风险的争论是如何随着时间而改变的

对于AI风险争论的转移 (Tom Sittler)由早期参数为AI安全焦点上存在风险的原因: 有着在AI能力上的尖锐的不连续跳跃的对齐失败。为了争论一个危险的转折,需要不连续性假设,例如:没有不连续性,我们可能会看到能力较弱的 AI 系统无法隐藏他们的错误对齐目标,或者试图欺骗我们而没有成功。同样,为了使 AI 系统获得决定性的战略优势,它需要比已经存在的所有其他 AI 系统更强大,这需要某种不连续性。

AN #58 Mesa 优化:这是什么,为什么我们应该关心它

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 高级机器学习系统中学到的优化的风险 (Evan Hubinger等):假设你搜索一个程序空间,寻找能够很好地玩 TicTacToe 的程序。最初,你可能会发现一些很好的启发式方法,例如去中心广场,如果你沿着一行有两个,然后放置第三个,等等。但最终你可能会找到 minimax 算法,通过搜索最好的行动从而最优化自身行为。值得注意的是,你对程序空间的外部优化发现了一个程序 本身就是 一个针对可能行动进行搜索的优化器。用本文语言来说,minimax 算法是一个 mesa 优化器:一个由基本优化器自主发现的优化器,在这种情况下的搜索针对所有程序。 为什么这与人工智能有关?嗯,梯度下降是一种优化算法,它搜索神经网络的参数空间,以找到在某个目标函数上表现良好的参数集合。发生同样的事情似乎也很合理:梯度下降可以找到一个本身正在进行优化的模型。那个模型将成为 mesa 优化器,它优化的目标是 mesa 目标。请注意,虽然 mesa 目标应该导致与训练分布上的基目标类似的行为,但它不需要在偏离分布时这样。这意味着 mesa 目标是 伪对齐的 ; 它如果在偏离分布时也导致类似行为,它是 健壮的(Robust)对齐。 人工智能对齐的一个主要担忧是,如果强大的智能体优化了错误的目标,它可能会导致人类的灾难性后果。由于 mesa 优化器的可能性,这种担心加倍:我们需要确保基目标函数与人类对齐(称为 外部对齐)并且 mesa 目标与基目标对齐(称为 内部对齐)。一个特别令人担忧的方面是 欺骗性对齐:mesa 优化器具有长期的 mesa 目标,但知道它正在针对基目标进行优化。因此,它在训练期间优化了基目标以避免被修改,但在部署时,当被修改的威胁消失时,它就只追求 mesa 目标。 下面我们来举例说明动机,如果有人想要创建最好的生物复制器,他们可以合理地使用自然选择/进化作为这个目标的优化算法。然而,这将导致人类的创造,他们将是优化其他目标的 mesa 优化器,并且不优化复制(例如通过使用节育控制)。 本文有更多的细节和分析,哪些因素使得 mesa 优化更有可能,更危险等等。你必须阅读论文了解所有这些细节。一种通用模式是,当使用机器学习解决某些任务 X 时,有许多属性会影响学习启发式或代理的可能性,而不是实际学习针对 X 的最佳算法。对于任何此类属性,使启发式/代理更多可能会导致 mesa 优化的可能性降低(因为优化器不像启发式/代理),但是在 mesa … Continue reading AN #58 Mesa 优化:这是什么,为什么我们应该关心它

AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 设计健壮及可靠的人工智能系统以及如何在人工智能中取得成功 (Rob Wiblin和Pushmeet Kohli) :(对于大篇幅的内容,我只是总结了突出要点,而忽略掉了播客中不相干的整个部分。) 在这个播客中,Rob 深入研究了 Pushmeet 关于使人工智能系统健壮的工作细节  。Pushmeet 并未特别将人工智能安全和人工智能能力区分 —— 构建良好人工智能系统的一部分是确保系统安全、稳健、可靠并且通用性良好。否则,如果它不会做我们想要的,我们为什么还要纠结使用它。他的目标是通过主动搜索违反规格的行为或通过形式验证神经网络的特定属性来提高健壮性。也就是说,他还认为这里面临的主要挑战之一是首先确定要验证的内容的规格。 他认为人工智能中的问题类似于编程和计算机安全中出现的问题。在编程中,通常情况是一个写下来的程序不能准确地匹配预期的规格,从而导致错误。通常我们只是接受这些错误发生,但对于亟需安全的系统,如交通信号灯,我们可以使用测试、模糊测试、符号执行和形式验证等技术,使我们能够在程序中找到这些错误。我们现在需要为机器学习系统开发这些技术。 这个类比可以更进一步。静态分析涉及与任何输入分开理解程序的属性,而动态分析涉及理解具有特定输入的程序。类似地,我们可以具有“静态”可解释性,它可以将模型理解为整体(如在  特征可视化中),或“动态”可解释性,这解释了模型对特定输入的输出。另一个例子是类似于验证神经网络属性的特定方法的程序抽象解释技术。 这个类比表明我们以前就已经面临人工智能安全问题,并且已经取得了实质性进展; 现在的挑战是应用在机器学习系统上。也就是说,通用人工智能系统存在一些独特的问题; 这不仅仅是规格问题。例如,我们应该如何与这样一个系统进行沟通是非常不清楚的,这个系统可能有自己的概念和模型,这些概念和模型与人类的概念和模型非常不同。我们可以尝试使用自然语言,但是如果我们这样做,就需要以人类的方式对自然语言进行研究,并且我们不知道如何做到这一点,尽管我们可以测试学习概念是否可以推广到新的设置。我们也可以试着研究机器学习模型的权重,分析它们是否有学到概念——但这需要我们已经有关于概念的形式化规格,这部分看起来很难获得。 Rohin的观点:  我非常喜欢编程和人工智能之间的这个类比; 通过自己思考这个比喻,我形成了很多想法。我同意这个类比意味着我们正试图解决之前在不同上下文环中曾解决过的问题,但我认为现在存在重大差异。特别是,针对长期人工智能安全,我们正在考虑在哪些错误可以是非常昂贵的设定, 并且 我们无法提供我们想要的形式化式规格。将此与交通信号灯进行对比,其中错误可能非常昂贵,但我猜我们可以提供需要遵守的安全约束的形式化规格。公平地说,Pushmeet 承认这一点,并强调规格学习是研究的一个关键领域,但对我来说,这感觉就像我们面临的先前问题的质的差异,而我认为 Pushmeet 会不同意(但我不确定为什么)。 阅读更多: 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证  (AN#52) 技术AI对齐 学习人的意图 观察的感知价值 (Ashley D. Edwards等人)  (由 Cody 总结):本文提出了一种技术,通过假设轨迹中的最后一个状态是达到目标的状态来学习原始专家轨迹观察,并且其他状态的价值与它们与示范轨迹中的终止状态的接近程度成正比。他们使用此作为训练模型预测价值和行动价值的基础,然后使用这些估计值来确定行动。 Cody的观点:  这个想法肯定会得到一个明确且易于实现的启发式点子,但我担心它可能会遇到与其目标导向假设不匹配的视频。 代表性强化学习 (Vanessa Kosoy):考虑具有“陷阱”的环境:永久限制智能体实现的长期价值的状态。没有人类的世界可能就是这样一个陷阱。如果新状态不像旧状态那样有效获得高回报,那么陷阱也可能在任何不可逆转的行动之后发生。 在这样的环境中,强化学习算法可以简单地不采取任何动作,在这种情况下,它会引起悔值(regret),即到目前为止的时间步数是线性的。(悔值是最优策略下的期望奖励与实际执行的政策之间的差异,因此如果最优政策的每个时间步的平均奖励为2且无所作为总是奖励 0,那么悔值将是 ~2T,其中 T 是时间步数,所以后悔在时间步数上是线性的。)我们能否找到一种RL算法,它能  保证  在时间步长的数量上保持次线性,无论环境如何? 不出所料,这是不可能的,因为在探索过程中,RL 智能体可能陷入陷阱,导致线性悔值。但是,我们假设我们可以委托一位了解环境的顾问:对于我们做得更好的顾问来说,一定是真的吗?显然,顾问必须能够始终避免陷阱(否则会出现同样的问题)。然而,这还不够:获得次线性悔值也需要我们进行足够的探索以最终找到最优策略。因此,顾问必须至少有一些小的概率成为最优,然后智能体可以从中学习。本文证明,有了这些假设,确实存在一种保证获得次线性悔值的算法。 … Continue reading AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题

无监督学习:好奇的学生

https://deepmind.com/blog/unsupervised-learning/Authors: Alexander Graves, Research Scientist, DeepMind; Kelly ClancyTranslator: Xiaohu Zhu, University AI 在过去十年中,机器学习在图像识别、自动驾驶汽车和围棋等复杂游戏等多个领域中取得了前所未有的进步。这些成功在很大程度上是通过使用两种学习范式 —— 监督学习和强化学习中的一种来训练深度神经网络而实现的。两种范式都要求训练信号由人设计并赋予计算机。在监督学习的情况下,这些是“目标”(例如图像的正确标签); 在强化学习的情况下,它们是成功行为的“奖励”(例如在Atari游戏中获得高分)。因此,学习的限制是由人类训练者定义的。 虽然一些科学家认为,足够包容的训练范围 —— 例如,完成各种各样任务的能力 —— 应该足以产生通用智能,但其他人认为真正的智能需要更多独立的学习策略。例如,考虑一个小孩如何学习。她的祖母可能会和她坐在一起,耐心地指出鸭子的例子(作为监督学习中的指导信号),或者用掌声来奖励她解决木版拼图(如强化学习)。但是,幼儿在绝大多数时间里都是天真地探索世界,通过好奇心,游戏和观察来理解她的周围环境。无监督学习是一种范式,旨在通过奖励智能体创建自主智能(即,计算机程序)用于了解他们在没有特定任务的情况下观察到的数据。换句话说,智能体为了学习而学习。 无监督学习的一个关键动机是,虽然传递给学习算法的数据在内部结构(例如,图像、视频和文本)中非常丰富,但用于训练的目标和奖励通常非常稀疏(例如,标签'狗'指的是特别的变形物种,或者用1或0来表示游戏中的成功或失败)。这表明算法学到的大部分内容必须包括理解数据本身,而不是将这种理解应用于特定任务。 解码视觉元素 2012 年是深度学习的里程碑,当 AlexNet(以其首席架构师 Alex Krizhnevsky 命名)席卷了 ImageNet分类竞赛。AlexNet 识别图像的能力是前所未有的,但更引人注目的是背后发生的事情。当研究人员分析 AlexNet 正在做什么时,他们发现它通过构建其输入的日益复杂的内部表示来解释图像。低层特征(例如纹理和边缘)在底层中表示,然后将它们组合在一起形成高级概念,例如更高层中的轮子和狗。 这与在我们的大脑中处理信息的方式非常相似,其中初级感官处理区域中的简单边缘和纹理被组装成复杂对象,例如更高区域中的面部。因此,复杂场景的表示可以由视觉原语构建,其方式与构成句子的单个词出现的意义大致相同。如果没有明确的指导,AlexNet 的层已经发现了一个基本的“视觉词汇”,以解决其任务。从某种意义上说,它已经学会了扮演维特根斯坦所谓的“语言游戏”,它可以迭代地从像素转换为标签。 卷积神经网络的视觉词汇。对于网络的每一层,生成最大程度地激活特定神经元的图像。然后,这些神经元对其他图像的响应可以被解释为不存在视觉“单词”:纹理,书架,狗鼻子,鸟类。From Feature Visualization, Olah et al. (2017). 迁移学习 从一般情报的角度来看,关于 AlexNet 词汇的最有趣的事情是它可以被重用或转移到除了训练之外的视觉任务,例如识别整个场景而不是单个对象。迁移在不断变化的世界中是必不可少的,人类擅长于此:我们能够迅速调整我们从我们的经验(我们的“世界模式”)中收集的技能和理解,以及任何手头的情况。例如,经过专业训练的钢琴家可以相对轻松地弹起爵士钢琴。理论上,构成世界正确内部表征的人工智能体应该能够做同样的事情。 尽管如此,AlexNet 等分类器所学到的表示具有局限性。特别是,由于网络只用单一类别(猫,狗,汽车,火山)标记图像训练,所以不需要推断标签的任何信息 —— 无论它对其他任务有多大用处 —— 都可能是忽略。例如,如果标签总是指向前景,则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号,例如描述图像的详细标题:不只是“狗”,而是“柯基犬在阳光明媚的公园里捕捉飞盘。”然而,这些目标很难提供,特别是在大规模情况下,并且仍然可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是学习丰富,可广泛迁移的表示的最佳方式是尝试学习可以学习的关于数据的所有内容。 如果通过表示学习迁移的概念看起来过于抽象,那么请考虑一个学会吸引人们作为简笔画的孩子。她发现了人体形态的高度紧凑和快速适应性。通过增加每个棒图的具体细节,她可以为她的所有同学创作肖像:她最好的朋友的眼镜,她最喜欢的红色T恤的同桌。而且她发展这项技能不是为了完成一项特定任务或获得奖励,而是为了回应她反映她周围世界的基本要求。 通过创造学习:生成模型 也许无监督学习的最简单目标是训练算法以生成其自己的数据实例。所谓的生成模型不应该简单地再现他们所训练的数据(一种无趣的记忆行为),而是建立一个从中抽取数据的基础类的模型:不是特定的马或彩虹照片,但是马和彩虹的所有照片集; … Continue reading 无监督学习:好奇的学生

导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

By Pushmeet Kohli, Krishnamurthy (Dj) Dvijotham, Jonathan Uesato, Sven Gowal, and the Robust & Verified Deep Learning group. This article is cross-posted from DeepMind.com.Translated by Xiaohu Zhu, University AI Bugs 和软件自从计算机程序设计的开始就是形影相随的。经过一段时间后,软件开发者们已经建立了一个最佳的在部署之前测试和调试的实践集,但是这些实践对现代深度学习系统并不太适用。今天,在机器学习领域的广泛实践是在一个训练数据集上训练系统,然后在另一个集合上进行测试。虽然这揭示了模型的平均情况性能,但即使在最坏的情况下,确保健壮性或可接受的高性能也是至关重要的。在本文中,我们描述了三种严格识别和消除学习到的预测模型中错误的方法:对抗性测试,健壮学习和形式验证。 机器学习系统默认不太健壮。即使在特定领域中表现优于人类的系统,如果引入微妙差异,也可能无法解决简单问题。例如,考虑图像扰动的问题:如果在输入图像中添加少量精心计算的噪声,那么比人类更好地对图像进行分类的神经网络会轻易地误以为树懒是赛车。 覆盖在典型图像上的对抗性输入可能导致分类器将树懒错误地分类为赛车。两个图像在每个对应像素中相差至多 0.0078。第一种被归类为三趾树懒,置信度> 99%。第二个被归类为概率> 99%的赛车。 这不是一个全新的问题。计算机程序总是有 bugs。几十年来,软件工程师汇集了令人印象深刻的技术工具包,从单元测试到形式验证。这些方法在传统软件上运行良好,但是由于这些模型的规模和结构的缺乏(可能包含数亿个参数),因此采用这些方法来严格测试神经网络等机器学习模型是非常具有挑战性的。这需要开发用于确保机器学习系统在部署时健壮的新方法。 从程序员的角度来看,错误是与系统的规范(即预期功能)不一致的任何行为。作为我们解决智能问题的使命的一部分,我们对用于评估机器学习系统是否与训练集和测试集一致,以及描述系统的期望属性的规格列表的技术进行研究。这些属性可能包括对输入中足够小的扰动的健壮性,避免灾难性故障的安全约束,或产生符合物理定律的预测。 在本文中,我们将讨论机器学习社区面临的三个重要技术挑战,因为我们共同致力于严格地开发和部署与所需规格可靠一致的机器学习系统: 有效地测试与规范的一致性。我们探索有效的方法来测试机器学习系统是否与设计者和系统用户所期望的属性(例如不变性或健壮性)一致。揭示模型可能与期望行为不一致的情况的一种方法是在评估期间系统地搜索最坏情况的结果。训练机器学习模型是与规格一致的。即使有大量的训练数据,标准的机器学习算法也可以产生预测模型,使预测与健壮性或公平型等理想规格不一致 —— 这要求我们重新考虑训练算法,这些算法不仅能够很好地拟合训练数据,而且能够与规格清单一致。形式证明机器学习模型是规格一致的。需要能够验证模型预测可证明与所有可能输入的感兴趣的规格一致的算法。虽然形式验证领域几十年来一直在研究这种算法,尽管这些方法取得了令人瞩目的进展,但却不能轻易地扩展到现代深度学习系统 与规格的一致性测试 对抗性例子的稳健性是深度学习中相对充分被研究的问题。这项工作的一个主要主题是评估强攻击的重要性,以及设计可以有效分析的透明模型。与社区的其他研究人员一起,我们发现许多模型在与弱对手进行评估时看起来很健壮。然而,当针对更强的对手进行评估时,它们显示出基本上0%的对抗准确率(Athalye等,2018,Uesato等,2018,Carlini和Wagner,2017)。 虽然大多数工作都集中在监督学习(主要是图像分类)的背景下的罕见失败,但是需要将这些想法扩展到其他设置。在最近关于揭示灾难性失败的对抗方法的工作中,我们将这些想法应用于测试旨在用于安全关键环境的强化学习智能体(Ruderman等,2018,Uesato等,2018b)。开发自治系统的一个挑战是,由于单个错误可能会产生很大的后果,因此非常小的失败概率也是不可接受的。 我们的目标是设计一个“对手”,以便我们提前检测这些故障(例如,在受控环境中)。如果攻击者可以有效地识别给定模型的最坏情况输入,则允许我们在部署模型之前捕获罕见的故障情况。与图像分类器一样,针对弱对手进行评估会在部署期间提供错误的安全感。这类似于红队的软件实践,虽然超出了恶意攻击者造成的失败,并且还包括自然出现的失败,例如由于缺乏泛化。 我们为强化学习智能体的对抗性测试开发了两种互补的方法。首先,我们使用无导数优化来直接最小化智能体的期望奖励。在第二部分中,我们学习了一种对抗值函数,该函数根据经验预测哪种情况最有可能导致智能体失败。然后,我们使用此学习函数进行优化,将评估重点放在最有问题的输入上。这些方法只构成了丰富且不断增长的潜在算法空间的一小部分,我们对严格评估智能体的未来发展感到兴奋。 这两种方法已经比随机测试产生了很大的改进。使用我们的方法,可以在几分钟内检测到需要花费数天才能发现甚至完全未被发现的故障(Uesato等,2018b)。我们还发现,对抗性测试可能会发现我们的智能体中的定性不同行为与随机测试集的评估结果不同。特别是,使用对抗性环境构造,我们发现执行 3D 导航任务的智能体平均与人类水平的性能相匹配,但令人诧异的是它仍然无法在简单迷宫上完全找到目标(Ruderman等,2018)。我们的工作还强调,需要设计能够抵御自然故障的系统,而不仅仅是针对对手 使用随机抽样,我们几乎从不观察具有高失败概率的地图,但是对抗性测试表明这样的地图确实存在。即使在移除了许多墙壁之后,这些地图仍然保留了高失败概率,从而产生比原始地图更简单的地图。 训练规格一致的模型 对抗性测试旨在找到违反规格的反例。因此,它往往会导致高估模型与这些规格的一致性。在数学上,规格是必须在神经网络的输入和输出之间保持的某种关系。这可以采用某些关键输入和输出参数的上界和下界的形式。 受此观察的启发,一些研究人员(Raghunathan 等,2018; … Continue reading 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

设计智能体动机机制来避免副作用

针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。

利用因果影响图来理解智能体动机

影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。