新研究工作简介:塑造行为的动机

从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。

无监督学习:好奇的学生

https://deepmind.com/blog/unsupervised-learning/Authors: Alexander Graves, Research Scientist, DeepMind; Kelly ClancyTranslator: Xiaohu Zhu, University AI 在过去十年中,机器学习在图像识别、自动驾驶汽车和围棋等复杂游戏等多个领域中取得了前所未有的进步。这些成功在很大程度上是通过使用两种学习范式 —— 监督学习和强化学习中的一种来训练深度神经网络而实现的。两种范式都要求训练信号由人设计并赋予计算机。在监督学习的情况下,这些是“目标”(例如图像的正确标签); 在强化学习的情况下,它们是成功行为的“奖励”(例如在Atari游戏中获得高分)。因此,学习的限制是由人类训练者定义的。 虽然一些科学家认为,足够包容的训练范围 —— 例如,完成各种各样任务的能力 —— 应该足以产生通用智能,但其他人认为真正的智能需要更多独立的学习策略。例如,考虑一个小孩如何学习。她的祖母可能会和她坐在一起,耐心地指出鸭子的例子(作为监督学习中的指导信号),或者用掌声来奖励她解决木版拼图(如强化学习)。但是,幼儿在绝大多数时间里都是天真地探索世界,通过好奇心,游戏和观察来理解她的周围环境。无监督学习是一种范式,旨在通过奖励智能体创建自主智能(即,计算机程序)用于了解他们在没有特定任务的情况下观察到的数据。换句话说,智能体为了学习而学习。 无监督学习的一个关键动机是,虽然传递给学习算法的数据在内部结构(例如,图像、视频和文本)中非常丰富,但用于训练的目标和奖励通常非常稀疏(例如,标签'狗'指的是特别的变形物种,或者用1或0来表示游戏中的成功或失败)。这表明算法学到的大部分内容必须包括理解数据本身,而不是将这种理解应用于特定任务。 解码视觉元素 2012 年是深度学习的里程碑,当 AlexNet(以其首席架构师 Alex Krizhnevsky 命名)席卷了 ImageNet分类竞赛。AlexNet 识别图像的能力是前所未有的,但更引人注目的是背后发生的事情。当研究人员分析 AlexNet 正在做什么时,他们发现它通过构建其输入的日益复杂的内部表示来解释图像。低层特征(例如纹理和边缘)在底层中表示,然后将它们组合在一起形成高级概念,例如更高层中的轮子和狗。 这与在我们的大脑中处理信息的方式非常相似,其中初级感官处理区域中的简单边缘和纹理被组装成复杂对象,例如更高区域中的面部。因此,复杂场景的表示可以由视觉原语构建,其方式与构成句子的单个词出现的意义大致相同。如果没有明确的指导,AlexNet 的层已经发现了一个基本的“视觉词汇”,以解决其任务。从某种意义上说,它已经学会了扮演维特根斯坦所谓的“语言游戏”,它可以迭代地从像素转换为标签。 卷积神经网络的视觉词汇。对于网络的每一层,生成最大程度地激活特定神经元的图像。然后,这些神经元对其他图像的响应可以被解释为不存在视觉“单词”:纹理,书架,狗鼻子,鸟类。From Feature Visualization, Olah et al. (2017). 迁移学习 从一般情报的角度来看,关于 AlexNet 词汇的最有趣的事情是它可以被重用或转移到除了训练之外的视觉任务,例如识别整个场景而不是单个对象。迁移在不断变化的世界中是必不可少的,人类擅长于此:我们能够迅速调整我们从我们的经验(我们的“世界模式”)中收集的技能和理解,以及任何手头的情况。例如,经过专业训练的钢琴家可以相对轻松地弹起爵士钢琴。理论上,构成世界正确内部表征的人工智能体应该能够做同样的事情。 尽管如此,AlexNet 等分类器所学到的表示具有局限性。特别是,由于网络只用单一类别(猫,狗,汽车,火山)标记图像训练,所以不需要推断标签的任何信息 —— 无论它对其他任务有多大用处 —— 都可能是忽略。例如,如果标签总是指向前景,则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号,例如描述图像的详细标题:不只是“狗”,而是“柯基犬在阳光明媚的公园里捕捉飞盘。”然而,这些目标很难提供,特别是在大规模情况下,并且仍然可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是学习丰富,可广泛迁移的表示的最佳方式是尝试学习可以学习的关于数据的所有内容。 如果通过表示学习迁移的概念看起来过于抽象,那么请考虑一个学会吸引人们作为简笔画的孩子。她发现了人体形态的高度紧凑和快速适应性。通过增加每个棒图的具体细节,她可以为她的所有同学创作肖像:她最好的朋友的眼镜,她最喜欢的红色T恤的同桌。而且她发展这项技能不是为了完成一项特定任务或获得奖励,而是为了回应她反映她周围世界的基本要求。 通过创造学习:生成模型 也许无监督学习的最简单目标是训练算法以生成其自己的数据实例。所谓的生成模型不应该简单地再现他们所训练的数据(一种无趣的记忆行为),而是建立一个从中抽取数据的基础类的模型:不是特定的马或彩虹照片,但是马和彩虹的所有照片集; …

Continue reading 无监督学习:好奇的学生

导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

By Pushmeet Kohli, Krishnamurthy (Dj) Dvijotham, Jonathan Uesato, Sven Gowal, and the Robust & Verified Deep Learning group. This article is cross-posted from DeepMind.com.Translated by Xiaohu Zhu, University AI Bugs 和软件自从计算机程序设计的开始就是形影相随的。经过一段时间后,软件开发者们已经建立了一个最佳的在部署之前测试和调试的实践集,但是这些实践对现代深度学习系统并不太适用。今天,在机器学习领域的广泛实践是在一个训练数据集上训练系统,然后在另一个集合上进行测试。虽然这揭示了模型的平均情况性能,但即使在最坏的情况下,确保健壮性或可接受的高性能也是至关重要的。在本文中,我们描述了三种严格识别和消除学习到的预测模型中错误的方法:对抗性测试,健壮学习和形式验证。 机器学习系统默认不太健壮。即使在特定领域中表现优于人类的系统,如果引入微妙差异,也可能无法解决简单问题。例如,考虑图像扰动的问题:如果在输入图像中添加少量精心计算的噪声,那么比人类更好地对图像进行分类的神经网络会轻易地误以为树懒是赛车。 覆盖在典型图像上的对抗性输入可能导致分类器将树懒错误地分类为赛车。两个图像在每个对应像素中相差至多 0.0078。第一种被归类为三趾树懒,置信度> 99%。第二个被归类为概率> 99%的赛车。 这不是一个全新的问题。计算机程序总是有 bugs。几十年来,软件工程师汇集了令人印象深刻的技术工具包,从单元测试到形式验证。这些方法在传统软件上运行良好,但是由于这些模型的规模和结构的缺乏(可能包含数亿个参数),因此采用这些方法来严格测试神经网络等机器学习模型是非常具有挑战性的。这需要开发用于确保机器学习系统在部署时健壮的新方法。 从程序员的角度来看,错误是与系统的规范(即预期功能)不一致的任何行为。作为我们解决智能问题的使命的一部分,我们对用于评估机器学习系统是否与训练集和测试集一致,以及描述系统的期望属性的规格列表的技术进行研究。这些属性可能包括对输入中足够小的扰动的健壮性,避免灾难性故障的安全约束,或产生符合物理定律的预测。 在本文中,我们将讨论机器学习社区面临的三个重要技术挑战,因为我们共同致力于严格地开发和部署与所需规格可靠一致的机器学习系统: 有效地测试与规范的一致性。我们探索有效的方法来测试机器学习系统是否与设计者和系统用户所期望的属性(例如不变性或健壮性)一致。揭示模型可能与期望行为不一致的情况的一种方法是在评估期间系统地搜索最坏情况的结果。训练机器学习模型是与规格一致的。即使有大量的训练数据,标准的机器学习算法也可以产生预测模型,使预测与健壮性或公平型等理想规格不一致 —— 这要求我们重新考虑训练算法,这些算法不仅能够很好地拟合训练数据,而且能够与规格清单一致。形式证明机器学习模型是规格一致的。需要能够验证模型预测可证明与所有可能输入的感兴趣的规格一致的算法。虽然形式验证领域几十年来一直在研究这种算法,尽管这些方法取得了令人瞩目的进展,但却不能轻易地扩展到现代深度学习系统 与规格的一致性测试 对抗性例子的稳健性是深度学习中相对充分被研究的问题。这项工作的一个主要主题是评估强攻击的重要性,以及设计可以有效分析的透明模型。与社区的其他研究人员一起,我们发现许多模型在与弱对手进行评估时看起来很健壮。然而,当针对更强的对手进行评估时,它们显示出基本上0%的对抗准确率(Athalye等,2018,Uesato等,2018,Carlini和Wagner,2017)。 虽然大多数工作都集中在监督学习(主要是图像分类)的背景下的罕见失败,但是需要将这些想法扩展到其他设置。在最近关于揭示灾难性失败的对抗方法的工作中,我们将这些想法应用于测试旨在用于安全关键环境的强化学习智能体(Ruderman等,2018,Uesato等,2018b)。开发自治系统的一个挑战是,由于单个错误可能会产生很大的后果,因此非常小的失败概率也是不可接受的。 我们的目标是设计一个“对手”,以便我们提前检测这些故障(例如,在受控环境中)。如果攻击者可以有效地识别给定模型的最坏情况输入,则允许我们在部署模型之前捕获罕见的故障情况。与图像分类器一样,针对弱对手进行评估会在部署期间提供错误的安全感。这类似于红队的软件实践,虽然超出了恶意攻击者造成的失败,并且还包括自然出现的失败,例如由于缺乏泛化。 我们为强化学习智能体的对抗性测试开发了两种互补的方法。首先,我们使用无导数优化来直接最小化智能体的期望奖励。在第二部分中,我们学习了一种对抗值函数,该函数根据经验预测哪种情况最有可能导致智能体失败。然后,我们使用此学习函数进行优化,将评估重点放在最有问题的输入上。这些方法只构成了丰富且不断增长的潜在算法空间的一小部分,我们对严格评估智能体的未来发展感到兴奋。 这两种方法已经比随机测试产生了很大的改进。使用我们的方法,可以在几分钟内检测到需要花费数天才能发现甚至完全未被发现的故障(Uesato等,2018b)。我们还发现,对抗性测试可能会发现我们的智能体中的定性不同行为与随机测试集的评估结果不同。特别是,使用对抗性环境构造,我们发现执行 3D 导航任务的智能体平均与人类水平的性能相匹配,但令人诧异的是它仍然无法在简单迷宫上完全找到目标(Ruderman等,2018)。我们的工作还强调,需要设计能够抵御自然故障的系统,而不仅仅是针对对手 使用随机抽样,我们几乎从不观察具有高失败概率的地图,但是对抗性测试表明这样的地图确实存在。即使在移除了许多墙壁之后,这些地图仍然保留了高失败概率,从而产生比原始地图更简单的地图。 训练规格一致的模型 对抗性测试旨在找到违反规格的反例。因此,它往往会导致高估模型与这些规格的一致性。在数学上,规格是必须在神经网络的输入和输出之间保持的某种关系。这可以采用某些关键输入和输出参数的上界和下界的形式。 受此观察的启发,一些研究人员(Raghunathan 等,2018; …

Continue reading 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

设计智能体动机机制来避免副作用

针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。

利用因果影响图来理解智能体动机

影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。