具有避免奖励函数篡改动机的智能体设计

从人工智能安全的角度来看,拥有一个清晰的设计原则和一个清晰的表明了它解决了什么问题的特性描述就意味着我们不必去猜测哪些智能体是安全的。在本文和这篇论文中,我们描述了一种称为当下奖励函数优化的设计原理如何避免奖励函数篡改问题。 … More 具有避免奖励函数篡改动机的智能体设计

用因果影响图建模通用人工智能安全框架

我们写了一篇论文,将用来设计安全通用人工智能(AGI)的各种框架(例如,带有奖励建模的强化学习,合作式逆强化学习 CIRL,辩论 debate 等)表示为因果影响图(CID),以帮助我们比较框架并更好地理解相应的智能体激励机制。 … More 用因果影响图建模通用人工智能安全框架

无监督学习:好奇的学生

https://deepmind.com/blog/unsupervised-learning/Authors: Alexander Graves, Research Scientist, DeepMind; Kelly ClancyTranslator: Xiaohu Zhu, University AI 在过去十年中,机器学习在图像识别、自动驾驶汽车和围棋等复杂游戏等多个领域中取得了前所未有的进步。这些成功在很大程度上是通过使用两种学习范式 —— 监督学习和强化学习中的一种来训练深度神经网络而实现的。两种范式都要求训练信号由人设计并赋予计算机。在监督学习的情况下,这些是“目标”(例如图像的正确标签); 在强化学习的情况下,它们是成功行为的“奖励”(例如在Atari游戏中获得高分)。因此,学习的限制是由人类训练者定义的。 虽然一些科学家认为,足够包容的训练范围 —— 例如,完成各种各样任务的能力 —— 应该足以产生通用智能,但其他人认为真正的智能需要更多独立的学习策略。例如,考虑一个小孩如何学习。她的祖母可能会和她坐在一起,耐心地指出鸭子的例子(作为监督学习中的指导信号),或者用掌声来奖励她解决木版拼图(如强化学习)。但是,幼儿在绝大多数时间里都是天真地探索世界,通过好奇心,游戏和观察来理解她的周围环境。无监督学习是一种范式,旨在通过奖励智能体创建自主智能(即,计算机程序)用于了解他们在没有特定任务的情况下观察到的数据。换句话说,智能体为了学习而学习。 无监督学习的一个关键动机是,虽然传递给学习算法的数据在内部结构(例如,图像、视频和文本)中非常丰富,但用于训练的目标和奖励通常非常稀疏(例如,标签’狗’指的是特别的变形物种,或者用1或0来表示游戏中的成功或失败)。这表明算法学到的大部分内容必须包括理解数据本身,而不是将这种理解应用于特定任务。 解码视觉元素 2012 年是深度学习的里程碑,当 AlexNet(以其首席架构师 Alex Krizhnevsky 命名)席卷了 ImageNet分类竞赛。AlexNet 识别图像的能力是前所未有的,但更引人注目的是背后发生的事情。当研究人员分析 AlexNet 正在做什么时,他们发现它通过构建其输入的日益复杂的内部表示来解释图像。低层特征(例如纹理和边缘)在底层中表示,然后将它们组合在一起形成高级概念,例如更高层中的轮子和狗。 这与在我们的大脑中处理信息的方式非常相似,其中初级感官处理区域中的简单边缘和纹理被组装成复杂对象,例如更高区域中的面部。因此,复杂场景的表示可以由视觉原语构建,其方式与构成句子的单个词出现的意义大致相同。如果没有明确的指导,AlexNet 的层已经发现了一个基本的“视觉词汇”,以解决其任务。从某种意义上说,它已经学会了扮演维特根斯坦所谓的“语言游戏”,它可以迭代地从像素转换为标签。 迁移学习 从一般情报的角度来看,关于 AlexNet 词汇的最有趣的事情是它可以被重用或转移到除了训练之外的视觉任务,例如识别整个场景而不是单个对象。迁移在不断变化的世界中是必不可少的,人类擅长于此:我们能够迅速调整我们从我们的经验(我们的“世界模式”)中收集的技能和理解,以及任何手头的情况。例如,经过专业训练的钢琴家可以相对轻松地弹起爵士钢琴。理论上,构成世界正确内部表征的人工智能体应该能够做同样的事情。 尽管如此,AlexNet 等分类器所学到的表示具有局限性。特别是,由于网络只用单一类别(猫,狗,汽车,火山)标记图像训练,所以不需要推断标签的任何信息 —— 无论它对其他任务有多大用处 —— 都可能是忽略。例如,如果标签总是指向前景,则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号,例如描述图像的详细标题:不只是“狗”,而是“柯基犬在阳光明媚的公园里捕捉飞盘。”然而,这些目标很难提供,特别是在大规模情况下,并且仍然可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是学习丰富,可广泛迁移的表示的最佳方式是尝试学习可以学习的关于数据的所有内容。 如果通过表示学习迁移的概念看起来过于抽象,那么请考虑一个学会吸引人们作为简笔画的孩子。她发现了人体形态的高度紧凑和快速适应性。通过增加每个棒图的具体细节,她可以为她的所有同学创作肖像:她最好的朋友的眼镜,她最喜欢的红色T恤的同桌。而且她发展这项技能不是为了完成一项特定任务或获得奖励,而是为了回应她反映她周围世界的基本要求。 通过创造学习:生成模型 也许无监督学习的最简单目标是训练算法以生成其自己的数据实例。所谓的生成模型不应该简单地再现他们所训练的数据(一种无趣的记忆行为),而是建立一个从中抽取数据的基础类的模型:不是特定的马或彩虹照片,但是马和彩虹的所有照片集; 不是来自特定发言者的特定话语,而是说出话语的一般分布。生成模型的指导原则是,能够构建一个令人信服的数据示例是理解它的最有力证据:正如 Richard Feynman所说,“若是我不能创造出来,那么我并不明白。” 对于图像,迄今为止最成功的生成模型是生成对抗网络(简称GAN),其中两个网络 —— 一个生成器和一个判别器 —— … More 无监督学习:好奇的学生

导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

By Pushmeet Kohli, Krishnamurthy (Dj) Dvijotham, Jonathan Uesato, Sven Gowal, and the Robust & Verified Deep Learning group. This article is cross-posted from DeepMind.com.Translated by Xiaohu Zhu, University AI Bugs 和软件自从计算机程序设计的开始就是形影相随的。经过一段时间后,软件开发者们已经建立了一个最佳的在部署之前测试和调试的实践集,但是这些实践对现代深度学习系统并不太适用。今天,在机器学习领域的广泛实践是在一个训练数据集上训练系统,然后在另一个集合上进行测试。虽然这揭示了模型的平均情况性能,但即使在最坏的情况下,确保健壮性或可接受的高性能也是至关重要的。在本文中,我们描述了三种严格识别和消除学习到的预测模型中错误的方法:对抗性测试,健壮学习和形式验证。 机器学习系统默认不太健壮。即使在特定领域中表现优于人类的系统,如果引入微妙差异,也可能无法解决简单问题。例如,考虑图像扰动的问题:如果在输入图像中添加少量精心计算的噪声,那么比人类更好地对图像进行分类的神经网络会轻易地误以为树懒是赛车。 这不是一个全新的问题。计算机程序总是有 bugs。几十年来,软件工程师汇集了令人印象深刻的技术工具包,从单元测试到形式验证。这些方法在传统软件上运行良好,但是由于这些模型的规模和结构的缺乏(可能包含数亿个参数),因此采用这些方法来严格测试神经网络等机器学习模型是非常具有挑战性的。这需要开发用于确保机器学习系统在部署时健壮的新方法。 从程序员的角度来看,错误是与系统的规范(即预期功能)不一致的任何行为。作为我们解决智能问题的使命的一部分,我们对用于评估机器学习系统是否与训练集和测试集一致,以及描述系统的期望属性的规格列表的技术进行研究。这些属性可能包括对输入中足够小的扰动的健壮性,避免灾难性故障的安全约束,或产生符合物理定律的预测。 在本文中,我们将讨论机器学习社区面临的三个重要技术挑战,因为我们共同致力于严格地开发和部署与所需规格可靠一致的机器学习系统: 有效地测试与规范的一致性。我们探索有效的方法来测试机器学习系统是否与设计者和系统用户所期望的属性(例如不变性或健壮性)一致。揭示模型可能与期望行为不一致的情况的一种方法是在评估期间系统地搜索最坏情况的结果。 训练机器学习模型是与规格一致的。即使有大量的训练数据,标准的机器学习算法也可以产生预测模型,使预测与健壮性或公平型等理想规格不一致 —— 这要求我们重新考虑训练算法,这些算法不仅能够很好地拟合训练数据,而且能够与规格清单一致。 形式证明机器学习模型是规格一致的。需要能够验证模型预测可证明与所有可能输入的感兴趣的规格一致的算法。虽然形式验证领域几十年来一直在研究这种算法,尽管这些方法取得了令人瞩目的进展,但却不能轻易地扩展到现代深度学习系统 与规格的一致性测试 对抗性例子的稳健性是深度学习中相对充分被研究的问题。这项工作的一个主要主题是评估强攻击的重要性,以及设计可以有效分析的透明模型。与社区的其他研究人员一起,我们发现许多模型在与弱对手进行评估时看起来很健壮。然而,当针对更强的对手进行评估时,它们显示出基本上0%的对抗准确率(Athalye等,2018,Uesato等,2018,Carlini和Wagner,2017)。 虽然大多数工作都集中在监督学习(主要是图像分类)的背景下的罕见失败,但是需要将这些想法扩展到其他设置。在最近关于揭示灾难性失败的对抗方法的工作中,我们将这些想法应用于测试旨在用于安全关键环境的强化学习智能体(Ruderman等,2018,Uesato等,2018b)。开发自治系统的一个挑战是,由于单个错误可能会产生很大的后果,因此非常小的失败概率也是不可接受的。 我们的目标是设计一个“对手”,以便我们提前检测这些故障(例如,在受控环境中)。如果攻击者可以有效地识别给定模型的最坏情况输入,则允许我们在部署模型之前捕获罕见的故障情况。与图像分类器一样,针对弱对手进行评估会在部署期间提供错误的安全感。这类似于红队的软件实践,虽然超出了恶意攻击者造成的失败,并且还包括自然出现的失败,例如由于缺乏泛化。 我们为强化学习智能体的对抗性测试开发了两种互补的方法。首先,我们使用无导数优化来直接最小化智能体的期望奖励。在第二部分中,我们学习了一种对抗值函数,该函数根据经验预测哪种情况最有可能导致智能体失败。然后,我们使用此学习函数进行优化,将评估重点放在最有问题的输入上。这些方法只构成了丰富且不断增长的潜在算法空间的一小部分,我们对严格评估智能体的未来发展感到兴奋。 这两种方法已经比随机测试产生了很大的改进。使用我们的方法,可以在几分钟内检测到需要花费数天才能发现甚至完全未被发现的故障(Uesato等,2018b)。我们还发现,对抗性测试可能会发现我们的智能体中的定性不同行为与随机测试集的评估结果不同。特别是,使用对抗性环境构造,我们发现执行 3D 导航任务的智能体平均与人类水平的性能相匹配,但令人诧异的是它仍然无法在简单迷宫上完全找到目标(Ruderman等,2018)。我们的工作还强调,需要设计能够抵御自然故障的系统,而不仅仅是针对对手 训练规格一致的模型 对抗性测试旨在找到违反规格的反例。因此,它往往会导致高估模型与这些规格的一致性。在数学上,规格是必须在神经网络的输入和输出之间保持的某种关系。这可以采用某些关键输入和输出参数的上界和下界的形式。 受此观察的启发,一些研究人员(Raghunathan 等,2018; Wong 等,2018; Mirman … More 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

设计智能体动机机制来避免副作用

针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。 … More 设计智能体动机机制来避免副作用

利用因果影响图来理解智能体动机

影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。 … More 利用因果影响图来理解智能体动机

An investigation of `an investigation of model-free planning`

借助在函数近似器(如树结构的神经网络) 的归纳偏差通过提供结构给规划,使用免模型的强化学习算法进行训练 本文的工作走得更远些, 实验展示了一个完全免模型的方法,没有用到超过标准神经网络组成单元如卷积网络和LSTM等特定结构之外的结构,就可以学到呈现很多典型的基于模型的规划器的特征。 衡量有效性通过下面几种方式: 在组合和不可逆的状态空间中的泛化能力 数据效率 借助额外思考时间的能力 发现智能体有很多期望在一个规划算法中出现的特点。另外,超过当前最优的在极具挑战性的组合领域(如Sokoban)的方法,并比其他的使用强归纳偏差进行规划的免模型方法更好 引言 人工智能的野心是发明出一个牛逼的智能体可以动态适应地产生计划来达成目标。以前这样的角色被基于模型的RL方法统治,首先会学到环境动态或者规则的一个显式模型,然后作用规划算法(比如树搜索)到学到的模型上。基于模型的方法通常更加强大但是学到的模型的规模化受到复杂和高维度环境的影响,尽管已有这个方向上的研究进展。 近期学者提出不同的方法来隐式地学习规划,仅仅通过免模型训练。这些吗免模型规划智能体使用了一个特定的神经网络架构来镜像特定规划算法的结构。例如,神经网络可能会被设计为表示搜索树,前向模拟或者动态规划。其主要思想是,给定合适的对规划的归纳偏差,函数近似器可能学会利用这些结构来学习自身的规划算法。这样的算法函数近似看可能会比显式的基于模型的方法更加灵活,让智能体为特定的环境定制化规划的本质。 本文,我们探索了规划可能会隐式地出现的假设,即使当函数近似器没有针对规划的特定归纳偏差。前人工作已经支持了这个想法,基于模型的行为可以借助规划计算在多个离散步骤上进行均摊使用一般的递归架构学习得到,但是其有效性的深入的展示仍然欠缺。由深度学习成功和神经表示的通用性的启发,我们主要想法是简单地构造一个神经网络有高容量和灵活表示,而不是镜像任何特定的规划结构。给定这样的灵活性,神经网络可能在理论上学习其自身算法来近似规划。特别地,我们使用了一个神经网络的簇基于广泛使用的函数近似架构:堆叠卷积LSTM(ConLSTM)。 纯免模型的强化学习方法能够在看起来需要显式规划的场景中取得成功,我们非常吃惊。这就导出了一个自然的问题:什么是规划?免模型智能体真的可以被看作是在进行规划,而不需要任何显式的环境模型,也不需要任何显式的模型模拟? 实际上,在很多定义中,规划需要一些显式的使用模型考虑,一般是通过考虑可能的使用一个前驱模型来选择一个合适的行动序列未来模拟。这些定义强调了显式向前看的机制的本质,而不是其产生的效果(先见之明 foresight)。然而,什么叫做一个神经网络以一个接近完美的程度模拟了这样的一个规划过程呢?是否规划的一个定义排除了得到的智能体是有效地规划的? 与其将我们的定义被束缚于智能体的内在工作机制,本文我们采取了一个行为主义观点来度量规划为智能体交互的一个性质。特别地,我们考虑了拥有规划能力的智能体的三个关键属性。 第一,一个有效的规划算法应该能够相对简单地泛化到不同的场景下。这里的直觉是,简单的函数近似器将会很难对组合可能性的指数空间预测准确(例如,所有国际象棋位置的值),但是一个规划算法能够执行一个局部搜索来动态计算预测(例如,使用树搜索)。我们使用这个属性来度量过程环境(比如随机网格世界) 有可能 layout 海量组合空间。我们发现免模型的规划智能体达到了当前最优效果,显著地超过了更加专业化免模型规划架构。我们同样调查了超过训练集合中那些问题的更难的问题集合,同样发现我们的架构有效工作——尤其是使用了更大的网络。 第二,一个规划智能体应当能够有效率地从相对少量的数据中学习。基于模型 强化学习方法其实受到了直觉影响,模型(国际象棋的规则)相比直接预测(例如所有棋的位置的值)可以更加有效地学到。我们度量这个属性通过训练免模型规划器在小数据及上,并发现我们的智能体仍然执行得很好,并能够有效地泛化到一个取出的测试集上。 第三,一个有效的规划算法应当能够利用额外的思考时间。简单地说, 算法思考得越多,其性能应该更加好。这个属性可能会在那些不可逆后果到错误决策下尤其重要。我们使用添加额外思考时间在一个片段开头来进行度量,在智能体遵循一个策略采取行动前,并找到我们的免模型规划智能体解决了相对多的问题。 综上,我们的结果表明免模型智能体,没有特定的规划启发的网络架构,可以学会展示很多规划的行为特征。本文给出的这个架构就是为了解释这点,并展示一个简单的方法令人吃惊的力量。我们希望这个发现可以拓宽对更加一般的可以解决更加宽广的规划领域架构的搜索。 2 方法 动机和主要架构介绍。训练设计步骤。 2.1 模型架构 我们希望模型可以表示和学习强大但是未指定的规划过程。不去编码强归纳偏差给特定的规划算法,我们选择了一个高容量的神经网络架构可以表示非常丰富的函数类。如在很多RL工作一样,我们使用了卷积神经网络(能够利用视觉领域的内置空间结构)和LSTMs(有效处理序列问题)。除了这些弱但是常规归纳偏差,我们保持自己架构尽可能的一般和灵活,并给予标准免模型强化学习足够信任来发现规划的功能。 2.1.1 基本架构 本架构的基本单元是一个 ConvLSTM —— 一个类似于 LSTM 的神经网络但是有一个 3D 隐含状态和卷积操作。循环网络 堆叠 ConvLSTM 模块。 对一个栈深度 ,状态 包含所有细胞状态 并输出 。模块权重 不再对栈共享。个定前一个状态和一个输入张量 ,下一个状态通过 计算得到。