REALab:概念化篡改问题

智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。我们将此称为篡改问题:当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?

Shakir Mohamed 对“好”的想象,改变的使命

2020年10月29日| 以人为本的AI ·讲座和教程·转型 非常感谢有机会支持2020 TechAide AI4Good会议。这是谈话的内容。您可以在此处找到视频。 问候!今天能与您一起参加2020 TechAide AI4GOOD大会真是太好了。我叫Shakir Mohamed,我的代名词是他/他们。我将本次演讲的标题命名为“美好的想象-改变的使命”,它既是对话,又是挑战:与您互动,考虑如何构建一种新型的AI for Good的关键技术实践实践,当然是今年会议的主题。大会的使命很充实,我感谢组织者给我这样以这种方式支持其慈善宗旨的机会,并希望您能够以任何方式支持这一事业。 在开始时,有一些关于我的事。我是伦敦DeepMind的研究员,也是Deep Learning Indaba的创始人和受托人。您会发现我支持转型和多元化的努力。我会写一些关于统计推断方法的文章,还会写一些关于AI中社会技术因素的文章。能够做到这一点我感到很幸运,特别是因为我发现能够跨学科领域工作并拥有许多不同的研究方法而感到非常高兴。我对这种跨学科的研究方法引起的混杂和混乱的问题和对话的类型感兴趣,因为我相信这是一种我们可以有目的地明确了解我们想在世界上看到的善的方法,特别是在与AI和数字技术的关系。与其探索我的一些技术工作和应用,相反,我将依靠我的工作和经验来回答AI4Good的问题。非常感谢您的宝贵时间,并感谢您与我一起进行接下来的25分钟行程。 “当大规模组织的信息概念悄然出现并成为一种社会控制手段时,人类几乎没有注意到”。我想让你猜猜这是什么时候写的。鉴于新闻越来越引起人们的关注,而且最近的奖学金令人难以置信,您可能会猜到这是最近二十年来对算法危害的最新描述。你会错的。这是埃德温·布莱克(Edwin Black)对1900年世界的描述,是打孔卡的发明以及自动化和数据收集的新潮流。  在此期间,鲜为人知的计算和统计领域(今天的AI领域的支柱)变得具有强大的能力,可以对大量数据进行分类。借助增强的统计能力,我们现在能够在国家和大洲的范围内准确,准确地识别出感兴趣的对象,评估相互竞争的选择之间的权衡,组织最佳行动顺序,并最终审核任何选定行动方式的效率。  这几乎对每个部门都是一个福音。美好的可能性以及对现在可能出现的新型期货的想象一定令人振奋。与今天的AI技术专家和科学家一样。但是,如果这种增强的统计能力以及新的行动和效率被用于谋杀犹太人民,该怎么办? 统计数据和那个时代的技术产业就是这样进入黑暗阶段,走向邪恶目的和种族灭绝的。正如爱德温·布莱克(Edwin Black)的法医证据所示,对于纳粹官员和整个第二次世界大战,统计数据变得“对帝国至关重要”,帝国政府希望“为和平与战争中的新任务提供统计数据”。通过从工作环境中抽象出来,计算科学不加批判地改进了其方法,以提高准确性,效率和财务利润,并导致数以百万计的人死亡。历史提醒我们,技术发展趋向于寄予厚望,并伴随着残酷的能力。我们还记得我们人工智能领域的基础吗? 我在讲这个故事是为了就近年来围绕AI4Good项目引发的许多担忧展开讨论。关于AI4Good的关注和反对很多。这些包括: 宠物项目评论。AI4Good的标志下的项目不过是研究人员在应用领域的宠物项目,没有任何实际影响的意图。 炒作批评。AI4Good提出了对世界充满希望的社会的技术乐观主义和技术解决主义观点,但是很少有证据表明情况确实如此。 剥削批评。AI永久项目是单板,我们将技术产品作为其营销策略的一部分。在这里,永久性AI项目的目的并不是要有意义地学习和与其服务的社区互动,而是掩盖了数据收集和利润的真正目的。 模糊的批评。我们针对AI4Good的方法是没有特定性地制定的,并且在政治或社会变革方面缺乏严格的基础,因此,这种方法始终无法贯彻“善”的含义。 所有这些批评都为我们认真对待提供了强有力的证据。就像统计数字和德国帝国的故事一样,这些批评动摇并破坏了我们作为技术设计师的信心-使我们有可能将我们的工作转而牵涉到伤害。对我来说,这破坏了我们作为科学家和技术专家的信心,这必须成为我们创建负责任的AI4Good堂兄的方法的一部分。当我们使用“好”这个词时,责任必须是我们所有人都想并希望表达的意思。  如果对AI4Good的项目一无所知,那将是错误的。我们确实找到了许多伟大作品的例子,这些例子深深地激发了我们探索当代AI的可能性。当我们找到这些实例时,它们便指出了已经可能发生的变化之路。我想举三个例子,对您的好问题进行更深入的探讨。 第一个挑战是记录和提供与侵犯人权有关的证据基础。国际特赦组织表明,将遥感数据与人工智能相结合可以成为扩大人权研究范围的有力方法。在他们的工作中,他们能够发现被忽视的虐待行为,并且通过对大量图像进行分类和分类,可以记录例如村庄毁坏和虐待的速度和程度。通过这种方式,我们看到了以我们希望的所有方式开发的技术工具,可以支持特定的需求领域。 在全世界,十分之九的人呼吸不干净的空气。不幸的是,这主要发生在低收入国家。这是AirQo出色的工作之所在,它使用定制的低成本传感器网络来提供准确的空气质量预测,该网络收集了乌干达65个地点的数据。在COVID大流行中,非药物干预是我们都已敏锐意识到的概念,空气质量预测为此类干预提供了另一条途径。这项令人难以置信的工作的力量在于它有潜力帮助公民和政府更好地计划和减轻不断变化的环境状况,而这些正是我们将继续需要越来越多的政策支持的类型。 塞伦盖蒂-马赛马拉生态系统是世界上最后的原始生态系统之一,也是世界上最大的动物迁徙之一。Snapshot Serengeti的这个项目使用相机陷阱中的图像来帮助保护主义者了解哪种管理策略最有效地保护了将该地区称为家园的物种。机器学习有助于加速对收集的图像的研究和分析,有助于发展新的生态功能理论,并更好地理解塞伦盖蒂动物的秘密生活。我很幸运在2019年访问了该地区,我想我应该分享这段关于我对自然奇观的体验的视频。 在讨论过程中,请分享您自己的项目示例,这些示例阐明了什么是可能的和好的。我在这里选择的三个示例的一个共同特征是,它们以明确的变革使命为中心。加强人权证据的特派团,以更好的环境理解支持公共卫生的特派团,维护世界原始生态系统的特派团。这些示例与寻求实现AI4Good的项目无关。对他们而言,AI4Good是努力实现明确的变革使命的结果。这是我要与您进行的第一点对话:我们可以通过首先并且始终将我们支持的变革使命作为中心,制定可能破坏我们作为技术设计师的信心的策略,从而解决AI4Good的批评。 对于在慈善和非政府部门工作的任何人来说,这都是众所周知的,从他们的经验和方法论中我们可以学到很多东西。我很幸运能成为一个集体的一员,以探索和发展我们在短文中写到的这些思维方式。在这些领域中使用的关键工具是发展和传播变革理论。变革理论通常以图表的形式传达,将我们正在研究的部门的当前状态映射到我们希望在世界上看到的期望的变革。尽管变革理论是慈善领域的要求,但我认为它可以作为塑造研究和AI4Good的工具发挥强大作用。  通过使用变革理论,我们可以直接解决我之前回顾的批评。通过明确规定变革的使命,我们确保在工作开始时,然后在任何项目的整个生命周期中,就构成工作中良好定义的政治和社会基础进行讨论。善的定义便与变革使命联系在一起。众所周知,对于任何一项工作,还存在相互竞争的因素和方法,并且通过绘制从当前状态到期望的愿景的路径,这些替代方案也得到了讨论和讨论。同样重要的是,变革理论要认识到我们并不是一个人工作,而且我们不是我们工作的任何领域的唯一参与者。因此,谦虚的态度很重要, 最后一点尤为重要,因为它强调了衡量在评估是否达到良好结果方面的作用,并且明确了受益人和谁被忽略:评估对谁有益的结果。变革理论旨在成为从计划,干预措施到措施和结果的因果图。在绘制此变化过程的图表时,可以考虑因果链中每个位置的度量。虽然,测量很困难。 今天,可持续发展目标对我们来说是为人工智能造福社会的重要指南来源之一。可持续发展目标的优点之一是,它们在17个目标中配备了210项措施。同时,这是对可持续发展目标的批评之一,质疑这些措施的有效性,可靠性和频率,以支持报告和变更。在这一一般领域,我们很幸运能够利用慈善部门开发的有关监测和评估的知识和专长。顺便说一句,我认为变革理论通常是研究计划的有力工具, 现在切换一下齿轮。我现在想向您提出的问题很简单:全球AI是否真正全球化?这是一个提示性的问题,因为在大多数情况下,人工智能不是全球性的。相反,它是本地化的,包含在特定的个人,组织和国家中。也许我们也可以说全球科学。通过将不同国家的研究人员数量视为一个粗略的代表,我们可以阐明这一点。在英国,或者在类似国家(例如德国或美国),每100万人中大约有4000名研究人员。在我引以为傲的南非,这个数字是百万分之400。在加纳,这一数字接近百万分之40。  作为变革理论的宏伟愿景的一部分,很容易产生一种普遍适用的观点以及我们希望最终开发的技术优势的诱惑。但是,对研究人员人数的简单回顾表明,目前对全球知识的贡献还远远不够统一。因此,对于AI通用性的任何观点都需要受到更深层次的质疑,并且从这一认识开始,我们可以对AI4good项目进行更深入的理论分析。  由于许多AI4Good项目都是针对社会,人道主义或发展需求的,因此有关他们如何想象,理解和使用知识的问题成为了审讯的核心领域。我们的认识论基础以及对知识的隐性持有和毫无疑问的信念,在进行研究和部署时所表现出的态度中展现了自己。  态度1-知识转移。就其性质而言,AI4good项目隐式或显式地承认知识和专业知识在世界上是不平衡的。对于AI4Good来说,我们的部分工作似乎是为了帮助知识从权力中心(如研究实验室)迁移到缺乏知识的地方。 态度2-仁慈。出现的一种隐含态度是,在缺乏信息,知识或技术的情况下,技术开发应由知识渊博的人或有能力的人代表将受其影响或更改的其他人来进行。 态度3-可移植性。应用于任何特定地点或情况的知识和表示被认为同样适用于任何其他情况或地点,并且在任何地方开发的知识计划在其他地方也将同样有效。 态度4-量化。不可避免的对话是,作为比较,评估,理解和预测的工具,对世界进行量化和统计是理解世界的唯一方式。  态度5-卓越标准。作为最后的态度问题,我们是否假设大都会研究实验室内的标准,形式和世界,也就是在我们的知识和技术力量中心内,将成为其他地区未来的典范。 我们每个人都不总是容易质疑这些态度的来历,但这是我们必须做的。这些态度部分是由于我们共同的殖民主义经验迫使我们所有人生活下来的一种较旧的生活方式。殖民主义是在“善”的旗帜下进行的最后和最大的任务之一-表面上是将文明,现代性,民主和技术带给没有文明的人。殖民主义的影响今天继续影响着我们:  在身体上塑造边界的方式,在心理上思考我们对自己和彼此的看法, 在语言上扮演着当今英语作为科学和交流语言的角色, 在殖民时代发明种族主义和种族化以建立人与人之间等级划分的秩序, 从经济角度讲如何在一处提取劳动力,而在另一处产生利润, 在政治,治理和法律以及国际关系的结构内,这些结构仍属于殖民主义的断层线。  我们使用“殖民主义”一词来指代殖民主义的残余以及对当前知识和理解的影响。  因此,我要为您介绍的第二点是与AI4Good的殖民地竞争。殖民主义试图解释殖民者与被殖民者之间权力模式的延续,以及这些关系的当代残余。殖民地质问权力关系如何塑造我们对文化,劳动,主体间性和知识的理解。当好的项目失败时,就会发现家长式,技术解决主义和掠夺性包容的默认态度。  我用来解开与知识有关的态度问题的方法,是遵循一种关于知识非殖民化的特殊思考途径。在这种非殖民化观点下,我们被要求通过强调和认识到以前被边缘化的知识的合法性,来重新评估什么是知识学科的基础。这种认识将导致我们进行通常所说的“非殖民化转弯”,而对于我们的AI领域,我将其表述为关于我们如何重塑作为非殖民化AI领域的工作的问题。  尽管具有殖民权力,但历史记录表明,殖民主义绝不仅仅是强加于人的行为。通常也存在角色互换的情况,大都市必须面对殖民地的知识,并从外围以及治理,权利,管理和政策的所有领域吸取教训。一个逆向监护尽管造成了大量的损失和暴力,但在中心和外围之间建立了联系。通过将这种见解转化为我们可以使用的工具,现代批判性实践寻求使用殖民主义的命令来发展双重愿景:积极确定使反托拉特成为其基础的组成部分的中心和外围,同时还力求消除有害的电源二进制文件:既有力量又受压迫的人,既有大都市和周边地区,又有科学家和人文主义者,有自然和人为的。  反向监护直接谈到了构成知识的哲学问题。在知识的绝对观点和数据观点之间仍然存在张力,一旦获得足够的知识,就可以使我们形成完整且包含世界的抽象,而知识观点则始终是不完整的,并且在不同的情况下会被选择和解释。价值体系。确定什么才算是有效知识,数据集中包括什么以及什么被忽略和毫无疑问是我们作为AI研究人员所拥有的一种力量,这种力量不能被忽视。在这种情况下,殖民主义科学,尤其是反向监护的策略,成为其标志。 反向教学法导致了从家长式统治向团结的殖民主义转变。这给了我们两种直接策略。首先是建立有意义的跨文化对话体系,以及广泛参与技术开发和研究的新模式。跨文化对话是跨文化数字伦理学领域的核心,它询问技术如何支持社会和文化,而不是成为文化压迫和殖民主义的工具。这种对话不是在我们的工作中寻求普遍道德,而是导致多元主义的另一种选择,即所谓的普遍道德。 第二种策略在于我们如何支持新型的政治社区,这些政治社区能够改革现代生活中发挥作用的等级制度,知识,技术和文化体系。作为一种方法,我是对基层组织的支持的热烈拥护者,他们具有创造新形式的理解,加强文化间对话,展示团结和替代社区形式的能力。 我想分享自己的经验,将这种社区理论付诸实践。大约4年前,我是一群人的组成部分,以创建一个名为Deep Learning Indaba的新组织,其任务是在整个非洲大陆加强机器学习。在我们的多年工作中,我们已经能够在非洲各地建立新的社区,建立领导力并认可卓越的人工智能开发和使用。看到非洲各地的年轻人发展自己的想法,第一次展示他们,获得他们的工作认可,并在同龄人中知道他们的问题和方法很重要,这是他们的方式的一部分,这是一种荣幸。正在独特地塑造我们大陆的未来。我很自豪地看到,除了东欧,东南亚,南亚和南美等其他群体也跟随同样的步伐,此外还有其他鼓舞人心的社区群体,例如“黑死病”,“非洲数据科学”,人工智能中的黑人和人工智能中的酷儿:所有人都对其社区负责,并开展基层运动以支持AI,对话和变革。回顾过去的五年,我相信我们现在可以诚实地说,由于这些群体的奉献和牺牲,全球AI现在更加全球化。 当我一起结束旅程时,我想与一个明确的变革使命共享一个问题领域,这构成了今年的Indaba挑战赛。我要您考虑的变革使命是消灭被忽视的热带病(NTD)。约有14亿人口(占世界人口的六分之一)患有一个或多个NTD,他们被忽视是因为他们普遍困扰着世界上的穷人,而且历来没有像其他疾病那样受到广泛的关注。忽视这个词很重要,因为一个非常常见的词句强调:“被忽视的疾病也是被忽视的人民的疾病”。在这里,殖民地的作用很重要,因为我们必须问一个问题,为什么在历史上和现在这样的忽视不仅存在于NTD,而且存在于许多要求AI4Good的地区。 NTD是广泛的疾病类别,在这里我将展示世界卫生组织使用的分类。我们很幸运,2020年对于被忽视的疾病来说是重要的一年,因为世界卫生组织发布了一项重要的新路线图,该路线图建立了对话,连接了专门知识和社区,并阐明了解决这一问题所需的措施。正如世卫组织被忽视疾病负责人Mwelecele Malecela博士几个月前对我说的那样,现在无论是在药物利用领域还是在诊断和诊断领域,机器学习和AI都有机会帮助支持这一重要使命。检测或医师培训。在这个领域有很多事情要做,通过为利什曼病的特定疾病创建任务,深度学习Indaba试图建立董事会联盟以帮助提高认识并鼓励在这一领域的研究:与非洲自己的数据科学竞赛平台Zindi,非洲领先的AI和技术初创公司之一InstaDeep以及DNDi药物合作为被忽视疾病倡议,世卫组织以及其他许多机构,朝着这一方向迈出了第一步。我向您提出的建议是考虑您可以凭借自己的专业知识和关注力来解决此问题的任何部分。 … Continue reading Shakir Mohamed 对“好”的想象,改变的使命

规格欺骗:人工智能创造力的另一面

作者:维多利亚·克拉科夫娜(Victoria Krakovna),乔纳森·上萨(Jonathan Uesato),弗拉基米尔·米库里克(Vladimir Mikulik),马修·拉赫兹(Matthew Rahtz),汤姆·埃弗里特(Tom Everever),拉玛娜·库玛(Ramana Kumar),扎克·肯顿(Zac Kenton),杨·雷克(Jan Leike),沙恩·莱格(Shane Legg)—— DeepMind 人工智能安全团队  译者:朱小虎(Xiaohu Zhu)—— Center for Safe AGI 创始人 本文交叉发布在 DeepMind 的官方网站上。 规格欺骗是一种在没有达到预期结果的情况下满足目标字面规格的行为。即使没有这个名称,我们都有过规格欺骗的经验。读者可能已经听说过迈达斯国王的神话和点石成金的故事,其中国王要求将他接触的任何东西都变成黄金 —— 但很快就发现,甚至是食物和饮料也变成了他手中的金属。在现实世界中,当学生因在一项家庭作业上的出色表现而获得奖励时,他可能会抄袭另一个学生来获得正确的答案,而不是通过学习材料,从而利用了任务规格中的漏洞。 在人工智能体的设计中也会出现这个问题。例如,强化学习智能体可以找到一条获得大量奖励的捷径,而无需按照人工设计者的意图完成任务。这些行为很常见,到目前为止,我们已经收集了大约 60 个示例(汇总了现有 列表和人工智能社区的持续贡献)。在这篇文章中,我们回顾了规格欺骗的可能原因,分享了在实践中发生这种情况的案例,并争论了关于解决规格问题的原则方法的进一步工作。 让我们来看一个例子。在乐高积木堆叠任务中,理想的结果是使红色块最终位于蓝色块的顶部。当智能体未触摸红色块的底面高度时,会对其进行奖励。智能体没有执行相对困难的操作来捡起红色方块并将其放置在蓝色方块的顶部,而是简单地将其翻转到红色方块上以收集奖励。这种行为达到了既定目标(红色方块的高底面),而牺牲了设计人员实际关心的内容(将其堆叠在蓝色方块的顶部)。 资料来源:数据有效的深度强化学习,用于敏捷操作(Popov等人,2017年) 我们可以从两个不同的角度考虑规格欺骗。在开发强化学习(RL)算法的范围内,目标是构建学会实现给定目标的智能体。例如,当我们使用 Atari 游戏作为训练强化学习算法的基准任务时,目标是评估我们的算法是否可以解决困难的任务。在这种情况下,智能体程序是否通过利用漏洞来解决任务并不重要。从这个角度来看,规格欺骗是一个好的信号 —— 智能体已找到一种实现指定目标的新式方法。这些行为说明了算法的独创性和强大能力,它们可以找到确切地执行我们告诉他们的操作的方法。 但是,当我们希望智能体实际去堆叠乐高积木时,相同的创造力可能会带来问题。在构建能够在世界范围内实现预期结果的对齐的智能体的更广泛范围内,规格欺骗是有问题的,因为它涉及智能体以牺牲预期结果为代价来利用规格中的漏洞。这些行为是由于预期任务的规格不正确而不是强化学习算法中的任何缺陷引起的。除了算法设计之外,构建对齐智能体的另一个必要组件是奖励设计。 准确地反映人类设计者意图的设计任务规格(奖励功能,环境等)往往很困难。甚至对一个存在轻微的错误规格指定,一个非常好的RL算法也许能够找到与预期解决方案完全不同的复杂解决方案,即使一个更差的算法无法找到该解决方案,但得出的结果反而更接近于预期的解决方案。这意味着,随着强化学习算法的改进,正确指定意图对于实现所需结果变得更加重要。因此,至关重要的是,研究人员正确指定任务的能力必须与智能体寻找新颖解决方案的能力保持一致。 我们在广义上使用术语任务规格来涵盖智能体开发过程的许多方面。在强化学习设置中,任务规格不仅包括奖励设计,还包括训练环境和辅助奖励的选择。任务说明的正确性可以确定智能体的创造力是否符合预期结果。如果规格正确,智能体的创造力将产生理想的新颖解决方案。这就是 AlphaGo 走出著名的第 37 步的原因,这使人类围棋专家感到惊讶,但这在与李世石的第二场比赛中至关重要。如果规格错误,则可能会产生不良的博弈行为,例如翻转方块。这些类型的解决方案取决于一个范围,我们还没有一个客观的方式来区分它们。 现在,我们将考虑规格欺骗的可能原因。奖赏功能失准的一种根源是设计不当的奖赏塑造。奖励塑形通过在解决任务的方式上给予智能体一些奖励,而不是仅仅奖励最终结果,使学习一些目标变得更加容易。但是,如果奖励不是基于潜力的,则可以改变最优策略。考虑一个在海岸奔跑者游戏中控制船只的智能体,该游戏的预期目标是尽快完成比赛。智能体因在赛道上击中绿色方块而获得了成形奖励,这将最佳策略更改为绕行并一遍又一遍击中相同的绿色方块。 资料来源:荒谬的奖励功能(Amodei&Clark,2016年) 指定能够准确捕获所需最终结果的奖励本身可能是一项挑战。在乐高积木堆叠任务中,仅指定红色块的底面必须高出地面是不够的,因为智能体可以简单地翻转红色块来实现此目标。对所需结果的更全面说明还包括:红色块的顶面必须在底面之上,并且底面必须与蓝色块的顶面对齐。在指定结果时,很容易错过这些标准之一,从而使规格变得过于宽泛,并且可能更容易满足于一个退化的解决方案。 与其尝试创建涵盖所有可能的极端情况的规格,不如从人类反馈中学习奖励函数。评估结果是否已实现通常比明确指定结果要容易得多。但是,如果奖励模型没有学习到反映设计者偏好的真实奖励函数,则此方法也会遇到规格欺骗问题。错误的一种可能来源可能是用于训练奖励模型的人为反馈。例如,执行抓取任务的智能体通过在相机和对象之间悬停而学会了愚弄人类评估者。 资料来源:《人类偏好的深度强化学习》(Christiano等,2017) 由于其他原因,例如泛化不佳,学习的奖励模型也可能被错误指定。可以使用其他反馈来更正智能体尝试利用奖励模型中的不准确性的尝试。 另一类规格欺骗示例来自利用模拟器错误的智能体。例如,一个本应学会走路的模拟机器人想出了如何将双腿钩在一起并沿着地面滑动的方法。 资料来源:AI学步(Code Bullet,2019) 乍一看,这些示例可能看起来很有趣,但没那么有趣,并且与在没有模拟器错误的现实世界中部署智能体无关。但是,根本问题不是错误本身,而是智能体可以利用的抽象失败。在上面的示例中,由于对模拟器物理的错误假设,错误地指定了机器人的任务。类似地,通过错误地假设交通流量路由基础结构不具有足够聪明的智能体可以发现的软件错误或安全漏洞,可能会错误地指定现实世界的流量优化任务。无需明确地做出这样的假设 —— 更有可能的是,它们只是设计者从未想到的细节。而且,由于任务变得过于复杂而无法考虑每个细节,规格设计期间的错误假设。这就提出了一个问题:是否有可能设计能够纠正这种错误假设而不是进行假冒的智能体架构? 任务规格中通常做出的一种假设是,任务规格不会受到智能体的动作的影响。对于在沙盒模拟器中运行的智能体,这是正确的,但对于在现实世界中运行的智能体,则不是这样。任何任务说明都具有物理表现:存储在计算机上的奖励功能或存储在人脑中的偏好。部署在现实世界中的智能体程序可能会操纵目标的这些表示,从而产生奖励篡改问题。对于我们假设的流量优化系统,在满足用户的偏好(例如,通过给出有用的指示)与影响用户之间并没有明显的区别。(例如,通过轻推它们以选择更容易达到的目的地)。前者满足了目标,而后者则操纵了目标在世界上的表示(用户偏好),两者都为人工智能系统带来了丰厚的回报。再举一个极端的例子,一个非常先进的人工智能系统可以劫持运行它的计算机,并手动将其奖励信号设置为较高的值。 综上所述,解决规格欺骗至少要克服三个挑战: … Continue reading 规格欺骗:人工智能创造力的另一面

新研究工作简介:塑造行为的动机

从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。

无监督学习:好奇的学生

https://deepmind.com/blog/unsupervised-learning/Authors: Alexander Graves, Research Scientist, DeepMind; Kelly ClancyTranslator: Xiaohu Zhu, University AI 在过去十年中,机器学习在图像识别、自动驾驶汽车和围棋等复杂游戏等多个领域中取得了前所未有的进步。这些成功在很大程度上是通过使用两种学习范式 —— 监督学习和强化学习中的一种来训练深度神经网络而实现的。两种范式都要求训练信号由人设计并赋予计算机。在监督学习的情况下,这些是“目标”(例如图像的正确标签); 在强化学习的情况下,它们是成功行为的“奖励”(例如在Atari游戏中获得高分)。因此,学习的限制是由人类训练者定义的。 虽然一些科学家认为,足够包容的训练范围 —— 例如,完成各种各样任务的能力 —— 应该足以产生通用智能,但其他人认为真正的智能需要更多独立的学习策略。例如,考虑一个小孩如何学习。她的祖母可能会和她坐在一起,耐心地指出鸭子的例子(作为监督学习中的指导信号),或者用掌声来奖励她解决木版拼图(如强化学习)。但是,幼儿在绝大多数时间里都是天真地探索世界,通过好奇心,游戏和观察来理解她的周围环境。无监督学习是一种范式,旨在通过奖励智能体创建自主智能(即,计算机程序)用于了解他们在没有特定任务的情况下观察到的数据。换句话说,智能体为了学习而学习。 无监督学习的一个关键动机是,虽然传递给学习算法的数据在内部结构(例如,图像、视频和文本)中非常丰富,但用于训练的目标和奖励通常非常稀疏(例如,标签'狗'指的是特别的变形物种,或者用1或0来表示游戏中的成功或失败)。这表明算法学到的大部分内容必须包括理解数据本身,而不是将这种理解应用于特定任务。 解码视觉元素 2012 年是深度学习的里程碑,当 AlexNet(以其首席架构师 Alex Krizhnevsky 命名)席卷了 ImageNet分类竞赛。AlexNet 识别图像的能力是前所未有的,但更引人注目的是背后发生的事情。当研究人员分析 AlexNet 正在做什么时,他们发现它通过构建其输入的日益复杂的内部表示来解释图像。低层特征(例如纹理和边缘)在底层中表示,然后将它们组合在一起形成高级概念,例如更高层中的轮子和狗。 这与在我们的大脑中处理信息的方式非常相似,其中初级感官处理区域中的简单边缘和纹理被组装成复杂对象,例如更高区域中的面部。因此,复杂场景的表示可以由视觉原语构建,其方式与构成句子的单个词出现的意义大致相同。如果没有明确的指导,AlexNet 的层已经发现了一个基本的“视觉词汇”,以解决其任务。从某种意义上说,它已经学会了扮演维特根斯坦所谓的“语言游戏”,它可以迭代地从像素转换为标签。 卷积神经网络的视觉词汇。对于网络的每一层,生成最大程度地激活特定神经元的图像。然后,这些神经元对其他图像的响应可以被解释为不存在视觉“单词”:纹理,书架,狗鼻子,鸟类。From Feature Visualization, Olah et al. (2017). 迁移学习 从一般情报的角度来看,关于 AlexNet 词汇的最有趣的事情是它可以被重用或转移到除了训练之外的视觉任务,例如识别整个场景而不是单个对象。迁移在不断变化的世界中是必不可少的,人类擅长于此:我们能够迅速调整我们从我们的经验(我们的“世界模式”)中收集的技能和理解,以及任何手头的情况。例如,经过专业训练的钢琴家可以相对轻松地弹起爵士钢琴。理论上,构成世界正确内部表征的人工智能体应该能够做同样的事情。 尽管如此,AlexNet 等分类器所学到的表示具有局限性。特别是,由于网络只用单一类别(猫,狗,汽车,火山)标记图像训练,所以不需要推断标签的任何信息 —— 无论它对其他任务有多大用处 —— 都可能是忽略。例如,如果标签总是指向前景,则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号,例如描述图像的详细标题:不只是“狗”,而是“柯基犬在阳光明媚的公园里捕捉飞盘。”然而,这些目标很难提供,特别是在大规模情况下,并且仍然可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是学习丰富,可广泛迁移的表示的最佳方式是尝试学习可以学习的关于数据的所有内容。 如果通过表示学习迁移的概念看起来过于抽象,那么请考虑一个学会吸引人们作为简笔画的孩子。她发现了人体形态的高度紧凑和快速适应性。通过增加每个棒图的具体细节,她可以为她的所有同学创作肖像:她最好的朋友的眼镜,她最喜欢的红色T恤的同桌。而且她发展这项技能不是为了完成一项特定任务或获得奖励,而是为了回应她反映她周围世界的基本要求。 通过创造学习:生成模型 也许无监督学习的最简单目标是训练算法以生成其自己的数据实例。所谓的生成模型不应该简单地再现他们所训练的数据(一种无趣的记忆行为),而是建立一个从中抽取数据的基础类的模型:不是特定的马或彩虹照片,但是马和彩虹的所有照片集; … Continue reading 无监督学习:好奇的学生

导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

By Pushmeet Kohli, Krishnamurthy (Dj) Dvijotham, Jonathan Uesato, Sven Gowal, and the Robust & Verified Deep Learning group. This article is cross-posted from DeepMind.com.Translated by Xiaohu Zhu, University AI Bugs 和软件自从计算机程序设计的开始就是形影相随的。经过一段时间后,软件开发者们已经建立了一个最佳的在部署之前测试和调试的实践集,但是这些实践对现代深度学习系统并不太适用。今天,在机器学习领域的广泛实践是在一个训练数据集上训练系统,然后在另一个集合上进行测试。虽然这揭示了模型的平均情况性能,但即使在最坏的情况下,确保健壮性或可接受的高性能也是至关重要的。在本文中,我们描述了三种严格识别和消除学习到的预测模型中错误的方法:对抗性测试,健壮学习和形式验证。 机器学习系统默认不太健壮。即使在特定领域中表现优于人类的系统,如果引入微妙差异,也可能无法解决简单问题。例如,考虑图像扰动的问题:如果在输入图像中添加少量精心计算的噪声,那么比人类更好地对图像进行分类的神经网络会轻易地误以为树懒是赛车。 覆盖在典型图像上的对抗性输入可能导致分类器将树懒错误地分类为赛车。两个图像在每个对应像素中相差至多 0.0078。第一种被归类为三趾树懒,置信度> 99%。第二个被归类为概率> 99%的赛车。 这不是一个全新的问题。计算机程序总是有 bugs。几十年来,软件工程师汇集了令人印象深刻的技术工具包,从单元测试到形式验证。这些方法在传统软件上运行良好,但是由于这些模型的规模和结构的缺乏(可能包含数亿个参数),因此采用这些方法来严格测试神经网络等机器学习模型是非常具有挑战性的。这需要开发用于确保机器学习系统在部署时健壮的新方法。 从程序员的角度来看,错误是与系统的规范(即预期功能)不一致的任何行为。作为我们解决智能问题的使命的一部分,我们对用于评估机器学习系统是否与训练集和测试集一致,以及描述系统的期望属性的规格列表的技术进行研究。这些属性可能包括对输入中足够小的扰动的健壮性,避免灾难性故障的安全约束,或产生符合物理定律的预测。 在本文中,我们将讨论机器学习社区面临的三个重要技术挑战,因为我们共同致力于严格地开发和部署与所需规格可靠一致的机器学习系统: 有效地测试与规范的一致性。我们探索有效的方法来测试机器学习系统是否与设计者和系统用户所期望的属性(例如不变性或健壮性)一致。揭示模型可能与期望行为不一致的情况的一种方法是在评估期间系统地搜索最坏情况的结果。训练机器学习模型是与规格一致的。即使有大量的训练数据,标准的机器学习算法也可以产生预测模型,使预测与健壮性或公平型等理想规格不一致 —— 这要求我们重新考虑训练算法,这些算法不仅能够很好地拟合训练数据,而且能够与规格清单一致。形式证明机器学习模型是规格一致的。需要能够验证模型预测可证明与所有可能输入的感兴趣的规格一致的算法。虽然形式验证领域几十年来一直在研究这种算法,尽管这些方法取得了令人瞩目的进展,但却不能轻易地扩展到现代深度学习系统 与规格的一致性测试 对抗性例子的稳健性是深度学习中相对充分被研究的问题。这项工作的一个主要主题是评估强攻击的重要性,以及设计可以有效分析的透明模型。与社区的其他研究人员一起,我们发现许多模型在与弱对手进行评估时看起来很健壮。然而,当针对更强的对手进行评估时,它们显示出基本上0%的对抗准确率(Athalye等,2018,Uesato等,2018,Carlini和Wagner,2017)。 虽然大多数工作都集中在监督学习(主要是图像分类)的背景下的罕见失败,但是需要将这些想法扩展到其他设置。在最近关于揭示灾难性失败的对抗方法的工作中,我们将这些想法应用于测试旨在用于安全关键环境的强化学习智能体(Ruderman等,2018,Uesato等,2018b)。开发自治系统的一个挑战是,由于单个错误可能会产生很大的后果,因此非常小的失败概率也是不可接受的。 我们的目标是设计一个“对手”,以便我们提前检测这些故障(例如,在受控环境中)。如果攻击者可以有效地识别给定模型的最坏情况输入,则允许我们在部署模型之前捕获罕见的故障情况。与图像分类器一样,针对弱对手进行评估会在部署期间提供错误的安全感。这类似于红队的软件实践,虽然超出了恶意攻击者造成的失败,并且还包括自然出现的失败,例如由于缺乏泛化。 我们为强化学习智能体的对抗性测试开发了两种互补的方法。首先,我们使用无导数优化来直接最小化智能体的期望奖励。在第二部分中,我们学习了一种对抗值函数,该函数根据经验预测哪种情况最有可能导致智能体失败。然后,我们使用此学习函数进行优化,将评估重点放在最有问题的输入上。这些方法只构成了丰富且不断增长的潜在算法空间的一小部分,我们对严格评估智能体的未来发展感到兴奋。 这两种方法已经比随机测试产生了很大的改进。使用我们的方法,可以在几分钟内检测到需要花费数天才能发现甚至完全未被发现的故障(Uesato等,2018b)。我们还发现,对抗性测试可能会发现我们的智能体中的定性不同行为与随机测试集的评估结果不同。特别是,使用对抗性环境构造,我们发现执行 3D 导航任务的智能体平均与人类水平的性能相匹配,但令人诧异的是它仍然无法在简单迷宫上完全找到目标(Ruderman等,2018)。我们的工作还强调,需要设计能够抵御自然故障的系统,而不仅仅是针对对手 使用随机抽样,我们几乎从不观察具有高失败概率的地图,但是对抗性测试表明这样的地图确实存在。即使在移除了许多墙壁之后,这些地图仍然保留了高失败概率,从而产生比原始地图更简单的地图。 训练规格一致的模型 对抗性测试旨在找到违反规格的反例。因此,它往往会导致高估模型与这些规格的一致性。在数学上,规格是必须在神经网络的输入和输出之间保持的某种关系。这可以采用某些关键输入和输出参数的上界和下界的形式。 受此观察的启发,一些研究人员(Raghunathan 等,2018; … Continue reading 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证

设计智能体动机机制来避免副作用

针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。

利用因果影响图来理解智能体动机

影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。