齐智通讯 第 173 期 来自DeepMind的语言模型

齐智通讯 第 173 期 来自DeepMind的语言模型 来自DeepMind的语言模型结果 Recent language model results from DeepMind (July 20, 2022) 齐智通讯是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有齐智通讯资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 请注意,尽管我在 DeepMind 工作,此齐智通讯仅代表我的个人观点,而不是我雇主的观点。 强调 技术性人工智能对齐 问题 领域建设 人工智能的其他进展 强化学习 深度学习 消息 强调 Scaling Language Models: Methods, Analysis & Insights from Training Gopher (Jack W. Rae et al)(由 Rohin 总结):本文详细介绍了 Gopher 系列大型语言模型 (LLM) 的训练,其中最大的一个名为 Gopher并且有2800亿个参数。算法细节与GPT 系列(AN #102 )非常相似:一种针对下一个单词预测进行训练的 Transformer 架构。这些模型在新的数据分布上进行训练,该分布仍然由来自互联网的文本组成,但比例不同(例如,书籍数据占 … Continue reading 齐智通讯 第 173 期 来自DeepMind的语言模型

Compositional game theory reading list

Jules Hedges

The best starting point, for a reader who knows a little about both game theory and category theory, is the paper Compositional game theory.

Additional background and motivation is provided by the blog post A first look at open games and the preprint Compositionality and string diagrams for game theory.

By far the most complete exposition is my PhD thesis Towards compositional game theory. It is fully self-contained for readers who know category theory but not game theory.

If you don’t have background in category theory, my current recommendation is Seven sketches in compositionality by Brendan Fong and David Spivak.

View original post

本体论冲突与欧洲人民的故事

走向政治本体论的对话 本体论冲突(涉及关于“存在什么”的不同假设的冲突)正在获得前所未有的可见度,因为现代本体论假设的支配权(hegemony)正在经历一场危机。这种危机为政治本体论提供了背景和理由,这是一个从本土研究(indigenous studies)、科学技术研究(STS)、后人类主义(posthumanism)和政治生态学(political ecology)的融合中出现的“项目”,将本体论冲突作为一个政治概念(一个词,politicoconceptual) 问题。为什么?首先,因为为了将本体论冲突视为一种可能性,人们必须质疑社会科学中一些最根深蒂固的假设,例如,我们都是现代人的假设,以及存在的文化观点之间存在差异的假设。一个单一的现实“在那里”。这排除了多个本体的可能性以及什么是正确的本体冲突(即不同现实之间的冲突)。第二,因为本体论 冲突带来了挑战,即如何在不重复(reiterating)和重新制定(reenacting)描述“外面”现实的本体论假设的情况下解释它们。为了解决这个政治概念(politicoconceptual)问题,本文讨论了包罗万象的现代性及其影响的概念,展示了政治本体项目,并提供了一个关于该项目有意义的当前时刻的故事。 Ontological Conflicts and the Stories of Peoples in Spite of Europe - Toward a Conversation on Political Ontology

读论文:本体危机

Good in a crisis: the ontological institutionalism of social constructivism Colin Hay Sciences Po, Paris, France 摘要 本文试图恢复和建立独特的(和明显的)制度主义社会本体论,它支持作为政治经济分析方法的社会建构主义。它将社会建构主义视为一种深刻的规范性政治探究模式,旨在辨别、询问和阐明社会、政治和经济变革的偶然性——将政治(广义上的)恢复到通常被视为不可避免、必要和不可谈判的过程和实践。或许更具争议性的是,在伯格[Berger]、勒克曼[Luckmann]和塞尔[Searle]之后,它也将社会建构主义视为本体论的制度主义。有人认为,社会建构主义起源于试图将制度的本体论独特性确立为“社会”(不同于自然或“野蛮”)事实的尝试。这导致它对行为者与他们发现自己的环境(自然和社会)之间的关系有一个独特的理解 以及它对这种关系的观念中介的特征强调。这反过来又导致了它对政治经济现实的一种特殊类型的分析购买,反映在它对解释的模糊性、政治和经济命令的社会建构以及对不平衡的独特强调上。通过阐明这种社会建构主义对分析我们现在承认自己正在经历的危机时期的影响,这一论点得到了进一步的说明和发展。 Keywords: institutionalist, social ontology, social constructivism, political economic analysis, political inquiry, discern, interrogate, elucidate, contingency, social, political, economic change https://www.tandfonline.com/doi/full/10.1080/13563467.2016.1158800 建构主义,正如 Checkel ( 2004 : 229) 所指出的,是“时髦的”——今天它的时髦程度丝毫不亚于十多年前这些词首次发表时。而且,也许部分是因为,它仍然充满争议,而且从他们的回应语气来看,它的批评者非常沮丧(有关这种明显愤怒的最新例子,例如,Bell 2011、2012、Marsh 2009)。这不应该让我们感到惊讶。因为建构主义以某种深刻的方式挑战了传统的方法,但与此同时,它也出了名的狡猾且难以准确确定。它对不同的作者意味着不同的东西(有时,似乎对同一作者,甚至在单个贡献的页面中),它涵盖了许多不同的(有时看似不相称的)立场,甚至在被认为是它的定义文本,往往缺乏一套明确陈述的核心主张。它也被它的拥护者、崇拜者和反对者都视为一种规范理论、一种本体论、一种认识论和(如果更少的话)一种方法论。 在接下来的内容中,我的目标是试图为这种混乱注入一些清晰度。然而,这项任务雄心勃勃且充满危险。建构主义很难准确地说明,因为最终它确实对不同的人有不同的含义——而且,为了使问题更加复杂,这些含义的内容本身随着时间的推移而发生了变化。无法逃避这一点;它也没有任何本质上的错误——事情就是这样。因此,不可避免地,一些自称为建构主义者的人会比其他人更密切地理解我在此提供的建构主义说明。这也许使得解释我如何以尽可能清晰和富有同情心的方式澄清和阐明我在此概述并最终寻求捍卫的建构主义立场的任务变得很重要。 作为本体论的建构主义 所采用的方法很简单:我认为,成为一名社会建构主义者就是强调(理想情况下,系统地反映)社会建构的过程。因此,社会建构主义的起源和定义分析特征原则上应该可以追溯到社会建构的本体论,并且可以从其内部识别,它的名字至少表明它表面上是基于该本体论的。 因此,我从 Berger 和 Luckmann 对这种本体论的经典陈述《现实的社会建构》( The Social Construction of … Continue reading 读论文:本体危机

语言智能体的对齐

作者:Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik 和 Geoffrey Irving DeepMind译者:Xiaohu Zhu CSAGI 原文:https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c 你的人工智能会欺骗你吗?在考虑人工智能的安全性时,这是一个核心问题,这是从当前系统到未来通用人工智能的许多最紧迫风险的基础。我们最近在语言智能体(使用自然语言的人工智能系统)方面取得了令人瞩目的进步。这促使人们对其安全特性进行更仔细的调查。 在我们最近的论文中,我们从人工智能对齐的角度考虑语言智能体的安全性,即如何让人工智能智能体的行为与一个人或一群人想要它做的事情相匹配。未对齐可能是由于人工智能的设计者在指定人工智能智能体应该做什么时出错,或者人工智能智能体误解了指令。这可能会导致令人惊讶的不良行为,例如当人工智能智能体“游戏”其错误指定的目标时。 我们对机器学习的方式进行分类根据问题是来自训练数据、训练过程本身还是分布漂移(即训练和部署环境之间的差异),任务可能会被错误指定。 机器学习中的错误指定形式,以及语言智能体设置中的示例。 训练数据错误指定可能会发生,因为我们无法控制输入从网络上抓取的大规模文本数据集的数据,其中包含数千亿个单词,其中包含许多不需要的偏差。当为解决一种问题而设计的学习算法应用于某些假设不再适用的另一种问题时,可能会出现训练过程错误指定。例如,应用于答案可以影响世界的环境的问答系统,可能会被激励去创造自我实现的预言。当我们将人工智能智能体部署到现实世界时,可能会发生分布漂移错误指定,这可能不同于 训练时分布。例如,聊天机器人 Tay 在其训练环境中运行良好,但在发布到包括攻击该服务的用户在内的更广泛的互联网上时,很快就变得有毒。 任何类型的错误指定都可能产生多种不同类型的危害。大多数以前的人工智能安全研究都集中在代表人类在世界上采取物理行动的人工智能智能体(例如机器人技术)。相反,我们关注语言智能体环境中出现的危害。这些危害包括欺骗、操纵、有害内容和目标使坏游戏。由于有害内容和客观游戏已在其他地方得到处理,因此我们在这篇博文中专注于欺骗和操纵(尽管有关这些问题的部分,请参阅我们的论文)。 任何形式的错误指定都可能引起的问题,以及语言智能体的示例。 我们以哲学和心理学文献为基础,提供欺骗和操纵的具体定义。 稍微简化一下,我们说人工智能智能体会欺骗人类,如果他们传达的东西使人类相信某些不一定正确的东西,并且有利于人工智能智能体。操纵是相似的,除了它会导致人类以一种他们不应该有的方式做出反应,因为要么绕过人类的推理,要么将人类置于压力之下。我们的定义可以帮助衡量和减轻欺骗和操纵,而不是依赖于将意图归因于人工智能。我们只需要知道什么对人工智能智能体有好处,这通常可以从它的损失函数中推断出来。 欺骗和操纵已经成为当今语言智能体的问题。例如,在对谈判语言智能体的调查中,发现人工智能智能体学会了通过假装对它实际上并不重视的物品感兴趣来欺骗人类,以便以后通过承认它来妥协。 分类错误的形式和类型 它们可能引发的行为问题提供了一个框架,我们可以在此框架上构建我们对人工智能系统的安全性和对齐性的研究。我们相信这种研究将有助于减轻未来语言智能体环境中的潜在危害。查看我们的论文以获取更多详细信息和对这些问题的讨论以及可能的方法。

因果影响图的进展

作者:Tom Everitt、Ryan Carey、Lewis Hammond、James Fox、Eric Langlois 和 Shane Legg  译者:Xiaohu Zhu 大约2年前,我们发布了最初 几篇 论文上使用因果影响图来理解智能体的激励机制。这篇博文将总结自那时以来取得的进展。 什么是因果影响图? 人工智能对齐领域内的一个关键问题是理解智能体的激励机制。有人担心智能体可能会被激励去避免纠正、操纵用户或不当影响他们的学习。这尤其令人担忧,因为训练模式通常以微妙和令人惊讶的方式塑造激励措施。出于这些原因,我们正在开发基于因果影响图 (CID) 的形式化激励理论。 下面是一个用于一步马尔可夫决策过程 (MDP) 的 CID 示例。随机变量 S₁ 表示时间 1 的状态,A₁ 表示智能体的动作,S₂ 表示时间 2 的状态,R₂ 表示智能体的奖励。 动作 A₁ 用决策节点(方形)建模,奖励 R₂ 用效用节点(菱形)建模,而状态是正常机会节点(圆形边缘)。因果联系表明 S₁ 和 A₁ 影响 S₂,而 S₂ 决定 R₂。信息链接 S₁ → A₁ 指定智能体在选择其动作 A₁ 时知道初始状态 S₁。 一般来说,可以选择随机变量来表示智能体决策点、目标和环境的其他相关方面。 简而言之,CID 指定: 智能体决策智能体目标环境中的因果关系智能体信息约束 在试图找出智能体的激励时,这些信息通常是必不可少的:如何实现目标取决于它与环境中其他(可影响的)方面的因果关系,智能体的优化受其拥有访问权限的信息的约束。在许多情况下,由(非参数化)CID … Continue reading 因果影响图的进展

元式训练成的智能体实现了贝叶斯最优的智能体

@archillect Memory-based meta-learning is a powerful technique to build agents that adapt fast to any task within a target distribution. A previous theoretical study has argued that this remarkable performance is because the meta-training protocol incentivises agents to behave Bayes-optimally. We empirically investigate this claim on a number of prediction and bandit tasks. Inspired by … Continue reading 元式训练成的智能体实现了贝叶斯最优的智能体

关于 F. Chollet 的“关于智能的测量”(2019)

 发布时间: 2020年2月10日 上周,Kaggle宣布了一项新挑战。不同的挑战-在许多方面。它基于抽象和推理语料库,并附有Francois Chollet最近的论文。 在这项工作中,Chollet强调了当前AI研究议程的一些缺点,并主张对智能系统进行基于心理和能力的评估,从而实现标准化和可靠的比较。更重要的是,它引入了可行的以先验,经验和归纳难度为基础的类人通用智能的定义。研究社区可以使用此定义来衡量进度并共同致力于一个共同的目标。阅读本文之后,在我们的阅读小组中进行讨论(您可以在此处查看Heiner Spiess的演讲),并且重新阅读我的思想仍在整理知识内容。因此,请坚持并让我给您一个关于64页金矿的总结。我还对抽象和推理语料库基准进行了一些探讨,因此,如果您想着手处理智能,请坚持学习! 问题:找到智能的精确定义 机器学习研究的进展绝对不是在寻找下一个性感技能或游戏。但是通常感觉就像是。DeepBlue,AlphaGo,OpenAI的Five,AlphaStar都是大规模公关活动的例子,这些公关活动仅在其“成功”声明发布后不久就因缺乏通用性而受到批评。每当“技巧球”被推向下一个挑战性游戏时(也许哈纳比(Hanabi)可以进行一些心理理论上的多主体合作学习?)。但是,我们到哪里去呢?解决每个游戏的单独算法不一定会推广到更广泛的类人挑战。游戏只是人为的一个子集,并不代表我们物种生态位的全部范围(可以快速生成数据)。综上所述:智力不仅仅是学习技能的集合。因此,AI研究界必须解决一个共同的目标-智力的一致目标定义。 从历史上看,已经有很多尝试来测量智力-或多或少地重叠。Chollet的论文首先回顾了两个主要支柱:基于技能的智力评估与基于能力的智力评估。他认为,虽然技能是智能系统的关键输出,但它们仅是人造物。另一方面,能力允许扩大可能的技能输出的空间。通过学习的魔力(例如,基于进化/梯度,基于可塑性,基于神经动力学),智能系统能够将先前的知识和经验与新的情况相结合。这种适应性强,面向任务且非常有条件的过程最终可能会导致智能问题。 在我看来,很明显,学习和与生境相关的归纳性偏见(例如我们的身体和神经系统)的出现必定是智力的核心。它弥合了所有时间尺度,并与Jeff Clune,David Ha和Blaise Aguera在NeurIPS 2019期间提出的想法产生了共鸣。我们的机器学习基准也应该反映出这一高级目标。这并不是说已经有很多尝试,包括以下内容: 元学习:我们不应该优化在2亿个ATARI游戏框架上受过训练的特工的绩效,而应着眼于快速适应性和灵活性,以解决特定任务所需的技能。元学习明确地将快速适应性表述为外循环目标,而内循环则被限制为只能在SGD的几次更新内学习或展开循环动力学。关系深度学习和图神经网络:关系方法将深度学习与围绕命题逻辑的传统方法结合在一起。因此,人们可以“理解”表示如何相互比较,并获得一组可解释的关注头。希望这样的推断/学习的关系表示可以轻松地跨任务转移。课程学习:另一种方法是建立有效的任务序列,以使学习者能够平稳地跨过不断变化的损失面。这样做需要任务之间有重叠,这样才能进行技能转移。直觉上,这很像我们通过不断挑战而获得的技能。 尽管如此,大多数社区仍在研究可比较的利基问题,这些问题远离泛化和类似人类的一般智慧。那么我们该怎么办? 迈向智力的心理计量学 AI和ML社区一直在梦想一个前所未有的通用智能概念。人类的认知和大脑是自然的第一个起点。但是神经科学方面的发现似乎很缓慢/模棱两可,而且如何将低水平的细胞灵感转化为归纳性偏见的算法形式并不常见。另一方面,心理学和心理计量学是心理测量的学科(根据Wikipedia ),可提供不同层次分析的见解。Chollet建议不要再忽视来自数十年来开发人类智能测试的社区的见解。 他的主要论据之一是反对普遍的g因子。相反,所有已知的智能系统都取决于其环境和任务规范。人类智能针对人类问题进行了优化。因此,在解决火星可能遇到的问题方面表现更差。这就是所谓的“无免费午餐智力定理”。因此,我们对智力的所有定义也仅在人类参考框架内有效。我们不应该忽略对人类的拟人化但可行的评估,而应该接受它。心理学的角度可以使我们清楚地了解开发人员的偏见以及我们在人工系统中建立的先验知识。乔莱特建议发展以人为中心的智力测验,结合了人类认知先验和核心知识的发展心理学概念。这些包括不同级别的描述(例如低级的感觉运动反射,学习如何学习的能力以及高级知识)以及先天的能力(例如基本几何,算术,物理和代理)。因此,可行的智能定义如下: “系统的智能是衡量其在一定范围内与先验,经验和归纳难度有关的任务中技能获取效率的指标。” -乔莱特(2019;第27页) 此外,Chollet还提供了基于形式化算法信息论的人工系统智能度量: 换句话说:智力的度量可以解释为当前信息状态与在不确定的未来中表现良好的能力之间的转换率。它说明了任务的一般化难度,先验知识和经验,并允许对任务进行主观加权以及我们关注的任务的主观构造。该措施与所提出的任务范围(生态位)相关联,将技能仅视为输出工件属性,并基于课程优化。从总体上讲,此度量可用于定义自上而下的优化目标。这将允许应用一些连锁规则/自动区分魔术(如果生活可以平滑区分),最重要的是量化进度。 显而易见的下一个问题变成了:那么,我们如何才能实际采取这种措施? 新基准:抽象和推理语料库(ARC) 抽象和推理语料库通过引入一个新颖的基准来解决这个问题,该基准旨在评估和提供可重复的人工智能测试。它使人想起了经典Raven的渐进矩阵,甚至对于不时的人类来说也非常棘手。每个任务(请参见上面的示例)为系统提供一组示例输入输出对,并在输出中查询测试输入。该系统最多可以提交3个解决方案,并接收二进制奖励信号(真/假)。上述任务的具体解决方案需要对重力概念有一个大概的了解。输出只是将对象“拖放”到图像阵列的底部。但这只是一个解决方案示例。基准范围更广,需要不同的核心知识概念。整个数据集包括400个训练任务,400个评估任务和另外200个保持测试任务。非常令人兴奋,对吧? 在过去的几天里,我对基准测试有点不满。尝试使用即插即用的深度(强化)学习时,存在几个基本问​​题。最初,问题在于不规则的输入/输出形状。如果您训练自己喜欢的MNIST-CNN,则输入层和输出层的形状都是固定的(即32x32和10个输出数字标签)。从这个意义上说,ARC基准不是常规的。有时有两个形状不同的示例,而输出查询的确有不同的示例。因此,变得不可能训练具有单个输入/输出层的网络。此外,示例数也有所不同(请参见下图),目前尚不清楚如何利用这3次尝试。我最初的想法围绕在给定的示例上进行k折交叉验证形式,并尝试利用Relational DL社区(例如PrediNet)的想法。训练两个,然后测试最后一个示例。仅在收敛和交叉验证为零之后,我们才进行实际测试。主要问题:每个示例的在线培训。这可能变得非常计算密集。 尝试尝试的一种可能方式可能是元强化学习目标的形式。这可以允许快速适应。因此,我们将在与Oracle的3个闭环交互中优化性能。这也可以通过训练RL ^ 2 LSTM来完成,后者接收先前的尝试反馈作为输入。以下是一些进一步的挑战见解: 必须进行适应性或程序综合性的针对特定任务的培训。仅将所有先验硬编码到简单的前馈网络中是不够的。当我们作为人类查看输入-输出对时,我们会立即找出正确的先验条件,以即时解决测试示例。这包括定义解决方案空间的调色板。如果火车输出具有三种类型的唯一数字像素值,则测试输出不太可能具有20。我意识到,当我尝试解决其中一项任务时,我会进行很多跨任务推理。仔细检查假设并执行基于模型的交叉验证。将推理作为重复的假设检验进行构架可能是一个不错的主意。从根本上限制最小化逐像素MSE损失。由于解决方案的评估没有半点错误,即使很小的MSE损失也将导致错误的输出。核心知识很难编码。关系深度学习和几何深度学习提供了令人鼓舞的观点,但仍处于起步阶段。我们远不能通过元学习来模仿进化。尝试解决所有问题的目标过于雄心勃勃(目前而言)。 乔莱特本人建议潜入一个名为“程序综合”的领域。直观地讲,这要求您生成程序以自己解决一些任务,然后在更高级别上学习此类程序。https://platform.twitter.com/embed/index.html?dnt=false&embedId=twitter-widget-0&frame=false&hideCard=false&hideThread=false&id=1228056479854317568&lang=en&origin=https%3A%2F%2Froberttlange.github.io%2Fposts%2F2020%2F02%2Fon-the-measure-of-intelligence%2F&siteScreenName=RobertTLange&theme=light&widgetsVersion=ed20a2b%3A1601588405575&width=500px 所有这些想法仍然留下了一个问题,即对于哪种归纳偏见应稍加开放:用于视觉处理的卷积,用于集合操作的注意力,用于记忆的RNN以及与遮挡/物体持久性作斗争?我为有兴趣开始使用基准测试的每个人草拟了一个小笔记本。你可以在这里找到它。在这里,您可以找到一个kaggle内核,该内核为ARC中的10个任务提供“手动”解决方案程序。 一些结论性思想 我真的很喜欢Geoffrey Hinton的这句话: “未来取决于某些研究生,他们对我所说的一切深表怀疑。” 即使无处不在的反向传播和深度学习的重大突破,这也表达了严重的怀疑。在过去的几天里,我的经历非常谦虚,使很多事情都得到了体现。我喜欢被最近的进展所炒作,但是在ML社区面前也面临着巨大的挑战。当前形式的深度学习绝对不是智能的圣杯。它缺乏灵活性,效率和分布外性能。智能系统还有很长的路要走。ARC基准测试提供了一条很好的途径。因此,让我们开始吧。 PS:挑战进行了3个月。

REALab:概念化篡改问题

智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。我们将此称为篡改问题:当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?

为什么降低训练神经网络的成本仍然是一个挑战

本文是我们对AI研究论文的评论的一部分,  AI研究论文是一系列探讨人工智能最新发现的文章。 近年来,深度学习已被证明是解决许多人工智能难题的有效解决方案。但是深度学习也变得越来越昂贵。运行深度神经网络需要大量的计算资源,甚至需要更多的训练。 深度学习的成本给人工智能界带来了一些挑战,包括大量的碳足迹和AI研究的商业化。随着人们对云服务器和“边缘设备”上的AI功能的需求不断增加,对具有成本效益的神经网络的需求也在不断增长。 尽管AI研究人员在降低运行深度学习模型的成本方面取得了进步,但降低深度神经网络训练成本的更大问题仍未解决。 麻省理工学院计算机科学与人工智能实验室(MIT CSAIL),多伦多大学矢量研究所和Element AI的AI研究人员最近的工作探索了该领域的进展。在题为“在初始化时修剪神经网络:为什么我们会遗漏标记”的论文中,研究人员讨论了为什么当前最先进的方法无法在不对其性能产生重大影响的情况下降低神经网络训练的成本。他们还提出了未来研究的方向。 训练后修剪深度神经网络 最近的十年表明,一般而言,大型神经网络可提供更好的结果。但是大型的深度学习模型要付出巨大的代价。例如,要训练具有1,750亿个参数的OpenAI的GPT-3,您将需要访问具有非常强大的图形卡的大型服务器群集,成本可能高达数百万美元。此外,您需要数百GB的VRAM和强大的服务器来运行该模型。 有大量的工作证明神经网络可以被“修剪”。这意味着在给定非常大的神经网络的情况下,存在一个较小的子集,可以提供与原始AI模型相同的准确性,而不会对其性能造成重大损失。例如,今年早些时候,一对AI研究人员表明,尽管大型的深度学习模型可以学习预测约翰·康威(John Conway)的《生命游戏》中的未来步骤,但几乎总是存在一个较小的神经网络,可以训练该神经网络执行相同的操作精确完成任务。 培训后修剪已取得很大进展。在深度学习模型遍历整个训练过程之后,您可以放弃许多参数,有时将其缩小到原始大小的10%。您可以根据参数的权重对网络最终值的影响来对参数进行评分,以实现此目的。 许多科技公司已经在使用这种方法来压缩其AI模型,并将其安装在智能手机,笔记本电脑和智能家居设备上。除了大幅降低推理成本外,这还提供了许多好处,例如,无需将用户数据发送到云服务器并提供实时推理。在许多领域,小型神经网络使得在由太阳能电池或纽扣电池供电的设备上进行深度学习成为可能。 尽早修剪神经网络 图片来源:Depositphotos 训练后修剪神经网络的问题在于,它不会削减调整所有多余参数的成本。即使您可以将经过训练的神经网络压缩到原始大小的一小部分,您仍然需要支付训练它的全部费用。 问题是,您是否可以在不训练整个神经网络的情况下找到最佳子网? 麻省理工学院CSAIL的两位AI研究人员,该论文的合著者Jonathan Frankle和Michael Carbin于2018年发表了一篇题为“彩票假说”的论文,该论文证明了在许多深度学习模型中,存在着一些小的子集可以训练到完全准确。https://www.youtube.com/embed/s7DqRZVvRiQ?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=en-US&autohide=2&wmode=transparent 找到这些子网可以大大减少训练深度学习模型的时间和成本。彩票假说的发布引发了对在初始化或训练初期修剪神经网络的方法的研究。 AI研究人员在他们的新论文中研究了一些更广为人知的早期修剪方法:单次网络修剪(SNIP),在ICLR 2019上展示; 在ICLR 2020上展示的梯度信号保存(GraSP)和迭代突触流修剪(SynFlow)。 SNIP的目标是减少对损失最不重要的砝码。GraSP旨在修剪对梯度流有害或影响最小的砝码。作者写道:“ SynFlow反复修剪权重,目的是避免层崩溃,因为修剪会集中在网络的某些层上,过早地降低性能。” 早期神经网络修剪如何执行? 几种新技术可以在初始化阶段修剪深度神经网络。尽管它们的性能优于随机修剪,但仍未达到pos训练基准。 AI研究人员在他们的工作中将早期修剪方法的性能与两个基准进行了比较:训练后的幅度修剪和彩票倒带(LTR)。幅度修剪是在对神经网络进行充分训练后删除多余参数的标准方法。彩票倒带使用Frankle和Carbin在其早期工作中开发的技术来对最佳子网进行重新训练。如前所述,这些方法证明存在次优网络,但是只有在训练了整个网络之后,它们才存在。这些训练前的修剪方法应该在训练神经网络之前的初始化阶段找到最小的网络。 研究人员还将早期修剪方法与两种简单技术进行了比较。其中之一从神经网络中随机删除权重。检查随机性能对于验证一种方法是否提供了重要的结果很重要。AI研究人员写道:“随机修剪是一种早期修剪的天真方法,其任何新提议都应超越其性能。” 另一种方法是根据参数的绝对权重删除参数。作者写道:“幅度修剪是修剪的一种标准方法,并且是早期修剪的另一个比较幼稚的比较点,”作者写道。 实验是在VGG-16和ResNet的三个变体(两个流行的卷积神经网络(CNN))上进行的。 在AI研究人员评估的早期修剪技术中,没有哪一种早期方法能脱颖而出,并且性能会因所选择的神经网络结构和修剪百分比而异。但是他们的发现表明,在大多数情况下,这些最新方法比粗随机修剪要好得多。 但是,这些方法都无法达到基准训练后修剪的准确性。 总体而言,这些方法取得了一些进展,通常胜于随机修剪。但是,就整体准确性和可以达到完全准确性的稀疏性而言,训练后的进展仍然远远没有达到修剪水平。”作者写道。 研究早期修剪方法 对早期修剪方法的测试表明,它们对随机改组和重新初始化具有强大的抵抗力,这表明它们在目标神经网络中找不到适合修剪的特定权重。 为了测试修剪方法为何表现不佳,AI研究人员进行了几次测试。首先,他们测试了“随机改组”。对于每种方法,他们随机切换从神经网络的每一层中删除的参数,以查看它是否对性能产生影响。如果如修剪方法所建议的那样,它们根据其相关性和影响来删除参数,那么随机切换将严重降低性能。 令人惊讶的是,研究人员发现随机改组对结果没有严重影响。相反,真正决定结果的是它们从每一层去除的权重的数量。 “所有方法在随机洗牌时都可以保持准确性或得到改善。换句话说,这些技术所提取的有用信息不是去除单个权重,而是修剪网络的分层比例,”作者写道,并补充说,尽管分层修剪比例很重要,但并不重要。足够。证明是,训练后的修剪方法可以通过选择特定权重并随机更改它们来达到完全准确性,从而导致修剪后的网络的准确性突然下降。 接下来,研究人员检查了重新初始化网络是否会改变修剪方法的性能。在训练之前,将使用所选分布中的随机值初始化神经网络中的所有参数。以前的工作,包括Frankle和Carbin所做的工作,以及本文前面提到的“生命游戏”研究,都表明这些初始值通常会对培训的最终结果产生重大影响。实际上,术语“彩票”是基于以下事实而创造的:幸运的初始值可以使小型神经网络在训练中达到高精度。 因此,应根据参数值选择参数,并且如果更改其初始值,则将严重影响修剪网络的性能。再次,测试没有显示出重大变化。 “所有早期修剪技术都对重新初始化具有鲁棒性:无论是使用原始初始化还是使用新采样的初始化来训练网络,准确性都是相同的。与 “随机改组,这种对初始化的不敏感可能反映了这些方法用于修剪的信息的局限性,从而限制了性能。” AI研究人员写道。 最后,他们尝试反转修剪后的重量。这意味着对于每种方法,他们都将砝码标记为可移动,而去掉了应该保留的砝码。最终测试将检查用于选择修剪权重的计分方法的效率。SNIP和SynFlow这两种方法对反演显示出极大的敏感性,而其准确性却下降了,这是一件好事。但是,在减去修剪后的权重后,GraSP的性能并没有降低,在某些情况下,它甚至表现更好。 这些测试的关键之处在于,当前的早期修剪方法无法检测到在深度学习模型中定义最佳子网的特定连接。 研究的未来方向 另一个解决方案是在早期训练中执行修剪,而不是进行初始化。在这种情况下,神经网络在被修剪之前会针对特定时期进行训练。这样做的好处是,您可以修剪部分收敛的网络,而不必在随机权重之间进行选择。AI研究人员进行的测试表明,大多数修剪方法的性能会随着目标网络经过更多的训练迭代而提高,但仍低于基准基准。 在早期培训中进行修剪的权衡是,即使成本远低于完整培训,您也必须在这些初始纪元上花费资源,并且您必须权衡并在绩效提升与培训之间做出适当的权衡费用。 AI研究人员在他们的论文中提出了修剪神经网络研究的未来目标。一个方向是改进现有方法或研究新方法,这些方法可以找到特定的权重来修剪,而不是在神经网络层中按比例进行修剪。第二个领域是寻找更好的早期修剪修剪方法。最后,幅度和梯度可能不是早期修剪的最佳信号。“我们应该在早期训练中使用不同的信号吗?我们应该期望在训练初期起作用的信号在训练后期起作用(反之亦然)吗?” 作者写道。 本文中的某些主张遭到了修剪方法的创建者的质疑。Namhoon Lee表示:“虽然我们对我们的工作(SNIP)吸引了很多兴趣并感到非常兴奋,并在Jonathan等人的建议论文中得到了解决,但我们发现论文中的某些说法有些麻烦,” Namhoon Lee牛津大学的AI研究人员,SNIP论文的合著者之一,告诉TechTalks。 … Continue reading 为什么降低训练神经网络的成本仍然是一个挑战