AN #108 为何需要仔细检查人工智能风险的争论

中文版 对齐周报第 108 期 对齐周报是每周出版物,其最新内容与全球人工智能对齐有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 Ben Garfinkel 对人工智能风险的经典争论的仔细检查(Howie Lempel 和 Ben Garfinkel)(由 Asya 总结):在本播客中,Ben Garfinkel 考察了他对人工智能风险经典的争论持怀疑态度的几个原因(先前在此处进行了讨论(AN#45)) )。播客比此摘要具有更多的细节和细微差别。 Ben 认为,从历史上看,很难以一种可以预见的长期方式对变革性技术产生影响 —— 例如,很难看到我们可以在农业或工业化发展方面做些什么会影响到今天的世界。他认为,可以通过解决日益增加的政治动荡或锁定的可能性来获得长期影响的一些潜在途径,尽管他认为目前尚不清楚我们可以采取什么措施来影响锁定的结果,尤其是在遥远的情况下。 在对齐方面,Ben 聚焦于 Nick Bostrom 的《超级智能》(Superintelligence)中概述的标准论证集,因为它们具有广泛的影响力,而且充实。Ben 对这些论点有一些异议: 他认为不会突然跳升至功能极为强大和危险的人工智能系统,并且认为如果能力逐渐提高,我们将有更大的机会纠正出现的问题。 他认为,使人工智能系统具有能力和使人工智能系统具有正确的目标很可能并存。 他认为,仅仅因为有很多方法可以创建具有破坏性的系统,并不意味着创建该系统的工程过程很可能会被那些破坏性的系统所吸引;似乎我们不太可能偶然创建足以破坏人类的破坏性系统。 Ben 还花了一些时间讨论Mesa 优化(AN#58),这是关于人工智能风险的新论点。他在很大程度上认为,mesa 优化的理由尚未充分充实。他还认为,学习不正确的目标可能是由于系统不够复杂而无法正确表示目标的结果。经过足够的训练,我们实际上可能会收敛到我们想要的系统。 鉴于当前的争论状态,Ben 认为值得 EA 充实有关人工智能风险的新争论,但也认为在人工智能相关主题上没有相对优势的 EAer 不一定要转向人工智能。Ben 认为,我们在人工智能安全和治理上花费的资金比 Alec Baldwin 主演的 2017 年电影《老板宝贝》(Boss Baby)投入更少是一种道德上的愤怒。 Asya 的观点:该播客涵盖了现有论点的令人印象深刻的广度。许多推理类似于我从其他研究人员那里听到的(AN#94)。我非常高兴 Ben 和其他人花时间批评这些论点。除了向我们展示我们错在哪里,它还帮助我们引导到更合理的人工智能风险场景。 … Continue reading AN #108 为何需要仔细检查人工智能风险的争论

AN #107 目标导向的智能体的收敛工具性子目标

中文版 对齐周报第 107 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 基本的人工智能驱动力 (Stephen M. Omohundro)(由 Rohin 总结):2008 年的论文介绍了收敛的工具性子目标:除非谨慎避免,否则人工智能系统将“默认”具有这些子目标。对于本文而言,人工智能系统是“具有通过在世界范围内行动而试图实现的目标”的系统,即,它假定系统是目标导向的(AN#35)。 首先要论证一个足够强大的目标导向的人工智能系统将要自我提升,因为这可以帮助它在(可能很长的)未来更好地实现其目标。特别是,从效用函数由其目标决定的角度出发,它将希望最大化其期望效用,这将使其成为“理性的” 。(这样做的理由是 VNM 定理,以及支持贝叶斯主义和期望效用最大化的各种荷兰赌(Dutch book)论点。) 但是,并非所有修改都对人工智能系统有利。特别是,它将非常希望保留其实用效用函数,因为它决定了将来它将(尝试)完成的工作,并且从当前实用效用函数的角度来看,实用效用函数的任何更改将是一场灾难。同样,它将希望保护自己免受伤害,也就是说,它具有生存动机,因为如果死了就无法实现其目标。 最终的工具性子目标是获取资源并有效地使用资源以实现其目标,因为按照定义,资源几乎可用于多种目标,包括(可能是)人工智能系统的目标。 Rohin 的观点:在本期周报中,我经常提到收敛的工具性子目标,因此似乎我应该对其进行总结。我特别喜欢这篇论文,因为它在 12 年后保存得很好。即使我批评(AN#44)认为强大的人工智能系统必须是期望效用最大化器的想法,但我仍然发现自己同意本文,因为它假设了目标导向的智能体和那里的原因,而不是试图争论强大的人工智能系统必须以目标为导向。鉴于此假设,我同意此处得出的结论。 技术性人工智能对齐 MESA 优化 内部安全性,外部安全性以及构建安全高级人工智能的建议 (Lucas Perry 和 Evan Hubinger)(由 Rohin 总结):该播客涵盖了很多主题,特别关注高级机器学习系统中学习到的优化带来的风险(AN# 58),以及有关构建安全高级人工智能的11条建议的概述(AN#102)。 Rohin 的观点:我的摘要很详细,因为在本周报中之前已经强调了许多主题,但是如果你不熟悉它们,那么播客是学习它们的重要资源。 学习人类意图 利用本体感受从视频中模仿学习(Faraz Torabi 等人)(由 Zach 总结):从观察(IfO)到模仿学习的最新工作使智能体可以从不包含状态和动作信息的视觉演示中执行任务。在本文中,作者对利用本体感受信息,内部状态的知识来创建有效的 IfO 算法感兴趣。与通常仅使用观察向量的 GAIfO 相比,该算法仅允许将图像用于判别,但允许智能体使用内部状态来生成动作。他们在多个 MujoCo 域上测试了他们提出的技术,并表明它优于观察算法的其他模仿技术。 Zach 的观点:我认为很容易忘记观察不一定等同于状态表示。这篇文章很好地提醒了我,在 … Continue reading AN #107 目标导向的智能体的收敛工具性子目标

AN #101 为何我们需要严格度量和预测人工智能进展

中文版 对齐周报第 101 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 Danny Hernandez 在预测人工智能和人工智能驱动力方面的观点(Arden Koehler 和 Danny Hernandez)(由 Rohin 总结):该播客是对实践预测及度量人工智能及其重要性的一个不错的介绍. 我不会总结在播客中的所有内容,列出其中一部分观点. Danny 谈到了 AI and Compute (AN #7)和 AI and Efficiency(AN #99)里面他在 OpenAI 完成的工作. 前者展示了用于最大规模的实验的算力从 2012 年到 2018 年间提升了 300,000 倍,后者告诉我们在同一时间区间内算法已经能够以 25 倍少的算力达到类似性能(从 2012 年到 2019 年达到 44 倍). 一件我之前没有意识到的事是 25 倍或者 44 倍因子应被看作是一个松的下界:在其他领域中如语言建模,这个因子实际上更高. 但是更为重要的是,采用的这个方法论不能够给我们建模一个算法的效果来做一些之前我们不能做的事情(这个可以被解释成某些我们可以做大,但需要更多算力). 可能这个算法进展应该被看作是效率但 100 … Continue reading AN #101 为何我们需要严格度量和预测人工智能进展

AN #102 通过 GPT-3 的元学习和人工智能对齐的完全提议列表

中文版 对齐周报第 102 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 语言模型是少次学习器 (Tom B. Brown 等)(由 Rohin 总结):最大的 GPT-2 模型(AN#46)具有 15 亿个参数,自发布以来,人们已经训练了多达 17 种语言模型十亿个参数。本文报告了 GPT-3 的结果,其中最大的模型具有 1,750 亿个参数,比以前的最大语言模型增加了 10 倍。为了消除障碍,它在零次语言建模方面建立了新的技术水平(SOTA)(仅在 Penn Tree Bank 上进行评估,因为其他评估集偶然地是其训练集的一部分)。 本文的主要重点是分析 GPT-3 的少次学习功能。在短暂的学习中,经过最初的训练阶段之后,在测试时会为模型提供少量新任务的示例,然后必须为新输入执行该任务。通常使用元学习或调优来解决此类问题,例如,在测试时 MAML 对新示例采取了一些渐变步骤,以生成针对测试任务进行调优的模型。相比之下,GPT-3 的主要假设是语言是如此多样,以至于要在语言上做得很好就需要适应输入,因此学习的语言模型将已经是元学习器。这意味着他们可以使用他们关心的任务的示例简单地“填装”模型,并且模型可以了解应该执行的任务,然后很好地执行该任务 例如,考虑使用已经解释了含义的新组成单词生成句子的任务。在一个值得注意的示例中, GPT-3 的提示是: “whatpu”是坦桑尼亚产的一种小型毛茸茸的动物。使用单词 whatpu 的句子示例如下: 我们在非洲旅行,我们看到了这些非常可爱的 whatpus。 做一个“farduddle”意味着跳得很快。使用单词 farduddle 的句子的示例是: 给出此提示后,GPT-3 会为“farduddle”生成以下示例语句: 有一天,当我和我的妹妹玩耍时,她感到非常兴奋,开始做这些疯狂的 farduddle。 本文对存在基准的多个下游任务进行了测试(例如,问题解答),并报告了所有这些任务的零射,单射和少射性能。在某些任务上,尽管没有使用基准测试的训练集进行微调,但快照版本设置了新的 SOTA … Continue reading AN #102 通过 GPT-3 的元学习和人工智能对齐的完全提议列表

AN #103 ARCHES:存在性安全的议程和组合自然语言的深度强化学习

中文版 对齐周报第 103 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 关于人类存在性安全的人工智能研究注意事项 (Andrew Critch 等人)(由 Rohin 总结):CHAI 之外的研究议程直接处理长期主义者关注的问题:如何预防与人工智能相关的存在性灾难。这与“可证明有益”的概念明显不同:可证明有益的一个关键挑战是定义我们甚至所说的“有益”。相比之下,有一些预防人工智能引起的人类灭绝的途径并不需要了解“有益的”:最易见的是,我们可以进行协调以决不构建可能导致人类灭绝的人工智能系统。 由于重点放在人工智能系统的影响上,因此作者需要为此类人工智能系统重新命名。他们将强大的人工智能系统定义为不受人类控制的人工智能系统,并有可能以至少与整个人类一样具有影响力的方式改变世界。这样的人工智能系统不必是超级智能的,甚至不需要通用人工智能。它可能在狭窄的领域中具有强大的功能,例如技术自主性、复制速度或能够实现优势的社交敏锐度。 根据定义,强大的人工智能系统能够彻底改变世界。但是,人类持续生存有许多条件,而世界上的大多数变革都不会保留这些条件。(例如,考虑地球的温度或大气的成分。)因此,人类灭绝是部署强大的人工智能系统的默认结果,只有在该系统旨在保护人类存在的前提下,才可以避免灭绝人类。相对于其动作的重要性而言,精度很高。他们将未对齐的强大的人工智能系统(MPAI)定义为部署会导致人类灭绝的系统,因此主要目标是避免 MPAI 的部署。 作者将 MPAI 的部署风险分为五个子类别,具体取决于开发人员的信念、行为和目标。人工智能开发人员可能无法预测优势,无法预测未对齐,无法与其他团队协调部署形成 MPAI 的系统,偶然(单方面)部署 MPAI 或有意(单方面)部署 MPAI。还有一些危险的社会条件可能会增加风险的可能性,例如不安全的种族发展、人类的经济转移、人类的软弱无力以及完全避免谈论存在性风险。 从风险转到解决方案,作者根据他们所考虑的设置沿三个轴对研究方向进行了分类。首先,有一个或多个人;第二,有一个或多个人工智能系统;第三,它是否帮助人们理解,指导或控制人工智能系统。因此,多/单指令将涉及多个人指令一个人工智能系统。尽管我们最终将需要多重/多重场景,但是前面的情况是较容易解决的问题,从中我们可以获取有助于解决一般多重/多重情况的见解。同样,理解可以帮助指导,两者都可以帮助控制。 然后作者继续列出 29 个不同的研究方向,在此不再赘述。 Rohin 的观点:我喜欢本文的摘要和介绍部分,因为它们直接说明我们想要和关心的内容。我也非常赞成可证明有益和降低存在性风险与单/多分析之间的区别。 应用于通用智能体的人为脆弱性论点有些棘手。一种解释是,“硬度”源于这样一个事实,即您需要一堆“位”的知识/控制权才能使人保持周围。但是,似乎一般智能的AI应该可以轻松地使人类“愿意”,因此人工智能中已经存在这些东西。(作为类比:我们对环境进行了很大的改变,但如果愿意的话,我们可以轻松地保护鹿的栖息地。)因此,这实际上是一个问题,即你期望人工智能系统是从哪个“分布”中取样的:如果你认为我们将构建尝试做人类想要的人工智能系统,那么我们可能还不错,但是如果你认为会有多个人工智能系统可以各自满足用户的需求, 研究方向非常详细,尽管有些建议对我来说似乎并不是特别有用,但总的来说,我对这份清单感到满意。(正如论文本身所指出的,有用和不有用取决于你的人工智能发展模型。) 通过从文本中进行转移学习来进行深度强化学习的人类教学 (Felix Hill 等人)(由 Nicholas 总结):本文提出了“从文本转移到人的模拟指令”(SHIFTT)方法,用于训练强化学习智能体以自然语言接收来自人类的命令。解决此问题的一种方法是训练强化学习智能体基于模板响应命令。然而,这对于人类如何改变命令表达方式的微小变化并不健壮。相反,在 SHIFTT 中,你从诸如 BERT 之类的经过预先训练的语言模型开始,并首先通过该语言模型提供模板化命令。然后将其与愿景输入相结合以制定策略。人工命令随后通过相同的语言模型进行反馈,他们发现该模型即使在结构上有所不同,也可以零人工迁移到人工命令。 Nicholas 的观点:自然语言是一种非常灵活,直观的向人工智能传达指令的方式。在某些方面,这将对齐问题从强化学习智能体转移到了受监督的语言模型,后者仅需要学习如何正确解释人类语音背后的含义。这种方法的一个优势是,语言模型是经过单独训练的,因此可以在用于训练强化学习智能体之前对其进行安全性标准的测试和验证。它可能比诸如奖励模型等替代方案更具竞争力,而替代方案则需要为每个任务训练新的奖励模型。 但是,我确实看到了这种方法的一些缺点。首先是人类并不擅长以自然语言表达其价值观(例如,迈达斯国王希望他所接触的一切变成黄金),自然语言可能没有足够的信息来传达复杂的偏好。即使人类给出了准确正确的命令,语言模型也需要正确验证这些命令。由于当前的语言模型难以解释并且包含许多有害的偏见,因此这可能很困难。 参与中的基础语言 (Corey Lynch等人)(由Robert总结):本文提出了一种在机器人技术中学习遵循自然语言人类指导的新方法。它建立在与从游戏中学习潜伏计划(AN#65)类似的思想的基础上,它使用了无监督的“参与”数据(人类在机器人上玩游戏的轨迹,自身并没有目标)。 本文结合了一些想法,以使训练策略可以遵循自然语言的说明,并且仅提供有限的人工注释。 在 Hindsight … Continue reading AN #103 ARCHES:存在性安全的议程和组合自然语言的深度强化学习

AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验

中文版 对齐周报第 104 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 不可访问的信息 (Paul Christiano)(由 Rohin 总结):思考人工智能对齐问题的一种方法是,我们只知道如何在我们可访问的信息上训练模型,但是我们希望模型利用不可访问的信息。 如果可以直接检查信息,或者在接受其他一些可访问信息训练后,ML模型是否可以成功迁移以提供信息,则可以访问信息。(后者的一个例子是,如果我们训练了一个系统来预测一天中发生的事情,并且成功地将其转换为预测一个月中发生的事情。)否则,信息将无法访问:例如,“Alice 在想什么” (至少目前)无法访问,而“爱丽丝会说什么”则可以访问。该帖子还有其他几个示例。 请注意,虽然 ML 模型可能无法直接准确地说出 Alice 的想法,但是如果我们训练它预测 Alice 的想法,它可能会具有 Alice 的想法的内部模型,因为这对于预测 Alice 的想法很有用。但是,由于无法从模型中提取此信息,因此无法访问。尽管我们可以训练模型以输出“Alice 在想什么”,但由于我们没有基本的事实答案,因此必须训练“对 Alice 在想什么的一致且合理的答案”。这可能会激励制定出我们最相信的错误策略,而不是报道事实。 风险论据如下:我们关心无法访问的信息(例如,我们关心人们实际体验的内容,而不是人们所说的体验的内容),但不能轻易使人工智能系统对其进行优化。但是,人工智能系统将能够推断和使用无法访问的信息,并且胜过那些无法访问的信息。人工智能系统将能够针对至少某些目标使用此类不可访问的信息进行规划。然后,使用无法访问的信息进行规划的人工智能系统最终可以控制大多数资源。关键语录:“不利于我们的关键不对称因素是,要想使繁荣发展,似乎需要获取特定数量的物品,而危险则需要具备访问任何物品的能力。” 然后,该帖子继续列出该问题的一些可能的攻击角度。迭代扩增可以被认为是解决我们训练的智能体与我们自己之间的速度、规模、经验、算法复杂性等方面的差距,这可以限制我们的智能体所能获得的,我们无法获得的信息。但是,放大似乎最终会遇到一些永远不会产生的不可访问的信息。结果,这可能是对齐的“核心”。 Rohin 的观点:我认为不可访问的信息这一概念很重要,但是很难推理。例如,我经常考虑通过近似“一个人长时间思考后会说些什么”来解决对齐问题;这实际上是一种主张,即在长时间反复进行时,人类的推理能力会很好地传递,并且“人们会说些什么”至少在某种程度上是可访问的。无论如何,人工智能系统似乎有可能继承我认为归因于人类推理的可转让性相同的属性,在这种情况下,风险论点适用,主要是因为人工智能系统可能将其推理应用于与我们关注的目标不同的目标,这使我们回到意图的一致性(AN#33) 公式。 此回应将这篇文章视为反对黑匣子优化的相当笼统的论点,在该论点中,我们仅查看输入输出行为,因为那样我们就无法使用不可访问的信息。它建议我们需要了解AI系统的工作原理,而不是依靠搜索来避免这些问题。 冠状病毒大流行可能导致AI缓慢起飞的原因 (Victoria Krakovna)(由 Rohin 总结):COVID-19 大流行就是人类面临的巨大风险的一个例子。我们可以从人工智能对齐中学到什么经验?这篇文章认为,这种大流行是我们在缓慢起飞情况下可以预期的那种情况的一个例子,因为我们有机会从经验中学习,采取警告标志并及时就存在严重问题达成共识。但是,尽管我们可以从 SARS 等先前的流行病中学到东西,但我们未能概括 SARS 的教训。尽管在 2 月份出现了大流行的警告迹象,但许多国家还是浪费了一个月的时间,原本本该可以储存 PPE 和测试能力的库存。我们对 COVID-19 是一个问题没有达成共识,直到 3 月底,文章都认为它并不比流感更糟。 … Continue reading AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验

AN #100 智能体在执行时学习奖励函数 可能会出问题

中文版 对齐周报第 100 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 在线学习奖励函数的陷阱 (Stuart Armstrong 等人)(由 Rohin 总结):学习要尝试优化的指标可能很危险:如果未正确设置,可能会激励智能体以在度量学习中“朝特定方向更新”,以便将来进行优化(先前在朝着交互式逆向强化学习中提出的观点)。本文分析了当智能体同时学习奖励函数时可能出现的问题,并对该奖励函数进行优化。 智能体可能有动机来“操纵”奖励学习过程,从而找到易于优化的奖励函数。例如,假设有一个学生 Sandra,她必须从 Trisha 老师那里弄清楚项目的截止日期和评估标准。Sandra 希望如果她问 Trisha 截止日期是什么时候,她会说截止日期是本周晚些时候。因此,Sandra 可能会巧妙地问:“该项目是下周还是再下周?”,Trisha 可能会在“下周”做出回应。这样,Sandra 可以操纵截止日期学习过程,以便获得更有利的截止日期。 更糟糕的是,在这种情况下,严格控制学习过程可能会破坏你正在考虑的每个奖励函数的值。例如,让我们假设,如果无法操纵 Trisha,那么 Sandra 的最佳策略将是立即开始该项目,而不管实际的截止日期是什么时候。但是,鉴于 Trisha 可以被操纵,Sandra 今天将花费其操纵 Trisha 设置一个较晚的截止日期 —— 从任何固定截止日期的角度来看,该行动显然都不理想。该论文将其描述为确定的奖励牺牲。 为避免这种情况,我们需要严格的学习过程,即始终期望的最终学习奖励(截止日期)独立于智能体(Sandra 的)策略。这种不可固定性(unriggability)几乎等同于不可影响性(uninfluencability),在该属性中,我们必须能够在环境中放置一些背景变量,以便可以说学习过程是在“学习”这些变量。从技术上讲,不可固定的过程虽然通常是必需的,但也不一定是不可影响的(有关详细信息,请参见论文)。 但是,这些属性仅约束对最终奖励分布环境的期望:它不会阻止智能体以某种方式改组奖励函数以与合适的环境匹配。例如,在不知道哪些项目是容易或困难的情况下,Sandra 可以操纵 Trisha 来为容易的项目提供早期截止日期,并为困难的项目给出较晚的截止日期,从而保留早期和晚期截止日期的分布方式。这将满足不可固定性(并且可能还会影响不可影响性,具体取决于确切的形式化)。 作者在一个简单的 gridworld 示例中演示了这些问题。他们还指出,有一种简单的方法可以使任何学习过程都不受影响:选择一个特定的策略π,该策略收集有关奖励的信息,然后将新的学习过程定义为“如果执行 π,则原始学习过程已经说的话”。 阅读更多: 博客文章:学习和运用学习 Rohin 的观点: 我对本文的观点与本文的解释方式有所不同。考虑一个人工智能系统,我们在其中构建对奖励和更新规则的先验,然后将其付诸实践。在轨迹的末端,根据推断的奖励后验下的轨迹的期望奖励来奖励它。然后,激励人工智能系统选择易于使所得后验最大化的动作。 这不需要奖励函数是模棱两可的。它只要求更新规则不完美。例如,假设 Alice 有着喜欢苹果甚于香蕉的偏好,并且你使用更新规则“如果 Alice … Continue reading AN #100 智能体在执行时学习奖励函数 可能会出问题

AN #105 人类的经济轨迹和优化可能的“真正”含义

中文版 对齐周报第 105 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 建模人类轨迹 (David Roodman)(由 Nicholas 总结):这篇文章分析了从公元前 10,000 年到现在的人类轨迹,并考虑了其对未来的影响。用于此的度量标准是世界生产总值(GWP),即一年中世界上生产的商品和服务的总和。 我们可以从这段很长的历史过程的世界生产总值中得出一些有趣的结论。首先,直到 1800 年,大多数人都生活在基本生活水平附近。这意味着全球升温潜能值的增长主要由人口增长驱动。从那时起,人口增长放缓,人均 GWP 增加,导致我们今天的生活质量大大提高。其次,指数函数根本无法很好地拟合数据。在指数函数中,GWP 翻倍的时间将是恒定的。取而代之的是,世界生产总值似乎快了一倍,这更符合幂律关系。但是,推断这种关系向前发展的结论是,经济增长非常快,随着 2047 年临近,世界生产总值接近无限。 接下来,Roodman 创建一个随机模型,以便不仅分析模态预测,还获得关于特定结果可能性的完整分布。通过仅对过去的数据进行拟合,他分析了全球升温潜能值每个时期的惊人程度。结果发现,工业革命及其后的时期超过了模型分布的 90%,这与令人惊讶的快速经济增长相对应。类似地,在过去 30 年中,增长异常反常,下降了 25 个百分点。这表明该模型的随机性不能适当地反映现实世界 —— 虽然一个好的模型肯定可以在一个时期内被高增长或低增长所“惊讶”,但可能不应该像在这里那样始终朝着同一方向感到惊讶。 除了凭经验查看数据外,他还提供了一个理论模型,说明如何通过归纳标准经济模型来实现这种加速增长。通常,经济模型假定技术是固定的投入或具有固定的增长率,并且不允许将生产再投资于技术改进。一旦将再投资纳入模型,经济增长率便会像历史数据一样加速。 Nicholas 的观点:我发现这篇论文非常有趣,并对结果感到惊讶。也就是说,我对应该从中得出什么结论感到困惑。幂律趋势似乎确实非常适合历史数据,但是过去的 70 年非常适合指数趋势。对于我来说,哪一个与预测未来有关(如果有的话)。 提出的理论模型对我来说更有意义。如果技术负责增长率,那么将生产再投资于技术将导致增长率更快。我很想知道有关将 GWP 的哪一部分重新投资于改进技术以及如何与其他趋势保持一致的数据。 Rohin 的观点:我喜欢这篇文章;它使我对带有噪声的双曲模型的外观有一种内在的感觉(有关此信息,请参阅博客文章,摘要未提到它)。总的来说,我认为我的收获是,尽管最初听起来很疯狂,但用于人工智能爆炸性增长风险的图片实际上是合理的。当然,它实际上并不会发散到无穷大 —— 我们最终将达到某种增长极限,即使是“指数”增长也是如此 —— 但是这个极限可能远远超过我们迄今为止所达到的极限。另请参阅此相关文章。 优化的基础 (Alex Flint)(由 Rohin 总结):关于人工智能风险的许多争论都取决于“优化”的概念,但是到目前为止,它还没有一个很好的定义。一种自然的方法是说,优化器根据一些合理的效用函数使世界具有更高的值,但这似乎不足,因为瓶盖将成为用于将水保持在瓶中的优化器(AN#22)。 这篇文章提供了优化的新定义,方法是从嵌入式代理(AN#31)中提取一页内容并分析整个系统,而不是将代理和环境分开。一个优化系统是从任何地方开始时在一些较大的一组配置(称为吸引盆)即使系统被扰动的一个趋向于朝向的一些专门配置(称为演进目标配置集)。 例如,在梯度下降中,我们从对参数 θ … Continue reading AN #105 人类的经济轨迹和优化可能的“真正”含义

第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

对齐周报第 98 期 对齐周报是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 强调 LCA:用于神经网络训练的损失变化分配 (Janice Lan等人)(由 Robert 总结):本文介绍了损失变化分配(LCA)方法。该方法的目的是深入了解和理解深度神经网络的训练过程。该方法计算每次训练迭代中每个参数之间(在整个训练集上)总损失变化的分配,将其迭代优化,直到近似误差总体上小于 1%。损失变化分配可以是正数,也可以是负数;如果为负,则表示该参数在该迭代过程中对训练有帮助;如果为负,则该参数会损害训练。假定此测量是按参数和按迭代进行的,则可以将其汇总为按层 LCA,或对参数和训练迭代进行任何其他汇总。 作者使用该方法获得了对几种小型神经网络(在 MNIST 和 CIFAR-10 上进行训练)的训练过程的许多见解。 首先,他们验证学习非常嘈杂,平均每次迭代只有一半参数会有所帮助。该分布比正态分布重尾,并且相当对称。但是,参数倾向于在帮助和伤害之间交替,并且每个参数仅倾向于在大约 50% 的时间内帮助。 其次,他们查看了 LCA 汇总的每层,对整个训练过程进行了汇总,并显示出在 CIFAR ResNet模型中第一层和最后一层对总体造成了损害(即 LCA 为正)。为了纠正这种情况并理解原因,作者尝试冻结这些层,或降低其学习率。第一层无法固定(冻结使它的 LCA 为 0,但第二层的 LCA 依次增加,因此最终总损失保持不变)。但是,对于最后一层,冻结或降低学习率会提高网络的整体性能,因为最后一层的 LCA 减少的幅度大于其他所有层的 LCA 的增加幅度。他们还假设通过减少最后一层的动力,他们可以为它提供更新鲜的信息,并使其更有可能学习。他们发现这确实有效,尽管在这种设置下,先前各层的 LCA 会增加以补偿,从而使总体性能保持不变。 最后,作者表明学习似乎跨层同步;在相同的训练迭代中,各层以统计上有意义的方式获得本地 LCA 最小值。他们表明这必须是参数运动和梯度的组合,因为它们自己都不能解释这种现象。 Robert 的观点: 我真的很喜欢这篇论文。该方法简单(尽管计算量很大),并提供了新颖的见解。我认为了解深度学习训练的工作原理很重要,因为它可以帮助我们设计更好的训练过程,不仅是为了获得更好的表现,而且还希望我们希望训练过程能够激发出其他特性。我认为,通过这种方法,可以使它更有效率,然后将其应用于除视觉以外的其他领域的大型模型,因此还有很多工作要做。我也很想知道这是否可以用来了解训练集的哪些部分对训练有帮助和伤害;例如,查看在该训练迭代中,同步学习的点与迷你批处理中的数据点之间是否存在任何关联。注意:我推荐阅读此文(包含附录)来观察作者用来展示其论断的图和可视化,因为这比文字描述更加容易理解。 Rohin 的观点: 我也非常喜欢这篇论文,它具有关于神经网络如何工作的大量经验证据。我倾向于对结果进行一些不同的分析。特别是,假设在计算 LCA 时,我们进行了以下更改: 我们将损失用于训练批量数据而不是完整的训练集。我们没有改善近似误差(即,我们只是使用训练过程中计算出的梯度的点估计)。我们使用随机梯度下降(SGD)进行了训练(与 Adam 或 Momentum-SGD 相对)。 … Continue reading 第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

第 99 期对齐周报 算法效率的增倍时间

Alignment Newsletter 是每周出版的出版物,其最新内容与全球AI对准有关。在此处 找到所有Alignment Newsletter 资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 强调 人工智能和效率 (Danny Hernandez 等人)(由Flo总结):考虑到指数增长(AN#7)在用于机器学习的最新结果的计算中,人们可能会认为算法的进步很小。本文为反对该假设提供了有力的证据。通过跟踪实现特定性能基准所需的计算量,我们可以大致衡量算法的进度。这样做会使 ImageNet 的效率提高大约 16 个月(相当于相同性能只需要初始计算的一半的时间)的两倍(比摩尔定律更快)。诸如翻译以及下围棋和玩 Dota 2 之类的其他任务在短时间内显示出更快的翻倍时间。与提高解决已可行任务的效率相比,使任务首次可行可以说在算法上有更多进步,实际进度可能比这些数字所暗示的还要快。但是,数据点的数量非常有限,目前尚不清楚这些趋势是否会持续以及它们是否会推广到其他领域。仍然,作者推测对于获得大量投资并且在性能上获得实质性收益的任务,可以观察到类似的趋势。 将这些结果与随时间增加的可用计算相结合,作者估计,相对于2012年,可用于大型AI实验的有效训练计算资源在 2018 年增加了 750万倍(!)。 专注于效率而不是顶级性能,可让计算量有限的参与者做出贡献。此外,迅速达到特定基准的模型似乎是扩大规模的强大候选者。这样,更有效的算法可以充当进一步发展的催化剂。有一个公共git存储库,可以更好地跟踪算法效率。 > Flo的观点: 尽管以我确实不会将其标记为算法进步的方式(例如,通过使研究人员尝试更多不同的超参数),确实可以提高计算效率,但聚合总数似乎令人惊讶地高。这表明我要么没有正确地了解这些天AI能够解决哪些问题,要么低估了解决这些问题的难度。观察深度强化学习的样本效率是否有类似的改进将是非常有趣的,因为我希望在缺乏用于现实世界决策的精确模拟器的情况下,这将成为代理型人工智能应用的主要瓶颈。 技术性人工智能对齐 健壮性 BERT 真的很健壮吗?自然语言攻击文本分类和蕴含的强大基准 (Di Jin,Zhijing Jin 等)(由 Asya 总结):本文介绍了 TextFooler,这是一种仅通过黑盒访问模型即可为自然语言任务生成对抗性文本的算法。TextFooler 尝试生成与原始输入句子在语法和语义上相似但产生错误标签的句子。它通过识别原始句子中的一小部分最重要的单词,为这些单词生成候选同义词,然后通过测试哪些同义词导致模型错误预测或报告最低置信度得分,来逐步替换句子中的重要单词。 TextFooler 已在三种最新的 NLP 模型(WordCNN,WordLSTM 和 BERT)上进行了测试,所有模型都经过训练,其测试精度约为 80-90%。在各种文本分类数据集上,TextFooler 会将准确率降低到〜15%以下,只有不到 20% 的单词受到干扰。评估生成的句子的人说,它们在语法上与原始句子大致相同,在大约 90% 的情况下与原始句子具有相同的标签,并且与原始句子的相似度得分(以 0 到 1 表示)为 0.9。本文发现,通常,具有较高原始精度的模型具有较高的攻击后准确性。 作者使用 TextFooler 生成的数据从头开始重新训练 … Continue reading 第 99 期对齐周报 算法效率的增倍时间