我们的 HAI 社区提供了他们正在阅读的最好的人工智能书籍。 2022 年 8 月 3 日作者 Shana Lynch 莎娜·林奇译者 Xiaohu Zhu 朱小虎 一个女人从一摞书上看书 ~ DALL-E 作品 今年夏天我们问我们跨社交媒体渠道的 HAI 社区他们会推荐哪些关于人工智能的书籍。下次您访问当地书商时,这里有一些书可供您阅读,从一般兴趣到从业者的深入研究以及一些来自小说过道的书籍。 通用人工智能 病毒正义(Viral Justice)作者 Ruha Benjamin 本杰明是一位专注于种族、技术和正义的开创性学者。在这本书中,她提供了对可以产生重大影响的小决定的个人观点 我们的生活和社会。 天才创客(Genius Makers)作者 Cade Metz Metz 曾为《纽约时报》和《连线》杂志报道科技行业,将 AI 研究人员和企业领导人竞相引领这一新兴技术的故事编织在一起,突出了商业激励与科学和国家利益之间的冲突和人类的担忧。 人类兼容(Human Compatible)作者 Stuart Russell 中文版已经引进出版 计算机科学家 Russell 说,如果我们重新考虑如何构建这些机器,人类和 AI 之间的冲突是可以避免的。他建议建立一个新的基础来创造无私的人工智能。 对齐问题(The Alignment Problem)作者 Brian Cristian 中文版已经引进,将出版 在本书中,Cristian 详细介绍了对齐问题(当我们训练的 … Continue reading 人工智能书籍推荐:将这些添加到您的阅读列表
语言智能体的对齐
作者:Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik 和 Geoffrey Irving DeepMind译者:Xiaohu Zhu CSAGI 原文:https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c 你的人工智能会欺骗你吗?在考虑人工智能的安全性时,这是一个核心问题,这是从当前系统到未来通用人工智能的许多最紧迫风险的基础。我们最近在语言智能体(使用自然语言的人工智能系统)方面取得了令人瞩目的进步。这促使人们对其安全特性进行更仔细的调查。 在我们最近的论文中,我们从人工智能对齐的角度考虑语言智能体的安全性,即如何让人工智能智能体的行为与一个人或一群人想要它做的事情相匹配。未对齐可能是由于人工智能的设计者在指定人工智能智能体应该做什么时出错,或者人工智能智能体误解了指令。这可能会导致令人惊讶的不良行为,例如当人工智能智能体“游戏”其错误指定的目标时。 我们对机器学习的方式进行分类根据问题是来自训练数据、训练过程本身还是分布漂移(即训练和部署环境之间的差异),任务可能会被错误指定。 机器学习中的错误指定形式,以及语言智能体设置中的示例。 训练数据错误指定可能会发生,因为我们无法控制输入从网络上抓取的大规模文本数据集的数据,其中包含数千亿个单词,其中包含许多不需要的偏差。当为解决一种问题而设计的学习算法应用于某些假设不再适用的另一种问题时,可能会出现训练过程错误指定。例如,应用于答案可以影响世界的环境的问答系统,可能会被激励去创造自我实现的预言。当我们将人工智能智能体部署到现实世界时,可能会发生分布漂移错误指定,这可能不同于 训练时分布。例如,聊天机器人 Tay 在其训练环境中运行良好,但在发布到包括攻击该服务的用户在内的更广泛的互联网上时,很快就变得有毒。 任何类型的错误指定都可能产生多种不同类型的危害。大多数以前的人工智能安全研究都集中在代表人类在世界上采取物理行动的人工智能智能体(例如机器人技术)。相反,我们关注语言智能体环境中出现的危害。这些危害包括欺骗、操纵、有害内容和目标使坏游戏。由于有害内容和客观游戏已在其他地方得到处理,因此我们在这篇博文中专注于欺骗和操纵(尽管有关这些问题的部分,请参阅我们的论文)。 任何形式的错误指定都可能引起的问题,以及语言智能体的示例。 我们以哲学和心理学文献为基础,提供欺骗和操纵的具体定义。 稍微简化一下,我们说人工智能智能体会欺骗人类,如果他们传达的东西使人类相信某些不一定正确的东西,并且有利于人工智能智能体。操纵是相似的,除了它会导致人类以一种他们不应该有的方式做出反应,因为要么绕过人类的推理,要么将人类置于压力之下。我们的定义可以帮助衡量和减轻欺骗和操纵,而不是依赖于将意图归因于人工智能。我们只需要知道什么对人工智能智能体有好处,这通常可以从它的损失函数中推断出来。 欺骗和操纵已经成为当今语言智能体的问题。例如,在对谈判语言智能体的调查中,发现人工智能智能体学会了通过假装对它实际上并不重视的物品感兴趣来欺骗人类,以便以后通过承认它来妥协。 分类错误的形式和类型 它们可能引发的行为问题提供了一个框架,我们可以在此框架上构建我们对人工智能系统的安全性和对齐性的研究。我们相信这种研究将有助于减轻未来语言智能体环境中的潜在危害。查看我们的论文以获取更多详细信息和对这些问题的讨论以及可能的方法。
REALab:概念化篡改问题
智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。我们将此称为篡改问题:当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?
AN #108 为何需要仔细检查人工智能风险的争论
中文版 对齐周报第 108 期 对齐周报是每周出版物,其最新内容与全球人工智能对齐有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 Ben Garfinkel 对人工智能风险的经典争论的仔细检查(Howie Lempel 和 Ben Garfinkel)(由 Asya 总结):在本播客中,Ben Garfinkel 考察了他对人工智能风险经典的争论持怀疑态度的几个原因(先前在此处进行了讨论(AN#45)) )。播客比此摘要具有更多的细节和细微差别。 Ben 认为,从历史上看,很难以一种可以预见的长期方式对变革性技术产生影响 —— 例如,很难看到我们可以在农业或工业化发展方面做些什么会影响到今天的世界。他认为,可以通过解决日益增加的政治动荡或锁定的可能性来获得长期影响的一些潜在途径,尽管他认为目前尚不清楚我们可以采取什么措施来影响锁定的结果,尤其是在遥远的情况下。 在对齐方面,Ben 聚焦于 Nick Bostrom 的《超级智能》(Superintelligence)中概述的标准论证集,因为它们具有广泛的影响力,而且充实。Ben 对这些论点有一些异议: 他认为不会突然跳升至功能极为强大和危险的人工智能系统,并且认为如果能力逐渐提高,我们将有更大的机会纠正出现的问题。 他认为,使人工智能系统具有能力和使人工智能系统具有正确的目标很可能并存。 他认为,仅仅因为有很多方法可以创建具有破坏性的系统,并不意味着创建该系统的工程过程很可能会被那些破坏性的系统所吸引;似乎我们不太可能偶然创建足以破坏人类的破坏性系统。 Ben 还花了一些时间讨论Mesa 优化(AN#58),这是关于人工智能风险的新论点。他在很大程度上认为,mesa 优化的理由尚未充分充实。他还认为,学习不正确的目标可能是由于系统不够复杂而无法正确表示目标的结果。经过足够的训练,我们实际上可能会收敛到我们想要的系统。 鉴于当前的争论状态,Ben 认为值得 EA 充实有关人工智能风险的新争论,但也认为在人工智能相关主题上没有相对优势的 EAer 不一定要转向人工智能。Ben 认为,我们在人工智能安全和治理上花费的资金比 Alec Baldwin 主演的 2017 年电影《老板宝贝》(Boss Baby)投入更少是一种道德上的愤怒。 Asya 的观点:该播客涵盖了现有论点的令人印象深刻的广度。许多推理类似于我从其他研究人员那里听到的(AN#94)。我非常高兴 Ben 和其他人花时间批评这些论点。除了向我们展示我们错在哪里,它还帮助我们引导到更合理的人工智能风险场景。 … Continue reading AN #108 为何需要仔细检查人工智能风险的争论
AN #107 目标导向的智能体的收敛工具性子目标
中文版 对齐周报第 107 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 基本的人工智能驱动力 (Stephen M. Omohundro)(由 Rohin 总结):2008 年的论文介绍了收敛的工具性子目标:除非谨慎避免,否则人工智能系统将“默认”具有这些子目标。对于本文而言,人工智能系统是“具有通过在世界范围内行动而试图实现的目标”的系统,即,它假定系统是目标导向的(AN#35)。 首先要论证一个足够强大的目标导向的人工智能系统将要自我提升,因为这可以帮助它在(可能很长的)未来更好地实现其目标。特别是,从效用函数由其目标决定的角度出发,它将希望最大化其期望效用,这将使其成为“理性的” 。(这样做的理由是 VNM 定理,以及支持贝叶斯主义和期望效用最大化的各种荷兰赌(Dutch book)论点。) 但是,并非所有修改都对人工智能系统有利。特别是,它将非常希望保留其实用效用函数,因为它决定了将来它将(尝试)完成的工作,并且从当前实用效用函数的角度来看,实用效用函数的任何更改将是一场灾难。同样,它将希望保护自己免受伤害,也就是说,它具有生存动机,因为如果死了就无法实现其目标。 最终的工具性子目标是获取资源并有效地使用资源以实现其目标,因为按照定义,资源几乎可用于多种目标,包括(可能是)人工智能系统的目标。 Rohin 的观点:在本期周报中,我经常提到收敛的工具性子目标,因此似乎我应该对其进行总结。我特别喜欢这篇论文,因为它在 12 年后保存得很好。即使我批评(AN#44)认为强大的人工智能系统必须是期望效用最大化器的想法,但我仍然发现自己同意本文,因为它假设了目标导向的智能体和那里的原因,而不是试图争论强大的人工智能系统必须以目标为导向。鉴于此假设,我同意此处得出的结论。 技术性人工智能对齐 MESA 优化 内部安全性,外部安全性以及构建安全高级人工智能的建议 (Lucas Perry 和 Evan Hubinger)(由 Rohin 总结):该播客涵盖了很多主题,特别关注高级机器学习系统中学习到的优化带来的风险(AN# 58),以及有关构建安全高级人工智能的11条建议的概述(AN#102)。 Rohin 的观点:我的摘要很详细,因为在本周报中之前已经强调了许多主题,但是如果你不熟悉它们,那么播客是学习它们的重要资源。 学习人类意图 利用本体感受从视频中模仿学习(Faraz Torabi 等人)(由 Zach 总结):从观察(IfO)到模仿学习的最新工作使智能体可以从不包含状态和动作信息的视觉演示中执行任务。在本文中,作者对利用本体感受信息,内部状态的知识来创建有效的 IfO 算法感兴趣。与通常仅使用观察向量的 GAIfO 相比,该算法仅允许将图像用于判别,但允许智能体使用内部状态来生成动作。他们在多个 MujoCo 域上测试了他们提出的技术,并表明它优于观察算法的其他模仿技术。 Zach 的观点:我认为很容易忘记观察不一定等同于状态表示。这篇文章很好地提醒了我,在 … Continue reading AN #107 目标导向的智能体的收敛工具性子目标
AN #101 为何我们需要严格度量和预测人工智能进展
中文版 对齐周报第 101 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 Danny Hernandez 在预测人工智能和人工智能驱动力方面的观点(Arden Koehler 和 Danny Hernandez)(由 Rohin 总结):该播客是对实践预测及度量人工智能及其重要性的一个不错的介绍. 我不会总结在播客中的所有内容,列出其中一部分观点. Danny 谈到了 AI and Compute (AN #7)和 AI and Efficiency(AN #99)里面他在 OpenAI 完成的工作. 前者展示了用于最大规模的实验的算力从 2012 年到 2018 年间提升了 300,000 倍,后者告诉我们在同一时间区间内算法已经能够以 25 倍少的算力达到类似性能(从 2012 年到 2019 年达到 44 倍). 一件我之前没有意识到的事是 25 倍或者 44 倍因子应被看作是一个松的下界:在其他领域中如语言建模,这个因子实际上更高. 但是更为重要的是,采用的这个方法论不能够给我们建模一个算法的效果来做一些之前我们不能做的事情(这个可以被解释成某些我们可以做大,但需要更多算力). 可能这个算法进展应该被看作是效率但 100 … Continue reading AN #101 为何我们需要严格度量和预测人工智能进展
AN #102 通过 GPT-3 的元学习和人工智能对齐的完全提议列表
中文版 对齐周报第 102 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 语言模型是少次学习器 (Tom B. Brown 等)(由 Rohin 总结):最大的 GPT-2 模型(AN#46)具有 15 亿个参数,自发布以来,人们已经训练了多达 17 种语言模型十亿个参数。本文报告了 GPT-3 的结果,其中最大的模型具有 1,750 亿个参数,比以前的最大语言模型增加了 10 倍。为了消除障碍,它在零次语言建模方面建立了新的技术水平(SOTA)(仅在 Penn Tree Bank 上进行评估,因为其他评估集偶然地是其训练集的一部分)。 本文的主要重点是分析 GPT-3 的少次学习功能。在短暂的学习中,经过最初的训练阶段之后,在测试时会为模型提供少量新任务的示例,然后必须为新输入执行该任务。通常使用元学习或调优来解决此类问题,例如,在测试时 MAML 对新示例采取了一些渐变步骤,以生成针对测试任务进行调优的模型。相比之下,GPT-3 的主要假设是语言是如此多样,以至于要在语言上做得很好就需要适应输入,因此学习的语言模型将已经是元学习器。这意味着他们可以使用他们关心的任务的示例简单地“填装”模型,并且模型可以了解应该执行的任务,然后很好地执行该任务 例如,考虑使用已经解释了含义的新组成单词生成句子的任务。在一个值得注意的示例中, GPT-3 的提示是: “whatpu”是坦桑尼亚产的一种小型毛茸茸的动物。使用单词 whatpu 的句子示例如下: 我们在非洲旅行,我们看到了这些非常可爱的 whatpus。 做一个“farduddle”意味着跳得很快。使用单词 farduddle 的句子的示例是: 给出此提示后,GPT-3 会为“farduddle”生成以下示例语句: 有一天,当我和我的妹妹玩耍时,她感到非常兴奋,开始做这些疯狂的 farduddle。 本文对存在基准的多个下游任务进行了测试(例如,问题解答),并报告了所有这些任务的零射,单射和少射性能。在某些任务上,尽管没有使用基准测试的训练集进行微调,但快照版本设置了新的 SOTA … Continue reading AN #102 通过 GPT-3 的元学习和人工智能对齐的完全提议列表
AN #103 ARCHES:存在性安全的议程和组合自然语言的深度强化学习
中文版 对齐周报第 103 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 关于人类存在性安全的人工智能研究注意事项 (Andrew Critch 等人)(由 Rohin 总结):CHAI 之外的研究议程直接处理长期主义者关注的问题:如何预防与人工智能相关的存在性灾难。这与“可证明有益”的概念明显不同:可证明有益的一个关键挑战是定义我们甚至所说的“有益”。相比之下,有一些预防人工智能引起的人类灭绝的途径并不需要了解“有益的”:最易见的是,我们可以进行协调以决不构建可能导致人类灭绝的人工智能系统。 由于重点放在人工智能系统的影响上,因此作者需要为此类人工智能系统重新命名。他们将强大的人工智能系统定义为不受人类控制的人工智能系统,并有可能以至少与整个人类一样具有影响力的方式改变世界。这样的人工智能系统不必是超级智能的,甚至不需要通用人工智能。它可能在狭窄的领域中具有强大的功能,例如技术自主性、复制速度或能够实现优势的社交敏锐度。 根据定义,强大的人工智能系统能够彻底改变世界。但是,人类持续生存有许多条件,而世界上的大多数变革都不会保留这些条件。(例如,考虑地球的温度或大气的成分。)因此,人类灭绝是部署强大的人工智能系统的默认结果,只有在该系统旨在保护人类存在的前提下,才可以避免灭绝人类。相对于其动作的重要性而言,精度很高。他们将未对齐的强大的人工智能系统(MPAI)定义为部署会导致人类灭绝的系统,因此主要目标是避免 MPAI 的部署。 作者将 MPAI 的部署风险分为五个子类别,具体取决于开发人员的信念、行为和目标。人工智能开发人员可能无法预测优势,无法预测未对齐,无法与其他团队协调部署形成 MPAI 的系统,偶然(单方面)部署 MPAI 或有意(单方面)部署 MPAI。还有一些危险的社会条件可能会增加风险的可能性,例如不安全的种族发展、人类的经济转移、人类的软弱无力以及完全避免谈论存在性风险。 从风险转到解决方案,作者根据他们所考虑的设置沿三个轴对研究方向进行了分类。首先,有一个或多个人;第二,有一个或多个人工智能系统;第三,它是否帮助人们理解,指导或控制人工智能系统。因此,多/单指令将涉及多个人指令一个人工智能系统。尽管我们最终将需要多重/多重场景,但是前面的情况是较容易解决的问题,从中我们可以获取有助于解决一般多重/多重情况的见解。同样,理解可以帮助指导,两者都可以帮助控制。 然后作者继续列出 29 个不同的研究方向,在此不再赘述。 Rohin 的观点:我喜欢本文的摘要和介绍部分,因为它们直接说明我们想要和关心的内容。我也非常赞成可证明有益和降低存在性风险与单/多分析之间的区别。 应用于通用智能体的人为脆弱性论点有些棘手。一种解释是,“硬度”源于这样一个事实,即您需要一堆“位”的知识/控制权才能使人保持周围。但是,似乎一般智能的AI应该可以轻松地使人类“愿意”,因此人工智能中已经存在这些东西。(作为类比:我们对环境进行了很大的改变,但如果愿意的话,我们可以轻松地保护鹿的栖息地。)因此,这实际上是一个问题,即你期望人工智能系统是从哪个“分布”中取样的:如果你认为我们将构建尝试做人类想要的人工智能系统,那么我们可能还不错,但是如果你认为会有多个人工智能系统可以各自满足用户的需求, 研究方向非常详细,尽管有些建议对我来说似乎并不是特别有用,但总的来说,我对这份清单感到满意。(正如论文本身所指出的,有用和不有用取决于你的人工智能发展模型。) 通过从文本中进行转移学习来进行深度强化学习的人类教学 (Felix Hill 等人)(由 Nicholas 总结):本文提出了“从文本转移到人的模拟指令”(SHIFTT)方法,用于训练强化学习智能体以自然语言接收来自人类的命令。解决此问题的一种方法是训练强化学习智能体基于模板响应命令。然而,这对于人类如何改变命令表达方式的微小变化并不健壮。相反,在 SHIFTT 中,你从诸如 BERT 之类的经过预先训练的语言模型开始,并首先通过该语言模型提供模板化命令。然后将其与愿景输入相结合以制定策略。人工命令随后通过相同的语言模型进行反馈,他们发现该模型即使在结构上有所不同,也可以零人工迁移到人工命令。 Nicholas 的观点:自然语言是一种非常灵活,直观的向人工智能传达指令的方式。在某些方面,这将对齐问题从强化学习智能体转移到了受监督的语言模型,后者仅需要学习如何正确解释人类语音背后的含义。这种方法的一个优势是,语言模型是经过单独训练的,因此可以在用于训练强化学习智能体之前对其进行安全性标准的测试和验证。它可能比诸如奖励模型等替代方案更具竞争力,而替代方案则需要为每个任务训练新的奖励模型。 但是,我确实看到了这种方法的一些缺点。首先是人类并不擅长以自然语言表达其价值观(例如,迈达斯国王希望他所接触的一切变成黄金),自然语言可能没有足够的信息来传达复杂的偏好。即使人类给出了准确正确的命令,语言模型也需要正确验证这些命令。由于当前的语言模型难以解释并且包含许多有害的偏见,因此这可能很困难。 参与中的基础语言 (Corey Lynch等人)(由Robert总结):本文提出了一种在机器人技术中学习遵循自然语言人类指导的新方法。它建立在与从游戏中学习潜伏计划(AN#65)类似的思想的基础上,它使用了无监督的“参与”数据(人类在机器人上玩游戏的轨迹,自身并没有目标)。 本文结合了一些想法,以使训练策略可以遵循自然语言的说明,并且仅提供有限的人工注释。 在 Hindsight … Continue reading AN #103 ARCHES:存在性安全的议程和组合自然语言的深度强化学习
AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验
中文版 对齐周报第 104 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 不可访问的信息 (Paul Christiano)(由 Rohin 总结):思考人工智能对齐问题的一种方法是,我们只知道如何在我们可访问的信息上训练模型,但是我们希望模型利用不可访问的信息。 如果可以直接检查信息,或者在接受其他一些可访问信息训练后,ML模型是否可以成功迁移以提供信息,则可以访问信息。(后者的一个例子是,如果我们训练了一个系统来预测一天中发生的事情,并且成功地将其转换为预测一个月中发生的事情。)否则,信息将无法访问:例如,“Alice 在想什么” (至少目前)无法访问,而“爱丽丝会说什么”则可以访问。该帖子还有其他几个示例。 请注意,虽然 ML 模型可能无法直接准确地说出 Alice 的想法,但是如果我们训练它预测 Alice 的想法,它可能会具有 Alice 的想法的内部模型,因为这对于预测 Alice 的想法很有用。但是,由于无法从模型中提取此信息,因此无法访问。尽管我们可以训练模型以输出“Alice 在想什么”,但由于我们没有基本的事实答案,因此必须训练“对 Alice 在想什么的一致且合理的答案”。这可能会激励制定出我们最相信的错误策略,而不是报道事实。 风险论据如下:我们关心无法访问的信息(例如,我们关心人们实际体验的内容,而不是人们所说的体验的内容),但不能轻易使人工智能系统对其进行优化。但是,人工智能系统将能够推断和使用无法访问的信息,并且胜过那些无法访问的信息。人工智能系统将能够针对至少某些目标使用此类不可访问的信息进行规划。然后,使用无法访问的信息进行规划的人工智能系统最终可以控制大多数资源。关键语录:“不利于我们的关键不对称因素是,要想使繁荣发展,似乎需要获取特定数量的物品,而危险则需要具备访问任何物品的能力。” 然后,该帖子继续列出该问题的一些可能的攻击角度。迭代扩增可以被认为是解决我们训练的智能体与我们自己之间的速度、规模、经验、算法复杂性等方面的差距,这可以限制我们的智能体所能获得的,我们无法获得的信息。但是,放大似乎最终会遇到一些永远不会产生的不可访问的信息。结果,这可能是对齐的“核心”。 Rohin 的观点:我认为不可访问的信息这一概念很重要,但是很难推理。例如,我经常考虑通过近似“一个人长时间思考后会说些什么”来解决对齐问题;这实际上是一种主张,即在长时间反复进行时,人类的推理能力会很好地传递,并且“人们会说些什么”至少在某种程度上是可访问的。无论如何,人工智能系统似乎有可能继承我认为归因于人类推理的可转让性相同的属性,在这种情况下,风险论点适用,主要是因为人工智能系统可能将其推理应用于与我们关注的目标不同的目标,这使我们回到意图的一致性(AN#33) 公式。 此回应将这篇文章视为反对黑匣子优化的相当笼统的论点,在该论点中,我们仅查看输入输出行为,因为那样我们就无法使用不可访问的信息。它建议我们需要了解AI系统的工作原理,而不是依靠搜索来避免这些问题。 冠状病毒大流行可能导致AI缓慢起飞的原因 (Victoria Krakovna)(由 Rohin 总结):COVID-19 大流行就是人类面临的巨大风险的一个例子。我们可以从人工智能对齐中学到什么经验?这篇文章认为,这种大流行是我们在缓慢起飞情况下可以预期的那种情况的一个例子,因为我们有机会从经验中学习,采取警告标志并及时就存在严重问题达成共识。但是,尽管我们可以从 SARS 等先前的流行病中学到东西,但我们未能概括 SARS 的教训。尽管在 2 月份出现了大流行的警告迹象,但许多国家还是浪费了一个月的时间,原本本该可以储存 PPE 和测试能力的库存。我们对 COVID-19 是一个问题没有达成共识,直到 3 月底,文章都认为它并不比流感更糟。 … Continue reading AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验
AN #100 智能体在执行时学习奖励函数 可能会出问题
中文版 对齐周报第 100 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 在线学习奖励函数的陷阱 (Stuart Armstrong 等人)(由 Rohin 总结):学习要尝试优化的指标可能很危险:如果未正确设置,可能会激励智能体以在度量学习中“朝特定方向更新”,以便将来进行优化(先前在朝着交互式逆向强化学习中提出的观点)。本文分析了当智能体同时学习奖励函数时可能出现的问题,并对该奖励函数进行优化。 智能体可能有动机来“操纵”奖励学习过程,从而找到易于优化的奖励函数。例如,假设有一个学生 Sandra,她必须从 Trisha 老师那里弄清楚项目的截止日期和评估标准。Sandra 希望如果她问 Trisha 截止日期是什么时候,她会说截止日期是本周晚些时候。因此,Sandra 可能会巧妙地问:“该项目是下周还是再下周?”,Trisha 可能会在“下周”做出回应。这样,Sandra 可以操纵截止日期学习过程,以便获得更有利的截止日期。 更糟糕的是,在这种情况下,严格控制学习过程可能会破坏你正在考虑的每个奖励函数的值。例如,让我们假设,如果无法操纵 Trisha,那么 Sandra 的最佳策略将是立即开始该项目,而不管实际的截止日期是什么时候。但是,鉴于 Trisha 可以被操纵,Sandra 今天将花费其操纵 Trisha 设置一个较晚的截止日期 —— 从任何固定截止日期的角度来看,该行动显然都不理想。该论文将其描述为确定的奖励牺牲。 为避免这种情况,我们需要严格的学习过程,即始终期望的最终学习奖励(截止日期)独立于智能体(Sandra 的)策略。这种不可固定性(unriggability)几乎等同于不可影响性(uninfluencability),在该属性中,我们必须能够在环境中放置一些背景变量,以便可以说学习过程是在“学习”这些变量。从技术上讲,不可固定的过程虽然通常是必需的,但也不一定是不可影响的(有关详细信息,请参见论文)。 但是,这些属性仅约束对最终奖励分布环境的期望:它不会阻止智能体以某种方式改组奖励函数以与合适的环境匹配。例如,在不知道哪些项目是容易或困难的情况下,Sandra 可以操纵 Trisha 来为容易的项目提供早期截止日期,并为困难的项目给出较晚的截止日期,从而保留早期和晚期截止日期的分布方式。这将满足不可固定性(并且可能还会影响不可影响性,具体取决于确切的形式化)。 作者在一个简单的 gridworld 示例中演示了这些问题。他们还指出,有一种简单的方法可以使任何学习过程都不受影响:选择一个特定的策略π,该策略收集有关奖励的信息,然后将新的学习过程定义为“如果执行 π,则原始学习过程已经说的话”。 阅读更多: 博客文章:学习和运用学习 Rohin 的观点: 我对本文的观点与本文的解释方式有所不同。考虑一个人工智能系统,我们在其中构建对奖励和更新规则的先验,然后将其付诸实践。在轨迹的末端,根据推断的奖励后验下的轨迹的期望奖励来奖励它。然后,激励人工智能系统选择易于使所得后验最大化的动作。 这不需要奖励函数是模棱两可的。它只要求更新规则不完美。例如,假设 Alice 有着喜欢苹果甚于香蕉的偏好,并且你使用更新规则“如果 Alice … Continue reading AN #100 智能体在执行时学习奖励函数 可能会出问题