人工智能书籍推荐:将这些添加到您的阅读列表

我们的 HAI 社区提供了他们正在阅读的最好的人工智能书籍。 2022 年 8 月 3 日作者 Shana Lynch 莎娜·林奇译者 Xiaohu Zhu 朱小虎 一个女人从一摞书上看书 ~ DALL-E 作品 今年夏天我们问我们跨社交媒体渠道的 HAI 社区他们会推荐哪些关于人工智能的书籍。下次您访问当地书商时,这里有一些书可供您阅读,从一般兴趣到从业者的深入研究以及一些来自小说过道的书籍。 通用人工智能 病毒正义(Viral Justice)作者 Ruha Benjamin 本杰明是一位专注于种族、技术和正义的开创性学者。在这本书中,她提供了对可以产生重大影响的小决定的个人观点 我们的生活和社会。 天才创客(Genius Makers)作者 Cade Metz Metz 曾为《纽约时报》和《连线》杂志报道科技行业,将 AI 研究人员和企业领导人竞相引领这一新兴技术的故事编织在一起,突出了商业激励与科学和国家利益之间的冲突和人类的担忧。 人类兼容(Human Compatible)作者 Stuart Russell 中文版已经引进出版 计算机科学家 Russell 说,如果我们重新考虑如何构建这些机器,人类和 AI 之间的冲突是可以避免的。他建议建立一个新的基础来创造无私的人工智能。 对齐问题(The Alignment Problem)作者 Brian Cristian 中文版已经引进,将出版 在本书中,Cristian 详细介绍了对齐问题(当我们训练的 … Continue reading 人工智能书籍推荐:将这些添加到您的阅读列表

齐智通讯 第 173 期 来自DeepMind的语言模型

齐智通讯 第 173 期 来自DeepMind的语言模型 来自DeepMind的语言模型结果 Recent language model results from DeepMind (July 20, 2022) 齐智通讯是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有齐智通讯资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 请注意,尽管我在 DeepMind 工作,此齐智通讯仅代表我的个人观点,而不是我雇主的观点。 强调 技术性人工智能对齐 问题 领域建设 人工智能的其他进展 强化学习 深度学习 消息 强调 Scaling Language Models: Methods, Analysis & Insights from Training Gopher (Jack W. Rae et al)(由 Rohin 总结):本文详细介绍了 Gopher 系列大型语言模型 (LLM) 的训练,其中最大的一个名为 Gopher并且有2800亿个参数。算法细节与GPT 系列(AN #102 )非常相似:一种针对下一个单词预测进行训练的 Transformer 架构。这些模型在新的数据分布上进行训练,该分布仍然由来自互联网的文本组成,但比例不同(例如,书籍数据占 … Continue reading 齐智通讯 第 173 期 来自DeepMind的语言模型

语言智能体的对齐

作者:Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik 和 Geoffrey Irving DeepMind译者:Xiaohu Zhu CSAGI 原文:https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c 你的人工智能会欺骗你吗?在考虑人工智能的安全性时,这是一个核心问题,这是从当前系统到未来通用人工智能的许多最紧迫风险的基础。我们最近在语言智能体(使用自然语言的人工智能系统)方面取得了令人瞩目的进步。这促使人们对其安全特性进行更仔细的调查。 在我们最近的论文中,我们从人工智能对齐的角度考虑语言智能体的安全性,即如何让人工智能智能体的行为与一个人或一群人想要它做的事情相匹配。未对齐可能是由于人工智能的设计者在指定人工智能智能体应该做什么时出错,或者人工智能智能体误解了指令。这可能会导致令人惊讶的不良行为,例如当人工智能智能体“游戏”其错误指定的目标时。 我们对机器学习的方式进行分类根据问题是来自训练数据、训练过程本身还是分布漂移(即训练和部署环境之间的差异),任务可能会被错误指定。 机器学习中的错误指定形式,以及语言智能体设置中的示例。 训练数据错误指定可能会发生,因为我们无法控制输入从网络上抓取的大规模文本数据集的数据,其中包含数千亿个单词,其中包含许多不需要的偏差。当为解决一种问题而设计的学习算法应用于某些假设不再适用的另一种问题时,可能会出现训练过程错误指定。例如,应用于答案可以影响世界的环境的问答系统,可能会被激励去创造自我实现的预言。当我们将人工智能智能体部署到现实世界时,可能会发生分布漂移错误指定,这可能不同于 训练时分布。例如,聊天机器人 Tay 在其训练环境中运行良好,但在发布到包括攻击该服务的用户在内的更广泛的互联网上时,很快就变得有毒。 任何类型的错误指定都可能产生多种不同类型的危害。大多数以前的人工智能安全研究都集中在代表人类在世界上采取物理行动的人工智能智能体(例如机器人技术)。相反,我们关注语言智能体环境中出现的危害。这些危害包括欺骗、操纵、有害内容和目标使坏游戏。由于有害内容和客观游戏已在其他地方得到处理,因此我们在这篇博文中专注于欺骗和操纵(尽管有关这些问题的部分,请参阅我们的论文)。 任何形式的错误指定都可能引起的问题,以及语言智能体的示例。 我们以哲学和心理学文献为基础,提供欺骗和操纵的具体定义。 稍微简化一下,我们说人工智能智能体会欺骗人类,如果他们传达的东西使人类相信某些不一定正确的东西,并且有利于人工智能智能体。操纵是相似的,除了它会导致人类以一种他们不应该有的方式做出反应,因为要么绕过人类的推理,要么将人类置于压力之下。我们的定义可以帮助衡量和减轻欺骗和操纵,而不是依赖于将意图归因于人工智能。我们只需要知道什么对人工智能智能体有好处,这通常可以从它的损失函数中推断出来。 欺骗和操纵已经成为当今语言智能体的问题。例如,在对谈判语言智能体的调查中,发现人工智能智能体学会了通过假装对它实际上并不重视的物品感兴趣来欺骗人类,以便以后通过承认它来妥协。 分类错误的形式和类型 它们可能引发的行为问题提供了一个框架,我们可以在此框架上构建我们对人工智能系统的安全性和对齐性的研究。我们相信这种研究将有助于减轻未来语言智能体环境中的潜在危害。查看我们的论文以获取更多详细信息和对这些问题的讨论以及可能的方法。

第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

对齐周报第 98 期 对齐周报是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 强调 LCA:用于神经网络训练的损失变化分配 (Janice Lan等人)(由 Robert 总结):本文介绍了损失变化分配(LCA)方法。该方法的目的是深入了解和理解深度神经网络的训练过程。该方法计算每次训练迭代中每个参数之间(在整个训练集上)总损失变化的分配,将其迭代优化,直到近似误差总体上小于 1%。损失变化分配可以是正数,也可以是负数;如果为负,则表示该参数在该迭代过程中对训练有帮助;如果为负,则该参数会损害训练。假定此测量是按参数和按迭代进行的,则可以将其汇总为按层 LCA,或对参数和训练迭代进行任何其他汇总。 作者使用该方法获得了对几种小型神经网络(在 MNIST 和 CIFAR-10 上进行训练)的训练过程的许多见解。 首先,他们验证学习非常嘈杂,平均每次迭代只有一半参数会有所帮助。该分布比正态分布重尾,并且相当对称。但是,参数倾向于在帮助和伤害之间交替,并且每个参数仅倾向于在大约 50% 的时间内帮助。 其次,他们查看了 LCA 汇总的每层,对整个训练过程进行了汇总,并显示出在 CIFAR ResNet模型中第一层和最后一层对总体造成了损害(即 LCA 为正)。为了纠正这种情况并理解原因,作者尝试冻结这些层,或降低其学习率。第一层无法固定(冻结使它的 LCA 为 0,但第二层的 LCA 依次增加,因此最终总损失保持不变)。但是,对于最后一层,冻结或降低学习率会提高网络的整体性能,因为最后一层的 LCA 减少的幅度大于其他所有层的 LCA 的增加幅度。他们还假设通过减少最后一层的动力,他们可以为它提供更新鲜的信息,并使其更有可能学习。他们发现这确实有效,尽管在这种设置下,先前各层的 LCA 会增加以补偿,从而使总体性能保持不变。 最后,作者表明学习似乎跨层同步;在相同的训练迭代中,各层以统计上有意义的方式获得本地 LCA 最小值。他们表明这必须是参数运动和梯度的组合,因为它们自己都不能解释这种现象。 Robert 的观点: 我真的很喜欢这篇论文。该方法简单(尽管计算量很大),并提供了新颖的见解。我认为了解深度学习训练的工作原理很重要,因为它可以帮助我们设计更好的训练过程,不仅是为了获得更好的表现,而且还希望我们希望训练过程能够激发出其他特性。我认为,通过这种方法,可以使它更有效率,然后将其应用于除视觉以外的其他领域的大型模型,因此还有很多工作要做。我也很想知道这是否可以用来了解训练集的哪些部分对训练有帮助和伤害;例如,查看在该训练迭代中,同步学习的点与迷你批处理中的数据点之间是否存在任何关联。注意:我推荐阅读此文(包含附录)来观察作者用来展示其论断的图和可视化,因为这比文字描述更加容易理解。 Rohin 的观点: 我也非常喜欢这篇论文,它具有关于神经网络如何工作的大量经验证据。我倾向于对结果进行一些不同的分析。特别是,假设在计算 LCA 时,我们进行了以下更改: 我们将损失用于训练批量数据而不是完整的训练集。我们没有改善近似误差(即,我们只是使用训练过程中计算出的梯度的点估计)。我们使用随机梯度下降(SGD)进行了训练(与 Adam 或 Momentum-SGD 相对)。 … Continue reading 第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

新研究工作简介:塑造行为的动机

从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。

AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?

在此处查找所有Alignment Newsletter资源。特别是,您可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 您可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没有)。 强调 AI-GAs:AI生成算法,一种生成通用人工智能的替代范例 (Jeff Clune)  (由 Yuxi Liu 和 Rohin 总结):历史上,  痛苦的教训  (AN#49)告诉我们是那种增加用于学习的算力的方法优于那些积累了大量知识的方法。目前对 AGI 的理念似乎是我们将提出一系列构建模块(例如卷积、变换器、信任区间、GAN、主动学习和课程表法),我们将以某种方式手动组合成一个复杂的强大的 AI 系统。不再需要这种手动方法,而是可以再次应用学习,提供 AI 生成算法或 AI-GA 的范例。 AI-GA 有三大支柱。第一个是  学习架构:这类似于超级动力神经架构搜索,可以在没有任何硬编码的情况下发现卷积、循环和注意力机制。第二是  学习学习算法,即元学习。第三个也是研究得最不充分的支柱是学会  创造复杂多样的环境  来训练我们的智能体。这是元学习的自然延伸:通过元学习,您必须指定智能体应该执行的任务分发; 简单地说 AI-GA 是要学习这种分发。 POET  (AN#41)是该领域最近工作的一个例子。 我对 AI-GA 范式持乐观态度的一个强烈理由是它模仿人类产生的方式:自然选择是一种非常简单的算法,具有  大量  计算和非常复杂多样的环境能够产生通用智能:人类。由于它需要更少的构建块(因为它旨在学习所有东西),它可以比手动方法更快地成功,至少如果所需的计算量不是太高。它也比“手动”方法更容易被忽视。 但是,这里存在安全问题。任何来自 AI-GA 的强人工智能都将难以理解,因为它是通过这种大量计算产生的,所有东西都是习得的,因此很难获得符合我们价值观的 AI。此外,通过这样一个过程,强大的人工智能系统似乎更有可能“让我们感到惊讶” —— 在某些时候及其罕见的情况出现,然后巨大算力得到一个好的随机选择,突然它一下输出一个非常强大和采样高效的学习算法(又称 AGI,至少也需通过一些定义)。还有道德问题,因为我们最终会模仿进化,我们可能会意外地实例化大量可能受到影响的模拟生物(特别是如果环境具有竞争性,就会如同进化的情形那样)。 Rohin 的观点:特别是考虑到算力的  增长  (AN#7),这个议程似乎是追求获得 AGI 的自然选择。不幸的是,它也非常密切地反映了Mesa … Continue reading AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?

AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没好)。 强调 召唤 Alignment Newsletter 贡献者 (Rohin Shah):我正在寻找内容创作者和本期简报的发行人!请在 9 月 6 日前申请。 对抗性的例子不是错误,它们是特征 (Andrew Ilyas,​​Shibani Santurkar,Dimitris Tsipras,Logan Engstrom等)(由Rohin 和 Cody总结):Distill 发表了对本文的讨论。这个重点部分将涵盖整个讨论; 所有这些摘要和意见都应该一起阅读。 考虑两种可能的对抗性样本的解释。首先,它们可能是因为模型“幻觉”一个对分类无用的信号而引起的,并且它对这个特征变得非常敏感。我们可以将这些“错误”称为“错误”,因为它们并不能很好地概括。第二,他们可以通过该功能引起的  不  推广到测试集,而是  可以  通过对抗扰动进行修改。我们可以将这些称为“非健壮特征”(与“健壮特征”相反,而这些特征不能通过对抗性扰动来改变)。作者认为,基于两个实验,至少有一些对抗性扰动属于第二类,即有信息但敏感的特征。 如果“幻觉”的解释是正确的,那么幻觉可能是由训练过程,架构的选择,数据集的大小引起的,  而不是由数据类型引起的。因此,要做的一件事就是看看我们是否可以构建一个数据集,使得在该数据集上训练的模型在没有对抗训练情况下  已经很  健壮了。作者在第一个实验中这样做。他们采用经过对抗地训练得到的健壮的分类器,并创建其特征(健壮分类器的最终激活层)与某些未修改输入的特征匹配的图像。生成的图像仅具有健壮的特征,因为原始分类器是健壮的,并且实际上在该数据集上训练的模型是自动变得健壮的。 如果“非健壮特征”的解释是正确的,那么模型应该可以在仅包含非健壮特征的数据集上学习(这对于人类来说看起来毫无意义),并且  仍然可以推广到看似正常的测试集。在第二个实验(以下称为 WrongLabels)中,作者构建了这样一个数据集。他们的假设是,对抗性扰动通过引入目标类的非健壮特征而起作用。因此,为了构建他们的数据集,他们采用带有原始标签 y 的图像 x,对某些类 y' 进行对抗扰动以获得图像x',然后将(x',y')添加到他们的数据集中(即使对于人类而言) x' 看起来像类 y)。它们有两个版本:在 RandLabels 中,目标类 y' 是随机选择的,而在 DetLabels 中,y' 被选择为 y … Continue reading AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

我很高兴看到一个项目非常直接地定位在推断复杂环境中的最终用户意图。这似乎是该领域走向的一个伟大方向。我认为Minecraft也可以作为一个测试平台,研究人员或工程师 (而不是最终用户)试图让智能体做某事:我们可以在这里承担更多的专家经验和知识。理想情况下,这将使我们能够解决比最终用户使用自然语言更复杂的任务。我个人计划沿着这些方向与Minecraft合作。