齐智通讯 第 173 期 来自DeepMind的语言模型

齐智通讯 第 173 期 来自DeepMind的语言模型 来自DeepMind的语言模型结果 Recent language model results from DeepMind (July 20, 2022) 齐智通讯是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有齐智通讯资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 请注意,尽管我在 DeepMind 工作,此齐智通讯仅代表我的个人观点,而不是我雇主的观点。 强调 技术性人工智能对齐 问题 领域建设 人工智能的其他进展 强化学习 深度学习 消息 强调 Scaling Language Models: Methods, Analysis & Insights from Training Gopher (Jack W. Rae et al)(由 Rohin 总结):本文详细介绍了 Gopher 系列大型语言模型 (LLM) 的训练,其中最大的一个名为 Gopher并且有2800亿个参数。算法细节与GPT 系列(AN #102 )非常相似:一种针对下一个单词预测进行训练的 Transformer 架构。这些模型在新的数据分布上进行训练,该分布仍然由来自互联网的文本组成,但比例不同(例如,书籍数据占 … Continue reading 齐智通讯 第 173 期 来自DeepMind的语言模型

AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。

AN #68 影响的可获得效用理论

该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?”

AN #67 创建在其中研究内部对齐故障的环境

这篇文章提出了一个具体的环境,我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫,其中包含钥匙和箱子。真正的目的是打开箱子,但是打开箱子需要你已经有了一把钥匙(并用完了钥匙)。在训练过程中,钥匙要比箱子少得多,因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它,它会绕过地捡起钥匙,同时可能忽略箱子,这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”,因为祖先环境中的食物稀缺,即使现在食物很丰富。

AN #66 将健壮性分解为能力健壮性和对齐健壮性

通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑 mesa 优化 (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。

AN #65 通过观看人类‘玩游戏’学习有用的技能

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。

AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

Asya 的观点:我对作为正则化工具的影响和作为安全协议的影响感到非常兴奋。我觉得在运行时刻受到影响限制的 AI(影响限制条件)不太可能与其他没有影响力的 AI竞争(这将在后文中讨论)。我发现这样一种论点,即影响对于取消混淆的强制性尤其有用。

Rohin 的观点:在我看来,安全协议参数是针对训练时的有限动作,而影响限制因素是针对测试时的有限动作。我真的不知道正则化器应该与这两种情况有什么不同 —— 也许是因为它是 AI 专门优化的效用函数分布上的正则化器?这仍然令人困惑,我希望影响限制器的情况也可以改变效用函数。像 Asya 一样,我也担心竞争力:请参阅 下面有关可逆变化的文章  。

AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型?

什么地方出了错?问题是我们评估机器智能的方式,没有考虑到机器对我们有用的事实。HC 提出:  机器在可以预期它们的动作可以实现 我们的 目标这个意义上是 有益。当然,现在,我们仍然不知道我们的目标是什么。但这一定义,而不是我们的人工智能系统优化确定的,错误的目标,他们将 成为不确定的目标。HC 通过提出人工智能系统设计的三项原则对此进行了扩展,我将在此处完整引用:

1.  机器的唯一目的是最大程度地实现人们的偏好。

2.  机器最初不确定这些偏好是什么。

3.  关于人类偏好的信息的最终来源是人类行为。

AN #70 帮助仍在学习自己的偏好的人类的智能体

关于人类最佳行为的标准逆强化学习假设似乎不切实际;我认为,本文提供了一个没有此假设的有见地的初始步骤,并以干净而引人注目的方式对问题的非最优版本进行了建模。我认为值得注意的是,这个问题对参与人的学习模型非常敏感,并且我同意该论文,这表明我们应该努力研究实际的人类学习策略。我不确定如何考虑将这些见解推广到其他逆强化学习案例。

AN #59 对人工智能风险的争论是如何随着时间而改变的

对于AI风险争论的转移 (Tom Sittler)由早期参数为AI安全焦点上存在风险的原因: 有着在AI能力上的尖锐的不连续跳跃的对齐失败。为了争论一个危险的转折,需要不连续性假设,例如:没有不连续性,我们可能会看到能力较弱的 AI 系统无法隐藏他们的错误对齐目标,或者试图欺骗我们而没有成功。同样,为了使 AI 系统获得决定性的战略优势,它需要比已经存在的所有其他 AI 系统更强大,这需要某种不连续性。