齐智通讯 第 173 期 来自DeepMind的语言模型
来自DeepMind的语言模型结果
Recent language model results from DeepMind (July 20, 2022)
齐智通讯是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有齐智通讯资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 请注意,尽管我在 DeepMind 工作,此齐智通讯仅代表我的个人观点,而不是我雇主的观点。
强调
Scaling Language Models: Methods, Analysis & Insights from Training Gopher (Jack W. Rae et al)(由 Rohin 总结):本文详细介绍了 Gopher 系列大型语言模型 (LLM) 的训练,其中最大的一个名为 Gopher并且有2800亿个参数。算法细节与GPT 系列(AN #102 )非常相似:一种针对下一个单词预测进行训练的 Transformer 架构。这些模型在新的数据分布上进行训练,该分布仍然由来自互联网的文本组成,但比例不同(例如,书籍数据占 Gopher 训练数据的 27%,但仅占 GPT-3 训练数据的 16%)。
与其他 LLM 论文一样,对 Gopher 的各种任务进行了大量评估,我将在这里仅介绍其中的一些。一个标题数字是,Gopher 在 124 项评估任务中的 100 项中击败了当时的最先进技术 (SOTA)。
这篇论文(对我来说)最有趣的方面是整个 Gopher 系列模型都在相同数量的 token 上进行了训练,从而使我们能够研究在保存数据的同时扩大模型参数(从而训练计算)的效果持续的。在医学、科学、技术、社会科学和人文学科任务类别中可以看到规模的一些最大好处,而在数学、逻辑推理和常识类别中,规模没有太大影响甚至是负面影响。令人惊讶的是,我们看到TruthfulQA ( AN #165 ) 的性能随着规模的增加而提高,尽管 TruthfulQA 基准测试旨在显示随着规模的增加而表现出更差的性能。
我们可以通过适当的提示在对话设置中使用 Gopher。提示特别指示 Gopher 要“尊重、礼貌和包容”;事实证明,这对毒性有很大帮助。特别是,对于 vanilla Gopher 模型系列,在给定有毒用户声明的情况下,模型的规模越大,产生的有毒延续就越多;Dialogue-Prompted Gopher 模型不再发生这种情况,该模型显示在相同设置下随着规模的增加,毒性略有降低。作者推测,虽然增加的规模会导致模仿用户陈述风格的能力增加,但这可以通过增加对提示的解释能力来弥补。
作者探索的另一种选择是在 50 亿个对话 token 上微调 Gopher,以生成 Dialogue-Tuned Gopher。有趣的是,人类评估者对 Dialogue-Prompted Gopher 和 Dialogue-Tuned Gopher 漠不关心。
阅读更多: 博客文章:大规模语言建模:Gopher、伦理考虑和检索
Training Compute-Optimal Large Language Models (Jordan Hoffmann et al)(由 Rohin 总结):缩放定律的一种应用(AN #87)是在给定一些计算预算的情况下,计算出要训练多大的模型、多少数据。本文进行了比原始论文更系统的研究,发现现有模型明显过度训练。Chinchilla 是基于这种洞察力构建的新模型:它的参数比 Gopher 少 4 倍,但训练的数据却是 4 倍。尽管使用与 Gopher 相同数量的训练计算(以及更低的推理计算),Chinchilla 在各种指标上都优于 Gopher,从而验证了这些新的缩放定律。
您可以安全地跳到这一点上的意见 – 本摘要的其余部分是定量细节。
我们希望找到函数 N(C) 和 D(C),它们指定参数的最佳数量 N 和数据量 D 在给定一些计算预算 C 的情况下使用。我们假设这些缩放具有 C 的幂,即即,对于某些常数 a、b、k_N 和 k_D,N(C) = k_N C^a 和 D(C) = k_D C^b。请注意,由于总计算量随 N(因为每个前向/后向传递在 N 中是线性的)和 D(因为前向/后向传递的数量在 D 中是线性的)线性增加,所以我们需要 a + b = 1。(你可以更正式地看到这一点,注意我们有 C = k_C N(C) D(C) 来代替某个常数 k_C,然后代入 N(C) 和 D(C) 的定义。)
本文使用三种不同的方法来获得 a 和 b 的三个估计值。我最喜欢的方法是“isoFLOP 曲线”:
1.选择(N,D,C)的多种可能值,用这些值训练模型,并记录最终得到的损失。请注意,并非 (N, D, C) 的所有值都是可能的:给定任意两个值,确定第三个值。
- 绘制 isoFLOP 曲线:对于 C 的每个值,选择 N 或 D 作为剩余自变量,并对剩余点的损失拟合抛物线。该抛物线的最小值为您提供了每个特定 C 值的最佳 N 和 D 的估计值。
3.使用最优的(N,D,C)点来拟合N(C)和D(C)。
这种方法给出了 a = 0.49 的估计值;其他方法给出了 a = 0.5 和 a = 0.46 的估计值。如果我们采用漂亮的整数 a = b = 0.5,这表明您应该平等地扩大参数和数据。使用 10 倍的计算量,您应该用 3.2 倍的数据训练一个 3.2 倍大的模型。相比之下,原始比例定律论文( AN #87 ) 估计 a = 0.74 和 b = 0.26。如果计算量增加 10 倍,建议用 1.8 倍的数据训练一个 5.5 倍大的模型。
Rohin 的观点:思考这应该如何影响时间线是特别有趣的。如果您及时推断进度,更新似乎非常简单:本文表明,使用相同的计算预算,您可以显着提高能力,因此您的时间线应该会缩短(除非您期待比这更大的结果)。
对于生物锚定方法(AN #121),情况更为复杂。对于给定数量的参数,本文建议训练所需参数数量的模型将需要比以前预期的更多的计算。在生物锚框架(用于神经网络路径)中有一个特定的参数;如果您只更新该参数,它将延长模型输出的时间线。您将如何更新模型的其他部分不太清楚:例如,您是否应该减小您认为 TAI 所需的模型大小?用于设置该参数的推理会因该结果而发生很大变化,这一点并不明显,因此也许这不应该改变,你真的应该整体更新到更长的时间线。
技术性人工智能对齐
问题
语言模型造成伤害的伦理和社会风险 (Laura Weidinger 等人)(由 Rohin 总结):本文详细讨论、分类和文献回顾了我们在当前大型语言模型中可以看到的各种风险。它不包括对齐风险;对于那些你想要语言智能体对齐(AN #144)的人,它有一些作者重叠。我将复制表 1 中作者的分类法:
1.歧视、排斥和毒性:这些风险来自 LM 准确反映自然语音,包括训练数据中存在的不公正、有毒和压迫倾向。
2.信息危害:这些风险来自 LM 预测的话语,这些话语构成了存在于训练数据中或可以从训练数据中推断出的私人或安全关键信息。
3.错误信息危害:这些风险源于 LM 将高概率分配给虚假、误导、无意义或质量差的信息。
4.恶意使用:这些风险源于人类故意使用 LM 造成伤害。
5.人机交互危害:这些风险来自 LM 应用程序,例如对话智能体,它们通过对话模式直接吸引用户。(例如,用户可能会将 LM 拟人化并因此过度信任它们。)
6.自动化、访问和环境危害:当 LM 被用于支持广泛使用的下游应用程序时,这些风险就会出现,这些应用程序不成比例地使某些群体而不是其他群体受益。
领域建设
如何从事技术性人工智能对齐工作 (Charlie Rogers-Smith)(由 Rohin 总结):这篇文章就如何从事人工智能对齐工作提供了很多非常详细的建议。如果你处于这样的位置,我强烈推荐它;我以前会推荐我的常见问题解答(AN #148),但我认为这要详细得多(同时提供大致相似的建议)。
人工智能的其他进展
强化学习
在没有人类数据的情况下学习健壮的实时文化传播 (Cultural General Intelligence Team 等人)(由 Rohin 总结):让我们考虑一个有障碍物和崎岖地形的 3D RL 环境,其中智能体以特定顺序访问彩色球体而获得奖励(智能体最初并不知道)。即使在智能体完全学会了如何在环境中导航(其本身并不重要)之后,它仍然必须学习尝试球体的各种排序。换句话说,它必须在每一集中解决一个困难的探索问题。
人类如何解决这些问题?很多时候,我们只是简单地向其他已经知道该怎么做的人学习,也就是我们依靠文化传播。本文研究了如何让智能体人通过文化传播进行学习。我们假设有一个专家机器人以正确的顺序访问球体。鉴于此,本文将MEDAL-ADR确定为文化传播的必要成分:
1. (M)emory:智能体需要内存来保留当前未观察到的信息。
2. (E)xpert (D)ropout:需要有一些训练集,其中专家只在部分集会出现。如果专家一直在场,那么就没有真正学习的动力:您可以永远跟随专家。
3. (A)ttention (L)oss:事实证明,vanilla RL 本身不足以让智能体学习跟随专家。需要一个辅助任务来预测世界上其他智能体的相对位置,这鼓励智能体学习关于专家机器人位置的表示,这使得 RL 更容易学习跟随专家。
这些成分本身已经足以训练一个通过文化传播学习的智能体。但是,如果您随后将智能体置于新环境中,它的性能就不会很好。为了让智能体能够很好地泛化到以前看不见的测试环境,我们还需要:
4. (A)utomatic (D)omain (R)andomization:训练环境是程序生成的,参数在每一集期间是随机的。有一个课程可以自动增加环境的难度,与智能体的能力同步。
有了所有这些成分,生成的智能体甚至可以在文化上向人类玩家学习,尽管只在训练期间遇到机器人。
Rohin 的观点:我喜欢这篇论文的重点是确定文化传播的成分,以及许多消融和实验来了解正在发生的事情,其中许多我没有在这里总结。例如,您可能对没有 ADR 的 MEDAL 学习的四个阶段(随机行为、专家跟随、文化学习和单独学习)感兴趣,或者他们使用的文化传播指标,或者他们确定的检测到的“社会神经元”专家机器人是否在场。
深度学习
通过从数万亿个标记中检索来改进语言模型 (Sebastian Borgeaud 等人)(由 Rohin 总结):我们知道大型语言模型会记住大量的训练数据,尤其是重复多次的数据。这似乎是一种浪费;我们感兴趣的是让模型使用它们的参数来实现“智能”计算,而不是反刍已经写好的文本。一个自然的想法是让模型能够自动搜索以前编写的文本,然后他们可以选择复制这些文本:这消除了他们记忆大量训练数据的动力。
实现这个想法的关键是获取一个大型文本数据集(约数万亿个标记),将其分块为序列,计算这些序列的语言模型表示,并将它们存储在允许 O(log N) 时间最近的数据库中- 邻居访问。然后,每次我们通过我们正在训练的模型进行前向传递时,我们首先在数据库中查询 K 个最近邻(直观地说,是 K 个最相关的文本块),并让前向传递访问那些表示文本块和紧随其后的块。这是不可微分的——从梯度下降的角度来看,它“看起来”总是有一些有用的额外文档,这些文档通常包含与预测下一个标记相关的信息,因此梯度下降会推动模型使用这些额外的文档。
附带的好处是,一旦您拥有支持快速最近邻查询的文本表示数据库,您还可以使用它来解决测试集泄漏问题。对于您正在评估的任何测试文档,您可以在数据库中查找最近的邻居,并查看这些邻居与您的测试文档之间的重叠,以检查您所谓的“测试”文档是否是模型可能已经训练过的内容。
评估表明,论文中的 70 亿参数(7B)Retro 模型在语言建模上通常可以与 280B Gopher 或 178B Jurassic-1(两者都优于 GPT-3)一样好或更好,并且它还在问答方面做得很好。(请注意,这两项任务似乎都特别有可能从检索中受益。)
消息
申请开放慈善技术政策奖学金! (Luke Muehlhauser)(由 Rohin 总结):这项关于高优先级新兴技术的政策研究金( AN #157 ) 正在第二次运行!申请截止日期为 9 月 15 日。
招聘广告:DeepMind 长期战略和治理研究科学家(由 Rohin 总结):DeepMind 的长期战略和治理团队致力于为更好地治理人工智能、确定可以改进决策的行动、规范和制度结构提出建议-围绕高级人工智能进行制作。他们正在寻求广泛的专业知识,包括:全球科学治理和强大技术;技术环境;安全关键组织;大型通用模型和人工智能服务的政治经济学。申请截止日期为8月1日。
此外,DeepMind 的 Alignment 和 Scalable Alignment 团队正在招聘,尽管此时一些申请已关闭。
招聘广告: Anthropic(由 Rohin 总结):Anthropic 正在招聘大量职位(截至撰写本文时,我统计了 19 个不同的职位)。
招聘广告:BERI (Sawyer Bernath)副主任(由 Rohin 总结):伯克利存在风险倡议 (BERI) 正在招聘一名副主任。申请将在滚动的基础上进行评估。
招聘广告:人工智能治理中心(由 Rohin 总结):人工智能治理中心有几个职位空缺,包括研究学者(一般跟踪和政策跟踪)、调查分析师和三个月的奖学金。申请截止日期为 8 月 1 日至 10 日。
招聘广告:Metaculus(由 Rohin 总结):Metaculus 正在招聘各种职位,包括 AI 预测主管。
招聘广告:Epoch AI(由 Rohin 总结):Epoch AI 是一个研究和预测高级 AI 发展的新组织。他们目前正在招聘研究经理和职员研究员职位。
招聘广告:AI 安全支持正在招聘一名首席运营官(由 Rohin 总结):申请截止日期为 8 月 14 日。