AN #102 通过 GPT-3 的元学习和人工智能对齐的完全提议列表

中文版

对齐周报第 102 期

对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

TABLE_OF_CONTENTS: TableOfContents

强调

语言模型是少次学习器 (Tom B. Brown 等)(由 Rohin 总结):最大的 GPT-2 模型AN#46)具有 15 亿个参数,自发布以来,人们已经训练了多达 17 种语言模型十亿个参数。本文报告了 GPT-3 的结果,其中最大的模型具有 1,750 亿个参数,比以前的最大语言模型增加了 10 倍。为了消除障碍,它在零次语言建模方面建立了新的技术水平(SOTA)(仅在 Penn Tree Bank 上进行评估,因为其他评估集偶然地是其训练集的一部分)。

本文的主要重点是分析 GPT-3 的少次学习功能。在短暂的学习中,经过最初的训练阶段之后,在测试时会为模型提供少量新任务的示例,然后必须为新输入执行该任务。通常使用元学习调优来解决此类问题,例如,在测试时 MAML 对新示例采取了一些渐变步骤,以生成针对测试任务进行调优的模型。相比之下,GPT-3 的主要假设是语言是如此多样,以至于要在语言上做得很好就需要适应输入,因此学习的语言模型将已经是元学习器。这意味着他们可以使用他们关心的任务的示例简单地“填装”模型,并且模型可以了解应该执行的任务,然后很好地执行该任务

例如,考虑使用已经解释了含义的新组成单词生成句子的任务。在一个值得注意的示例中, GPT-3 的提示是:

“whatpu”是坦桑尼亚产的一种小型毛茸茸的动物。使用单词 whatpu 的句子示例如下:

我们在非洲旅行,我们看到了这些非常可爱的 whatpus。

做一个“farduddle”意味着跳得很快。使用单词 farduddle 的句子的示例是:

给出此提示后,GPT-3 会为“farduddle”生成以下示例语句:

有一天,当我和我的妹妹玩耍时,她感到非常兴奋,开始做这些疯狂的 farduddle。

本文对存在基准的多个下游任务进行了测试(例如,问题解答),并报告了所有这些任务的零射,单射和少射性能。在某些任务上,尽管没有使用基准测试的训练集进行微调,但快照版本设置了新的 SOTA ;在其他方面,GPT-3 远远落后于调优方法。

该论文还一致地表明,随着参数数量的增加,少拍性能会提高,并且增加速率快于零拍性能的相应速率。尽管他们没有直接说出来,但我们可以将其作为暗示性的证据,因为随着模型的扩大,他们会更有动力学习“一般推理能力”。

最明显的例子是算术,其中最小的 6 个模型(最多 67 亿个参数)的性能较差(2位数字相加后 50% 2 位加法和减法,最终模型(1750亿个参数)在 3 位加法和减法上达到 > 80%,在 2 位加法上达到 100% 完美(所有情况都是在少数情况下)。他们在训练集中明确地寻找他们的测试问题,并发现了很少的例子,这表明该模型确实在学习“如何做加法”。此外,当它不正确时,它容易出错,例如“忘记进 1”。

关于更广泛的影响,作者谈论了潜在的滥用,公平和偏见的关注以及能源使用的关注。并说出他们对这些问题的期望。一个有趣的注释:“为了了解中低端演员对语言模型的看法,我们一直在监视论坛和聊天组,在这些论坛和聊天组中,经常讨论错误信息策略,恶意软件分发和计算机欺诈。” 他们发现,尽管对滥用进行了大量讨论,但他们没有发现成功的部署方法。他们还向专业威胁分析人员咨询了资源丰富的行为者滥用模型的可能性。根据论文:

Rohin 的观点:很长一段时间以来,我一直在听到人们悄悄地假设,如果任务具有足够的多样性,则规则的梯度下降可能会导致一般的推理能力,从而可以快速适应新任务。这是该假设的有力证明。

一个批评是,GPT-3 仍然需要太长时间才能“识别”一项任务 —— 为什么它需要 50 个加法示例才能弄清楚应该做的是加法?为什么 1 还不够?似乎并没有消除“加”的其他概念。我不确定机制是怎么回事,但是我们可以从论文中推断出,随着语言模型的变大,达到给定性能水平所需的示例数量将减少,因此似乎存在一些“优势”。提高的一般推理能力(另请参阅本评论)。尽管如此,从机械上弄清楚模型是如何“推理”的还是很有趣的。

这也提供了一些经验证据来支持内部对准问题AN#58)背后的威胁模型:它们基于隐式学习优化的神经网络为基础。(要明确地说,我认为它为神经网络学习“一般性推理”提供了经验支持,而不是神经网络学习为追求“目标目标”而隐式“执行搜索”)—— 另请参阅术语“mesa 优化器 ” 是否过于狭窄?AN#78)。

11个建设安全先进人工智能提案的概述 (Evan Hubinger) (由 Rohin 总结):这篇文章介绍了“十一项” 完全的人工智能对齐建议(其目的是建立使用当前的技术功能强大的,有益的人工智能系统),且评估它们在四个轴上:

1. 外部对齐:指定损失函数的最佳策略是否与我们一致?另请参阅这篇文章

2. 内部对齐:训练过程中实际生成的模型是否与我们对齐?

3. 训练竞争力:这是训练强大的人工智能系统的有效方法吗?更具体地说,如果一个团队比其他团队具有“合理的领先优势”,那么使用这种算法后,他们是否会至少保留一些领先优势?

4. 性能竞争力:经过训练的模型是否具有良好的性能(相对于可以接受训练的其他模型)?

十一项建议中的七项采用“递归外部对齐技术”加“健壮性技术AN#81)”的形式。递归外部对齐技术是辩论AN#5),递归奖励建模AN#34)或某种形式的扩增AN#42)。增强健壮性的技术是“透明的工具”,可以“深入模型内部”,放松型对抗训练AN#70),或由有能力监督者进行间歇性监督。另外两个建议的形式为“非递归外部对齐技术”加上“健壮性技术” —— 非递归技术是在多主体环境中的简单的强化学习和狭窄的奖励学习。

另一个建议是“显微镜化人工智能”,其中我们训练人工智能系统以简单地理解大量数据,然后通过窥探AI系统,我们可以学习人工智能系统学习到的见解,从而带来很多价值。我们不会让人工智能系统在世界范围内发挥作用,从而消除了大量潜在的不良后果。最后,我们拥有 STEM 人工智能,我们试图在该系统中构建一个在沙盒中运行的人工智能系统,该系统非常擅长科学和工程,但对人类了解不多。凭直觉,这样的系统不太可能欺骗我们(并且可能无法这样做)。

帖子中包含许多其他内容,在本摘要中,我对此并没有全面描述。特别是,我没有对上面列出的四个轴上的每个建议进行分析。全文讨论了所有 44 种组合。

Rohin 的观点:我很高兴有这篇文章存在:虽然可以通过将其他博客文章中散布的内容拼凑起来来找到大多数特定的提案,但仍然严重缺乏一篇文章来提供一个提案的全貌,在这篇文章中,只有十一个。

我通常不会像本文所假设的那样考虑最佳策略会发生的外部对齐 —— 当你谈论现实世界中的损失函数时(正如我认为本文正在尝试做的那样),最佳行为可以以可能实际上并不重要的方式变得怪异和不直观。例如,可以说对于任何损失函数,最佳策略是破解损失函数,使其始终输出零(或负无穷大)。

技术人工智能校准

杂项(对齐)

使用不确定的规格进行规划 (Ankit Shah 等)(由 Rohin 总结):假设你认识到不存在“特定的规格”,因此可以推断按规格的分布。那你该怎么做呢?本文是在线性时序逻辑(可以表示时序非马尔可夫约束)中的公式给出规范的情况下研究此问题的。他们确定了四种可能性:

1. 最可能的:针对最可能的规格进行计划。

2. 覆盖率最高:尽可能多地满足公式,而忽略其概率(只要它们具有非零概率)

3. 机会受限制:与上面一样,除了你按概率加权外,并将最不可能的公式降到参数δ。

4. 最小悔值:像上面一样,将 δ 设置为零。

直觉上,最可能的标准不会非常稳健,因为它仅考虑了一个规格。大多数覆盖范围旨在最大的稳健性,机会约束插值,其中较大的 δ 对应于获得能力的稳健性。这正是我们在机器人必须整理餐桌的任务中看到的模式。

Rohin 的观点:最终,我希望在这种情况下,智能体最初要保守计划,但还要尝试了解实际上是正确的规范,以便随着时间的推移变得更加大胆。尽管如此,要做到这一点似乎很困难,即使那样,我们也可能会在健壮性和任务性能之间进行权衡。人类也是如此:如果你试图取悦所有人(健壮),你将最终没人取悦(任务执行)。

人工智能的其他进展

强化学习

Suphx:通过深度强化学习掌握麻将 (Junjie Li 等人)(由 Rohin 总结):麻将是一个不完美的大型信息游戏,具有复杂的规则,可以中断转弯顺序。这使得使用现有技术(例如 MCTS)和反事实后悔最小化解决具有挑战性。本文详细介绍了构建 Suphx 的必要条件,Suphx 是一种比 99.99% 的人类还要强大的人工智能系统。一些重点:

  • 像原始的 AlphaGo一样,他们首先从人类的游戏玩法中学到了东西,然后使用强化学习对它们进行了调优,并以深层的 CNN 作为模型。他们学习了行为模型和价值模型。他们增加了一个熵奖励,以确保该策略的随机性足以在强化学习过程中继续学习。
  • 他们有五个学习过的动作模型,分别对应麻将需要做出的五个不同决定,以及一个基于规则的系统来决定是否宣布获胜。
  • 为了处理不完美的信息,他们首先训练了一个可以访问所有信息的 oracle 智能体,然后慢慢减少了它可以观察的信息量。
  • 他们可以使用搜索来提高在线效果,但并未进行评估(因为 Suphx 在有时间限制的网站上播放)。Suphx 搜索可能会更强大。

Rohin 的观点:我有点好奇他们是如何从 oracle 智能体中删除观察值的,因为你通常必须将输入的结构保持为神经网络常数。也许他们只是将不需要的观测值归零了?

通过深度增强学习掌握 MOBA 游戏中的复杂控制 (Deheng Ye 等人)(由 Rohin 总结):本文介绍了一种可以玩多人在线战斗竞技场(MOBA)游戏《王者荣耀》的人工智能系统。他们的灵感来自 OpenAI FiveAN#13)(并且《王者荣耀》听起来很像 Dota,尽管它是 1v1 而不是 5v5),并且具有类似的学习设置:使用 PPO 进行强化学习。他们的体系结构需要一种异策略的算法(我不确定为什么,也许他们的部署服务器上的参数都是陈旧的),所以他们为 PPO 目标添加了重要的采样校正,以及其他类型的梯度裁剪。输入是图像和基础游戏状态信息的组合。由此产生的智能体能够击败顶尖的人类玩家,在与公众的事件中,人工智能系统在 2100 场比赛中仅输掉 4 场。与 OpenAI Five 不同,这仅需要大约 100 个小时的训练(尽管目前尚不清楚使用了多少计算量)。

深度学习

使用ELECTRA进行更有效的NLP模型预训练 (Kevin Clark 等人)(由 Flo 总结):对 NLP 进行预训练的主要方法有两种:语言模型(LM),该模型可迭代地预测给定不完整句子中的下一个单词,并对其进行掩盖语言模型(MLM),可以预测其他完整句子中几个被掩盖单词的身份。虽然不仅仅查看先前的单词(双向性)可能是有利的,但 MLM 仅学会预测掩盖的单词,这减少了从给定句子中学到的知识。

作者提出了另一种方法 ELECTRA,其性能优于 RoBERTa,而所需计算量不到三分之一。这是通过将预训练任务的形式从预测单词变为区分假单词来实现的:代替掩蔽,某些单词被 MLM 生成的单词替换,并且受过训练的模型必须将它们分类为假单词。这样,我们获得了双向性,但同时得到了更密集的信号,因为该模型必须为每个单词生成输出,而不仅仅是屏蔽的单词。尽管这看起来与 GAN 相似,但是生成器仅受通常的 MLM 损失训练,并且没有激励其欺骗鉴别器,因为 GAN 在序列数据上似乎无法很好地工作。

阅读更多: 论文:ELECTRA:预训练文本编码器作为鉴别器而不是生成器

Flo 的观点:我发现用伪造的歧视代替单词预测会起到很大的作用,这让我感到有些惊讶,但是从分析中看来,这实际上实际上是一种获取每个单词丢失信号的工具,这是一个很酷的主意。从更缩小的角度看,类似的结果似乎表明算法效率的提高AN#99)并没有从根本上放慢速度。

分层强化学习

DADS:用于技能发现的无监督强化学习 (Archit Sharma 等)(由 Rohin 总结):机器人技术中的强化学习通常直接针对低级动作进行计划。但是,似乎确实存在机器人形态固有的一组简单的原语,例如步行、跑步、洗牌等。如果我们可以学习这些原语然后计划使用这些原语怎么办?本文介绍了一种没有奖励函数的学习这些原语的方法。他们只是简单地优化技能以实现可预测性和多样性(通过优化当前状态与下一个状态之间的相互信息(取决于要执行的技能))。

然后,他们可以将这些原语用于下游任务的基于模型的计划。你可以将其视为常规的强化学习问题,不同之处在于其“动作空间”中的动作采用“在 T 个时间步上执行技能 X”的形式。他们使用模型预测控制(MPC),在该模型中,你对一堆轨迹进行采样,然后执行该轨迹的第一个动作以获得最高的回报。由于它们的每个高级动作都决定了 T 时间步长的策略,因此它们可以扩展到比 MPC 通常可以使用的更长的时间范围任务。他们表明,这种方法与常规的基于模型的RL相比具有竞争力。

阅读更多: 论文:动态感知的无监督技能发现

Rohin 的观点:我认为无监督学习可能是获得更强大,更通用的人工智能系统的关键,而无需真正庞大的专家数据量,这是一个很好的例子。但是请注意,学到的原始语当然不是你期望的人类:例如,类人动物学会隐约地沿方向而不是步行移动。另外,他们确实需要指定一个“x-y先验”,该技能要求技能基于 x-y 坐标而有所不同,这就是为什么技能学会了导航原语的原因,而不是例如不同类型的摇摆。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s