AN #65 通过观看人类‘玩游戏’学习有用的技能

在此处找到所有 Alignment Newsletter 资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

此处的音频版本(可能尚未启用)。

强调

从游戏中学习潜在计划 (Corey Lynch 等人)  (由 Cody 总结):本文收集了使用机器人控制系统进行游戏的人类的无监督数据,并使用该数据在学习中的两个问题之间穿插了针脚。一个问题是每个任务演示数据的成本很高,尤其是随着任务数量的增长。另一种是,随机采样的控制动作很少会以允许机器人学习的方式偶然遇到复杂的运动任务。作者认为,人类游戏数据是一个很好的折衷方案,因为人类在玩游戏时倾向于探索不同的操纵对象的方式,这些方式可以为机器人提供大量有用的信息,例如“我如何在抽屉中移动此积木”,这些信息可以组成更复杂和故意的任务。

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。

Cody的观点:我真的很喜欢这篇论文:它在结合变分方法和模仿学习的概念部分方面很有创造力,并且在尝试解决如何避免必须获得人类演示数据的问题时非常务实大量不同离散任务的不同数据集。

技术AI对齐

迭代放大

对齐一个优化的玩具模型 (Paul Christiano)  (由 Rohin 总结):当前的机器学习能力围绕 本地搜索:我们得到一个梯度(或与进化算法近似的梯度),并朝该方向迈出了一步找到一个新模型。迭代扩增利用了这一事实:我们可以执行一系列扩增步骤和提炼梯度步骤,而不是按照固定奖励进行一系列梯度步骤。

但是,我们可以考虑一个更简单的 ML 能力模型:函数最大化。给定从 n 位字符串到实数的函数,我们将 ML 建模为允许我们仅在 O(n) 时间  (而不是进行暴力搜索O(2 ^ n))时间内找到具有最大输出值的输入 n 位字符串)。如果仅是我们对 ML 能力的了解,我们是否仍可以设计一个统一的具有竞争力的版本?尽管这不是我们面临的实际问题,但 由于其简单性,它更适合于理论分析,因此值得考虑。

我们可以仅使用两次 Opt 调用就可以使未对齐的 AI 最大化某些显式奖励:首先,使用 Opt 查找可以预测动态和奖励的良好世界模型 M,然后使用 Opt 查找在交互时效果良好的策略由于所有通常的原因,这是不对齐的:最明显的是,它将试图抓住对奖励通道的控制。

对齐的版本确实需要使用 Opt,因为这是将幼稚的搜索转换为线性搜索的唯一方法;如果不使用 Opt,则结果系统将没有竞争力。我们不能仅将迭代扩增推广到这种情况,因为迭代扩增依赖于 ML 能力的 一系列应用:这将导致对齐的 AI 使用 Opt 多次,这将没有竞争力,因为未对齐的 AI 只需要两次调用选项。

一种可能的方法是设计一种具有良好动机的 AI(以与迭代扩增旨在逼近HCH的方式相同(AN#34)),“知道不对齐 AI 知道的一切”。但是,提供不可能的证明也很有用:这将告诉我们一些解决方案在更复杂的环境中是什么样的。

Rohin的观点:有趣的是,我之所以喜欢这篇文章,主要是因为将此设置与迭代扩增的典型设置进行比较有助于了解激发迭代扩增的设计选择和直觉。

预测

协调调查:为什么我们应该进行调查以组织职责,而不仅仅是预测 (Andrew Critch) (由 Rohin 总结):这篇文章建议,在对研究人员进行调查以了解其技术的未来影响时,我们应该特别询问他们对他人将采取何种行动以及他们将要做什么的信念,而不仅仅是预测总影响。(例如,我们可以询问有多少人将在安全方面进行投资。)然后,通过汇总调查受访者,我们可以看到研究人员对其他人将做什么的信念是否与研究人员计划做的经验分布相符。这可以帮助减轻每个人都认为其他人都会解决问题的影响,以及每个人都试图解决问题的效果,因为他们都认为没有人打算解决这个问题。Critch 提供了有关在即将进行的任何调查中包括这种方法的建议。有关详情,请参见该帖子。

Rohin的观点:这是一个很棒的主意,对我来说似乎值得。我特别喜欢这项调查可以通过从人们那里收集两种信息来源并检查它们之间的一致性来简单地揭示问题:没有提出任何特定的论点;当且仅当存在这种矛盾时,你才在人们对他们的信念中表现出不一致。实际上,我敢肯定会有并发症 —— 例如,参加调查的一组研究人员可能不同于他们所预测的行动和信念的“其他”一组人 —— 但似乎至少值得尝试一下出来。

AI 预测词典 (Jacob Lagerros 和 Ben Goldhaber)  (由Rohin总结):预测未来的一大挑战是明确操作关键术语,以便在未来真正到来时就可以解决问题。由于我们可能需要预测许多不同的问题,因此至关重要的是,我们必须尽可能轻松地创建和回答操作良好的问题。为此,作者创建了 AI 预测词典并将其开源,该词典为重要术语提供了准确的含义,并附带示例和非示例以进一步阐明。

AI 预测解决方案理事会  (Jacob Lagerros 和 Ben Goldhaber) (由 Rohin 总结):即使你很好地操作了预测问题,结果通常通常还是由你感兴趣的因素以外的其他因素决定。例如,基准测试的进展可能更多地取决于尝试进行研究的研究人员的数量。即使你试图衡量后者,也可以通过提高 AI 能力来超越基准。为了解决这个问题,已经成立了 AI 预测解决方案委员会:现在,预报员可以预测解决方案委员会在将来的特定时间会说些什么。这就提出了我们想要的问题:在以前的案例中,我们现在可以预测解决委员会将在 2021 年回答“当前方法是否能够超过基准”的问题。

如何编写良好的 AI 预测问题+问题数据库  (Jacob Lagerros 和 Ben Goldhaber)  (由Rohin总结):如上所述,预测问题很难实现。这篇文章收集了一些常见的故障模式,并介绍了一个包含 76 个有关 AI 进度的问题的数据库,这些数据库具有详细的解决标准,有望避免任何操作上的陷阱。

杂项(对齐)

策略窃取假设 (Paul Christiano) (由 Rohin 总结):我们经常谈论以与未对齐的AI 竞争的方式来对齐 AI。但是,你可能会认为我们需要使它们变得更好:毕竟,未对齐的 AI 只需追求一个特定的目标,而对齐的 AI 则必须处理我们还不知道自己想要什么的事实。我们可能希望,无论未对齐的 AI 有什么目标,它用来实现该目标的任何策略都可以转化为获取灵活 影响力(即对许多目标有用的影响力)的策略。在那种情况下,只要我们控制大部分资源,我们可以使用未对齐的 AI 可以使用的任何策略。例如,如果我们控制着 99% 的资源,而未对齐的 AI 控制了 1%,那么至少我们可以分成 99 个“联盟”,每个联盟控制1%的资源,并使用与未对齐的 AI 相同的策略来获取灵活的影响力,这将使我们获得期望的 99% 的资源。在实践中,我们甚至可以做得更好,例如通过协调关闭所有未对齐的 AI 系统。

尽管我们需要灵活的 影响力,但我们仍可以使用与未对齐 AI 相同的策略的前提称为  策略窃取假设。解决对齐问题对于策略窃取至关重要 —— 否则,未对齐的 AI 在认为我们无法窃取并且策略窃取假设会失效的情况下将具有优势。本文讨论了策略窃取假设可能失败的其他十种方法。例如,未对齐的 AI 可能会采取涉及威胁杀死人类的策略,并且由于未对齐的 AI 可能不像我们现在那么脆弱,我们可能无法使用类似的策略来应对。

Rohin 的观点:在我看来,如果我们处在解决对齐问题的情况下,我们控制了99 % 的资源,而且彼此之间没有内斗,那么我们很可能会继续控制至少 99% 未来资源的百分比。我对如何解决这种情况感到有些困惑 —— 我通常担心的场景是无法解决对齐问题,但仍部署未对齐的 AI 的情况,在这种情况下,我期望未对齐认可机构获得大部分资源。我想在一个连续起飞的多极环境中,如果我们已经基本解决了对齐问题,但是仍然意外地创建了未对齐的 AI(或者某些恶意行为者故意创建了它们),那么在这种情况下,我们可以控制 99% 的资源。

人工智能的其他进展

探索

高效利用示范来解决艰苦的探索问题 (Caglar Gulcehre,Tom Le Paine等人)  (由 Cody 总结):本文结合了现有技术的思想,构建了一种能够只用少量(N〜100)个示范学会解决难题的解决方案的架构(R2D3)。R2D3 具有两个主要的体系结构特征:它使用循环头来学习 Q 值,其策略是从智能体和演示者经验的隔开的池中采样轨迹,并按每个池中的最高时序误差转换优先进行采样。

正如作者所指出的那样,这种方法本质上是先前论文“ 从演示中进行深度Q学习”的扩展。 使用循环头而不是前馈头,从而可以将其更有效地部署在部分信息环境中。作者在 8 种不同的环境中进行了测试,这些环境要求长时间完成任务才能获得任何奖励,并发现他们的方法能够在四个任务上达到人类水平的性能,而他们的基线比较从根本上无法完成任何任务。利用演示对解决这类艰巨的探索任务可能是有价值的,因为演示者的轨迹提供了如何在这样的环境中获得奖励的示例,在这种情况下,随机探索者的轨迹很少会到达任务的结尾以找到积极的奖励。

Cody的观点:尽管本文的技术是对现有技术(隔开优先的演示和智能体池,以及免策略性的 SotA R2D2)的相当直接的合并,但其结果令人惊讶地令人印象深刻:在所测试的任务上对于非基于模仿的系统来说需要较长且复杂的正确行动链其实非常有挑战性,以及环境高度随机性会使纯模仿方法变得困难。

强化学习

多智能体交互紧急工具使用 (Bowen Baker 等人)(由 Rohin 总结:由于进化,我们在地球上具有如此众多的生物和行为:每当一种新的策略发展时,它就为人们带来了新的压力和诱因。其他生物,导致新的行为。多智能体竞争导致了自动课程。这项工作利用了这种效果:他们设计了多主体环境和任务,然后使用标准的强化学习算法来学习几种有趣的行为。他们的任务是捉迷藏,智能体能够移动盒子,墙壁和坡道并将工具锁定在适当的位置。智能体找到  六个 不同的策略,每种策略均源于先前策略创建的激励机制:搜寻者追逐藏匿者,建造藏身处的藏匿者,搜寻者使用坡道进入藏身处,藏匿者将坡道锁住隔开搜寻者,搜寻者将箱子冲浪到藏匿者处,以及藏匿者将箱子和坡道锁定。

希望可以将其用于学习一般技能,然后将其用于特定任务。这使其成为一种无监督的学习形式,其目标类似于  好奇心  (AN#20)。我们可能希望多主体自动课程比好奇心更好,因为它们会自动倾向于使用对环境控制非常重要的功能(例如坡道和盒子),而内在动机方法通常最终会专注于我们不会想到的功能,这特别重要。他们通过设计环境中的五个任务并检查从多智能体自动课程中微调智能体是否比直接训练和基于好奇心的智能体来学习更快来进行经验测试。他们发现,多智能体自动课程智能体的效果最佳,但差距很小。为了解释这一点,他们假设学习的技能表示仍然高度纠缠,因此难以微调,而学习到的特征表示则更容易迁移。

Rohin 的观点:这有点类似于  AI-GA  (AN#63):两者都取决于环境设计,到目前为止,相对而言它一直被忽略。但是,AI-GA 希望创建学习算法,而至少在这种情况下,多智能体自动课程会导致 使用工具。另一个相似点是它们都需要大量计算,因为发现新策略可能需要大量探索。也就是说,通过使用人类游戏数据或演示(在上面的两篇不同的论文中进行了讨论)来解决探索问题,似乎我们可以大幅度减少所需的计算量。

更推测地说,我认为在需要确定对手使用哪种策略的环境中会很有。在这种环境下,每个策略都具有击败其之前所有策略的特性。结果,智能体可以经历灾难性的遗忘:即使它是针对过去的智能体进行训练的,但它只需要很好地学习当前的策略即可;它不需要记住以前的策略。结果,它可能忘记了先前的策略和技能,从而降低了快速学习新任务的能力。

阅读更多: 论文 Multi-Agent Autocurricula中的紧急工具使用,  Vox:观看AI学习玩捉迷藏的游戏

应用领域

通过机器学习应对气候变化 (David Rolnick 等)  (由 Rohin 总结):请参见  Import AI


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s