AN #106 评价学到的奖励模型的泛化能力

中文版

对齐周报第 106 期

对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

TABLE_OF_CONTENTS: TableOfContents

强调

量化奖励功能的差异 (Adam Gleave 等人)(由 Rohin 总结):当前的奖励学习工作通常通过训练策略以优化学到的奖励,并查看该策略根据真实奖励的执行情况来评估学习的奖励模型。但是,这仅测试奖励在你所测试的特定环境中的运行情况,而不能告诉你奖励将推广到何种程度。例如,假设用户喜欢杏子、李子,但是讨厌榴莲。具有杏子 > 榴莲 > 李子的奖励效果很好 —— 直到商店卖完杏子为止,在这种情况下,它会购买用户讨厌的榴莲。

因此,似乎我们应该直接评估奖励函数,而不是查看其最佳策略。本文提出了等价策略不变比对(EPIC),它可以比较两个奖励函数,而忽略任何不影响最优策略的潜在成形。

EPIC 通过状态和动作 DS 和 DA 的分布以及转换(s,a,s’)上的分布 DT 进行参数化。第一步是找到要比较的两个奖励的规范版本,以使它们对 DS 和 DA 的期望奖励为零,并消除所有可能的成形。然后,我们查看这些奖励将分配给 DT 中的转换的奖励,并计算其 Pearson 相关性。将其规范化到 [0,1] 范围,得到 EPIC 距离。

作者证明 EPIC 是伪度量,也就是说,它的行为类似于距离函数,只是即使 R1 和 R2 不同,EPIC(R1, R2) 也可能为零。这是合乎需要的,因为如果 R1 和 R2 由于潜在的成形函数不同,则无论转换动态如何,都可以保证它们的最佳策略相同,因此我们应将它们之间的“距离”报告为零。

作者展示了如何在高维环境中近似计算 EPIC 距离,并进行实验以展示 EPIC 的特性。他们的第一个实验表明,EPIC 能够正确检测出针对各种 MuJoCo 环境的密集奖励等同于稀疏奖励,而其他基准方法则无法做到。第二个实验比较了从偏好、演示和直接回归中学到的奖励模型,发现从演示中学到的奖励的 EPIC 距离远高于偏好和回归的 EPIC 距离。的确,当在新的测试环境中重新优化奖励时,使用偏好或回归奖励模型时,新策略将起作用,而使用示范性奖励模型时,新策略将不起作用。

Rohin 的观点:确实,我们没有很好的方法来理解我们所学的奖励模型的概括程度,这确实是对的,我很高兴这项工作正在朝这个方向努力。我希望将来有关奖励模型的论文将 EPIC 距真实奖励的距离报告为度量之一(可在此处找到代码)。

这个好处是,粗略地说,如果将奖励归纳为与 DT 一致的任何可能转换函数,则奖励将被认为是等效的。这意味着通过适当地设计 DT,我们可以捕获要评估的泛化程度。这是一个有用的旋钮:如果我们使用最大的 DT,那么任务将太困难了,因为它将被广泛推广甚至超过人类水平。

技术性人工智能对齐

技术议程和优先级

HRAD 工作的合理案例,并将症结定位在“关于理性的现实主义”辩论中 (Issa Rice)(由 Rohin 总结):本文试图将高度可靠的代理设计(HRAD)工作的可能案例作为主要重点人工智能对齐方式。HRAD 是 MIRI 的一项工作,旨在建立一种智能和代理理论,可以解释诸如逻辑不确定性和反事实推理之类的事情。

HRAD 工作的第一个案例是,通过减少对这些现象的混淆,我们将能够帮助通用人工智能构建者预测、解释、避免、检测和修复安全问题,并帮助从概念上阐明人工智能对齐问题。为此,我们只需要进行概念上的混淆 —— 不需要必须有精确的方程式来定义人工智能系统的功能。

第二种情况是,如果我们获得了精确的数学理论,则可以使用它来构建我们“从头开始”理解的主体,而不是将深度学习的黑框扔到问题上。

最后一种情况是,了解智能的工作原理将为我们提供一个理论,使我们能够预测任意代理的行为方式,这将以第一种情况及更多(AN#66)中描述的所有方式用于人工智能对齐。

通过过去有关该主题的讨论,作者认为 MIRI 的人们主要相信前两种情况。同时,批评家(尤其是我)说,我们似乎不太可能建立精确的数学理论,而更具概念性但不精确的理论可能有助于我们更好地理解推理,但不太可能概括得足够好,以至于不能说出重要的和非理性的。关于我们实际构建的系统的人工智能对齐的琐碎事情。

Rohin 的观点:我喜欢这篇文章 —— 似乎是迄今为止辩论情况的可读的摘要。我的观点已经发表在帖子中,因此我没有太多补充。

导致当今人工智能架构不安全的缺陷以及可以解决的新方法 (Rob Wiblin 和 Stuart Russell)(由 Rohin 总结):该播客深入研究了 Stuart 的《人类兼容》AN#69中的许多想法。Rob 特别强调了人工智能安全社区中鲜为人知的一些方面,例如弱化问题以及我们是否会锁定次优的值。他们还讨论了 Stuart 对某些反驳的回应。

Rohin 的观点:播客谈论的反驳之一是我的立场AN#80,我们可能会从较小的灾难中学习以避免实际灭绝。我只想指出,尽管在这一点上听起来我不同意 Stuart,但我认为我们实际上并不同意。我反对灭绝是默认结果(> 50%概率)的立场,而 Stuart 反对灭绝几乎是不可能的立场(〜0% 概率)。我的收益大约是 10%;我猜如果 Stuart 被迫这样做,出于与我相似的原因,他会给我一个类似于我的数字。

可解释性

迈向可解释机器学习的严谨科学 (Finale Doshi-Velez 等)(由 Robert 总结):2017 年的这篇论文讨论了可解释性研究的领域,以及如何使其变得更加严格和明确。作者首先强调了首先定义可解释性的问题 —— 他们没有解决此问题的方法,但是建议我们可以从可解释性的角度来考虑可解释性。他们声称,可解释性用于确认机器学习系统中的其他重要需求,这是由于问题形式化不完整所致。例如,如果我们希望系统是无偏的但不能在奖励函数中正式指定,或者我们正在优化的奖励只是真实奖励的智能体,那么我们可以使用可解释性来检查我们的建模,看看它是否在推理我们想要的方式。

接下来,作者继续讨论如何评估可解释性方法,并提供不同评估方法的分类法:应用为基础,是指在实际环境中对方法进行实际评估时(即医生获取人工智能系统诊断的解释); 以人为本的目的是使用比该方法的预期目的更简单的任务来进行更简单的人类主题实验(可能不是领域专家)。从功能上扎根是没有人参与实验的地方,而是对某种可解释性的正式概念进行了度量,以评估其质量。这些评估方法中的每一种都可以在不同的情况下使用,具体取决于所使用的方法和上下文。

最后,作者提出了一种数据驱动的方法来理解对可解释性很重要的因素。他们建议尝试创建一个将机器学习模型应用于任务的数据集,然后分析该数据集以找到重要因素。他们列出了一些可能的与任务和方法有关的因素,然后总结出对研究人员进行解释的建议。

Robert 的观点:我喜欢可解释性的想法,其目的是试图填写错误或未指定的优化目标。我觉得这个提议,解释性是外部对齐,这很有趣,因为我认为大多数人在人工智能安全社区认为解释性可以对内部对齐有帮助(例如,看到更多有用的 11 项建议概述为构建安全先进的AIAN #102),其中透明度(可以看作是可解释性)用于解决提案 4 中的内部对齐方式)。

人工智能的其他进展

探索

通过自我监督的世界模型进行的规划探索 (Ramanan Sekar,Oleh Rybkin等人)(由 Flo 总结):PlaNetAN#33学习了可用于规划的潜在世界模型,而 DreamerAN#83得以扩展通过在学习的潜在世界模型中执行强化学习算法而不是与环境交互来实现该想法。但是,我们仍然需要有效地探索实际环境以获得世界模型的训练数据。

作者建议通过一种新颖的探索策略来增强 Dreamer。除了学习到的潜在世界模型之外,还训练了一组更简单的单步世界模型,并且对于一个状态,该组合内部的分歧程度被用作达到该状态的信息增益的智能体。这用作可以指导规划的(动态变化的)内在奖励。通过对 Dreamer 进行这种内在奖励的训练,我们可以识别真实环境中的信息状态,而不必先访问类似的状态(例如,出于好奇,这种情况是对内在奖励的回顾)。

最终的系统可以在各种连续控制任务上实现最新的零击学习,并且通常接近为特定任务训练的智能体的性能。

Flo 的观点:计划到达获得大量信息的状态似乎是一种很有前途的搜索策略。我不确定建立足够精确的世界模型是否总是与无模型强化学习一样可行。如果是这样,则错误指定的奖励和类似问题可能会更容易发现,因为使用精确世界模型推出的一项政策可以帮助我们预测该政策在不部署的情况下会产生什么样的世界。另一方面,传递学习能力的提高可能导致强化学习系统的部署更加普遍,并放大剩余的故障模式,尤其是那些源自多智能体交互的故障模式AN#70)。

强化学习

学习以最佳响应策略迭代进行“无私聊”外交 (Thomas Anthony,Tom Eccles等)(由 Asya 总结):外交是一种具有简单规则的游戏,其中 7 名玩家每转会同时移动单位以占领领土。默认情况下,单位是平均匹配的,因此获胜取决于获得某些玩家对其他玩家的支持。“无私聊”外交将玩家之间的交流限制为仅提交给单位的订单,从而消除了传统游戏玩法所固有的复杂口头谈判。

在收集了 150,000 个人类外交游戏的数据集之后,对以前的最新“无私聊”外交方法进行了训练,以模仿人类的行为。本文提出了一种新的算法方法,该算法使用人为模仿初始化的策略迭代方法来进行“无私聊”外交。为了找到更好的策略,他们的方法使用“最佳响应”计算,其中某个参与者的最佳响应策略是使该参与者相对于对手策略的预期回报最大化的策略。对于精确的最佳响应计算而言,外交规模太大,因此本文引入了近似值“ Sampled Best Response”,

  • 使用蒙特卡洛采样来估计对手每回合的动作
  • 仅考虑从每个候​​选最佳响应策略中抽取的一小部分行动
  • 仅尝试对其策略进行一次单步改进(而不是尝试针对整个游戏的其余部分进行优化)

与其他策略迭代方法类似,本文使用“采样最佳响应”方法创建每个迭代的游戏数据集,然后训练神经网络创建策略和值函数,以预测“采样最佳响应”选择的动作。为了解决“最佳响应采样”在最后一次迭代中不断循环选择最佳策略的问题,本文尝试了一种称为“虚拟对局”的技术的多种变体。在表现最佳的变体中,对策略网络进行了训练,以根据明确平均的历史对手和参与者策略而不是最新策略来预测最新的采样最佳响应。

该论文的方法在各种指标上都优于现有的“无私聊”外交算法,但仍然可以利用很少的手段 —— 在训练结束时,最终策略中最强大的(非人类)开发者赢得了 48% 时间。他们还发现,尽管从训练开始到结束,很少次数的可开发性确实会降低,但是最强的开发不会通过训练发生很大变化。

Asya 的观点:这篇论文代表了自动化外交领域的真正进步,但距离人类水平还很远。我很想知道我们是否可以通过创建改进的自我对局算法(例如本文介绍的算法以及用于扑克和围棋的算法)达到人的水平,还是我们必须等待新颖的算法,适用于外交的更一般的推理算法。与扑克不同,对付多个人类玩家的外交涉及串通和隐含的信号,即使“无私聊”也是如此。在我看来,仅凭自我对局就很难成为那些动态模型的好手。如果我们确实通过自我对局达到了人类的水平,那将使我更加乐观地认为,在需要复杂的人类行为模型的其他领域,训练可能会成为瓶颈。

元学习

学习持续学习 (Shawn Beaulieu等人)(由 Robert 总结):本文提出了一种用于对抗型持续学习中的灾难性遗忘的 ANML(一种神经调节元学习算法)方法。持续学习是一个问题设置,其中系统按顺序呈现几个任务,并且必须在所有任务上保持良好的性能。在训练新任务时,神经网络通常会“忘记”如何执行先前的任务,这称为灾难性遗忘。这使得仅按顺序对每个任务进行训练的幼稚方法无效。

本文有两个主要思想。首先,作者不是使用手工的解决方案来避免灾难性的遗忘(即以前的方法鼓励了稀疏性),而是使用元学习直接为此目标进行了优化。这是通过学习网络参数化来完成的,在对许多任务进行顺序训练之后,该网络参数化将在所有任务上获得良好的性能。可以直接通过采用更高阶的梯度(梯度的梯度)来优化此外环目标函数。第二个想法是神经调节的一种新型形式。这采取神经调节(NM)网络的形式,该网络采用与预测网络相同的输入,并控制预测网络的前向通行。这提供了对预测网络的输出的直接控制,也提供了对预测网络的学习的间接控制,因为梯度将仅流经尚未被选通机制归零的路径。

他们的方法在 Omniglot 上获得了关于持续学习的最新结果,该数据集由 1623 个字符组成,每个数据集只有 20 个手绘示例。该网络仅需学习 15 个示例,即可学习一系列任务(例如,对角色进行分类),然后对所学习的所有类的整体性能进行测试。连续显示 600 个类时,他们的网络可获得 60% 的准确性。使用相同数据训练但随机随机洗消的分类器只能获得 68% 的准确性,这意味着对网络的灾难性忘记仅花费了8个百分点。他们的方法还比手工的方法更好地学习了网络激活中的一种稀疏形式 —— 虽然每个类别的激活非常稀疏,但是没有神经元被浪费,因为它们仍然在整个数据集中都被激活。

阅读更多: 论文:AI-GAs:AI生成算法,用于产生通用人工智能的替代范例

Robert 的观点:本文很有趣,因为它证明了元学习对制定真正的优化目标的作用。在机器学习中,经常有大量的研究致力于尝试手动路径以找到正确的归纳偏差来解决难题(例如灾难性遗忘)。取而代之的是,本文显示了我们可以通过直接优化所需内容,使用元学习等方法自动学习这些归纳偏差(例如稀疏性)。这与AI生成算法AN#63有关。显然,该方法仍将神经调节网络用作体系结构的归纳偏差 —— 有趣的是,我们是否可以通过神经体系结构搜索或仅使用更大的网络来学习这种方法(或更具体的方法)具有执行门限操作之类的表示能力。

监督学习

通过对比聚类分配进行无监督视觉特征学习 (Mathilde Caron 等人)(由 Rohin 总结):在用于图像分类的自监督表示学习中已经进行了大量工作(先前在 AN#92AN#99 中进行了总结)。当允许首先在 ImageNet 上进行自我监督的表示学习,然后在使用所有 ImageNet 的学习特征之上训练线性分类器时,本文将设置新的 SOTA,使 ImageNet 的 top-1 准确度达到 75.3%。

先前的方法在学习的表示中使用对比损失(可能在经过几个 MLP 层处理之后),这可以认为是使用学习的表示来预测同一输入的增强版本的表示。相反,本文使用表示来预测增强版本的“编码”,其中使用聚类计算编码。

Rohin 的观点:我不确定为什么我们应该期望这种方法有效,但是凭经验可以做到。如果我通读它所基于的所有相关工作,大概可以更好地理解其动机。

大型自我监督模型是强大的半监督学习者 (Ting Chen等人)(由 Rohin 总结):以前SimCLRAN#99表明,通过首先使用自我,可以在 ImageNet 上的半监督学习中获得良好的结果 —— 进行监督学习,但会产生对比损失,以学习图像的良好表示形式,然后在具有很少标签的表示形式上对分类器进行微调。本文通过三个主要改进报告了得分的显着提高:

  1. 使所有模型更大(尤其是更深)。
  2. 以前一样合并动量对比度(AN#99)。
  3. 使用模型蒸馏来训练学生网络以模仿原始的经过微调的分类器。

在基于 ResNet-50 架构的已学习功能的线性分类上,它们的 top-1 准确率为 71.7%,因此比以前的论文要低。他们的主要贡献是展示可以使用较大模型完成的工作。根据 ImageNet 的 top-1 准确性,使用 1% 的标签生成的系统可获得 74.9% 的图像,使用 10% 的标签可获得 80.1% 的结果。相比之下,使用 ResNet-50(大约小 33 倍)的标准监督学习在所有标签上均达到了 76.6%,在标签为 1% 时仅为 57.9%,在标签为 10% 时仅为 68.4%。当他们将最大的模型精简为 ResNet-50 时,标签为 1% 的比例为 73.9%,标签为 10% 的比例为 77.5%。

Rohin 的观点:这仍然让我感到困惑,为什么模型提炼如此有用 —— 你会认为,如果训练学生模型来模仿老师模型,它的表现和老师一样好,但是实际上,做得更好。值得注意的是,仅“训练更大的模型然后将其精简”就可以提高 16 个百分点(当我们只有 1% 的标签时)。这是另一件需要加入到我们不了解的关于深度学习的怪异经验事实列表的事情。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s