AN #100 智能体在执行时学习奖励函数 可能会出问题

中文版

对齐周报第 100 期

对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

TABLE_OF_CONTENTS: TableOfContents

强调

在线学习奖励函数的陷阱 (Stuart Armstrong 等人)(由 Rohin 总结):学习要尝试优化的指标可能很危险:如果未正确设置,可能会激励智能体以在度量学习中“朝特定方向更新”,以便将来进行优化(先前在朝着交互式逆向强化学习中提出的观点)。本文分析了当智能体同时学习奖励函数时可能出现的问题,并对该奖励函数进行优化。

智能体可能有动机来“操纵”奖励学习过程,从而找到易于优化的奖励函数。例如,假设有一个学生 Sandra,她必须从 Trisha 老师那里弄清楚项目的截止日期和评估标准。Sandra 希望如果她问 Trisha 截止日期是什么时候,她会说截止日期是本周晚些时候。因此,Sandra 可能会巧妙地问:“该项目是下周还是再下周?”,Trisha 可能会在“下周”做出回应。这样,Sandra 可以操纵截止日期学习过程,以便获得更有利的截止日期。

更糟糕的是,在这种情况下,严格控制学习过程可能会破坏你正在考虑的每个奖励函数的值。例如,让我们假设,如果无法操纵 Trisha,那么 Sandra 的最佳策略将是立即开始该项目,而不管实际的截止日期是什么时候。但是,鉴于 Trisha 可以被操纵,Sandra 今天将花费其操纵 Trisha 设置一个较晚的截止日期 —— 从任何固定截止日期的角度来看,该行动显然都不理想。该论文将其描述为确定的奖励牺牲

为避免这种情况,我们需要严格的学习过程,即始终期望的最终学习奖励(截止日期)独立于智能体(Sandra 的)策略。这种不可固定性(unriggability)几乎等同于不可影响性(uninfluencability),在该属性中,我们必须能够在环境中放置一些背景变量,以便可以说学习过程是在“学习”这些变量。从技术上讲,不可固定的过程虽然通常是必需的,但也不一定是不可影响的(有关详细信息,请参见论文)。

但是,这些属性仅约束对最终奖励分布环境期望:它不会阻止智能体以某种方式改组奖励函数以与合适的环境匹配。例如,在不知道哪些项目是容易或困难的情况下,Sandra 可以操纵 Trisha 来为容易的项目提供早期截止日期,并为困难的项目给出较晚的截止日期,从而保留早期和晚期截止日期的分布方式。这将满足不可固定性(并且可能还会影响不可影响性,具体取决于确切的形式化)。

作者在一个简单的 gridworld 示例中演示了这些问题。他们还指出,有一种简单的方法可以使任何学习过程都不受影响:选择一个特定的策略π,该策略收集有关奖励的信息,然后将新的学习过程定义为“如果执行 π,则原始学习过程已经说的话”。

阅读更多: 博客文章:学习和运用学习

Rohin 的观点: 我对本文的观点与本文的解释方式有所不同。考虑一个人工智能系统,我们在其中构建对奖励和更新规则的先验,然后将其付诸实践。在轨迹的末端,根据推断的奖励后验下的轨迹的期望奖励来奖励它。然后,激励人工智能系统选择易于使所得后验最大化的动作。

这不需要奖励函数是模棱两可的。它只要求更新规则不完美。例如,假设 Alice 有着喜欢苹果甚于香蕉的偏好,并且你使用更新规则“如果 Alice 吃了一个苹果,就推断出她喜欢苹果;如果 Alice 吃了一个香蕉,则推断出她喜欢香蕉”。机器人发现更容易握住硬质苹果,因此在 Alice 喜欢苹果的世界中可以获得较高的期望奖励。如果你按照上述方式训练机器人,那么机器人将学会扔掉香蕉,这样爱丽丝的唯一选择就是一个苹果(我们假设她随后会吃),从而让机器人“推断” Alice 喜欢苹果,然后可以轻松地最大化。如果我们拥有足够强大的优化程序,则在大多数当前的奖励学习设置中都可能发生这种问题。

在我看来,问题在于你正在训练角色,而不是在训练更新规则,因此角色学会了“欺骗”更新规则。相反,似乎我们应该同时训练两者。这是什么样的使用情况协助游戏/CIRLAN#69),在其中训练策略的最大化预期回报之前,因此该策略动机是采取最佳的信息收集行动(如果你斜视其中,就像“训练好更新”),并最大限度地提高其认为的真正回报。当然,如果你在游戏中的先验/更新规则未正确指定,则可能会发生不好的事情。另请参见 Stuart 在这里这里的反应以及我对这些帖子的评论。

技术性人工智能对齐

可解释性

评估可解释的人工智能:哪些算法解释可帮助用户预测模型行为? (Peter Hase 等人)(由 Robert 总结):在本文中,作者对 5 种不同的模型不可知性解释方法(LIME、Anchor、决策边界、原型模型和复合模型(LIME Anchor 和决策边界))进行了用户测试。他们测试的用例是预测收入的表格数据集和预测来自单个句子的评论情绪的电影评论数据集。

他们的实验设置包括 2 个测试:前向预测反事实预测。在前向预测中,向用户显示了 16 个输入示例以及相应的输出和解释,然后必须在新输入上预测模型的输出(没有解释,通常会给出答案)。在反事实预测中,在查看了 16 个示例之后,为用户提供了输入-输出-解释三元组,然后必须针对输入的特定扰动预测输出如何变化。

在整个结果中,他们使用 p <0.05 的显着性阈值(他们没有使用 Bonferroni 校正)。他们的研究结果来自 32 位不同的学生的反馈,他们至少参加了 1 门计算机科学课程,并且其中一些人在训练过程中被筛选出异常值或低准确率。每个方法/数据集类型组合以及每个方法/预测类型组合大约有 200 个单独的预测。

总体而言,他们的结果表明,只有LIME(与局部可解释模型无关的解释)有助于在两个预测设置中的表格数据集上具有统计显着性的性能提升,并且仅在两个数据集的反事实预测中具有原型模型。**没有其他结果具有统计学意义。**对于具有统计意义的结果,准确性的提高约为 10%(使用 LIME 的表格数据集的准确率从 70% 提高到80%,在反事实预测中对于Prototype的准确率从63%提高到73%)。

他们还表明,用户对解释方法的评分与模型对他们的预测的改进没有统计学上显着的关联。

Robert 的观点: 我很高兴有这样的论文,因为我认为这种工作对于评估我们正在构建的可解释性方法是否真正有用至关重要。我对结果并不感到惊讶,因为以前没有进行过严格的测试,因此研究人员从未知道他们的方法是否产生了很好的解释。

低样本量削弱了这项研究,这使得许多 p值不显着。我的直觉说,如果样本量较大,则更多的方法会在一种域/预测设置中产生统计上显着的阳性结果,但似乎有些设置(前瞻性预测和文本数据)很难改善,没有一种方法能比 5.7%(p 值为 0.197)更好地改善性能。

真正有趣的一点是用户偏好与性能改善之间缺乏紧密的关联。可以通过以下事实来解释这一点:大多数方法对性能改进均无效,但是(对我而言)似乎可以接受,即使某些方法有效:如果不能清晰地解释所解释的模型行为,那么确实能够解释该行为的方法可能会产生混乱且令人困惑的(但是真实的)解释,因此,与给出干净、清晰(但错误的)解释的方法相比,用户获得的评分较低。我认为这是由于缺乏对这些解释方法的确切目标的定义而引起的。如果没有目标,就无法衡量该方法是否达到了目标。

使用注意力增强实现可解释的强化学习 (Alexander Mott等)(由 Robert 总结):在本文中,作者训练了一个内置了软注意力模块的强化学习智能体。注意模块在视觉输入和选择下一个动作的网络之间形成了瓶颈,这迫使模型学习仅关注场景的重要部分。这意味着他们可以可视化模型认为重要的输入部分,因为这些部分是模型正在关注的部分。对注意力模型的查询由顶级递归网络确定,而没有来自当前图像的输入,因此可以作为“自上而下”注意力的一种形式,在这里可以想象高层控制器正在查询处理过的图像的各个位置和对象。

训练了这个智能体之后(他们在少数 ATARI 游戏上仍具有 SOTA 强化学习模型的竞争性能),他们定性评估了各种游戏上的注意力可视化。他们在注意力计划中发现了几种常见的策略,例如,智能体注意特定的点直到对象越过该点(“绊线”)。在两个常规像素以及基于傅立叶的位置编码上计算注意力。由于其体系结构的这一方面和其他方面,作者可以检查查询是否集中在像素值上(即在任何地方寻找特定的像素模式)还是位置特征(即询问在特定位置上存在哪些像素)。例如,他们发现智能体经常查询分数显示的位置,大概是因为它对于计算值函数很有用。他们还将自己的方法与基于自我注意的模型以及其他显着方法进行比较。

感受视觉效果的最佳方法是访问论文的网站并观看示例视频。

阅读更多: 本文的网站

Robert 的观点: 本文的方法并不是革命性的,但有趣的是了解解释强化学习智能体的工作,并且可解释性是内置的这一事实很有趣:它为我们提供了更难保证的可视化效果模型认为重要的输入部分,因为它们实际上在处理过程中很重要。很有希望看到内置的可解释性似乎也不会对性能造成很大的影响-有趣的是,将此方法应用于其他更强大的模型,并查看它是否仍会产生有用的可视化效果以及如何影响其可视化效果。性能。

领域构建

欧洲人的人工智能治理职业道路 (匿名)(由 Rohin 总结):听起来确实如此。

杂项(对齐)

NeurIPS 影响力声明编写指南 (Carolyn Ashurst 等人)(由 Nicholas 总结):NeurIPS 2020 要求论文提交,包括有关其工作更广泛影响的声明。这篇文章提供了有关如何编写有效影响声明的指南。他们建议着重于正面和负面的最重要,被忽略和最易处理的影响,同时传达所涉及的不确定性。他们还建议通过阅读技术治理文献和建立制度结构,并将此信息包括在简介中,将其纳入研究过程。

然后,他们的指南建议考虑3个问题:

你的研究如何影响机器学习应用?

这些应用程序的社会意义是什么?

哪些研究或其他举措可以改善社会成果?

指南中提供了更多有关如何回答这些问题的信息,并提供了一些示例。

Nicholas 的观点: 我绝对赞成在进行或发布机器学习研究之前考虑其影响。我认为该领域目前处于或接近阈值,论文将开始在现实世界中产生重大影响。尽管我认为这一要求不足以确保取得积极的成果,但我很高兴 NeurIPS 尝试了一下。

我认为这篇文章提出了很强的观点,并且将提高提交的影响陈述的质量。我特别喜欢传达不确定性的观点,这是我认为机器学习社区将从中受益的规范。我在这里要补充的一件事是,给出明确的概率通常比诸如“可能”或“可能”之类的模糊词语更有帮助。

人工智能的其他进展

强化学习

零次协调的“他人对弈” (Hengyuan Hu 等人)(由 Rohin 总结):我们如何构建可以与人类协调的人工智能系统?尽管过去的AN#70工作AN#70)假设可以访问一定数量的人类数据,但本文旨在完全不进行任何人类数据的情况下进行协调,他们将其称为零次协调。为了开发算法,他们假设自己的伙伴也被“训练”为零次协调。

他们的关键思想是在零次协调中,因为你不能通过事先达成协议来破坏对称性(即你无法达成共识,例如“我们将向左行驶,而不是向右行驶”),你需要一个对保留这些对称性的重新标记具有健壮性的策略。这很容易训练:你只需要进行自我训练,而是以保留MDP结构的方式(即使用一种对称性)随机地分别重新标记每侧的状态,动作和观察结果。因此,双方都必须发挥有效的策略,而又不知道另一位智能体的观察和行动如何被重新标记。在实践中,对于一个 N 玩家游戏,你只需要随机分配 N-1 个重贴标签,因此在两个玩家游戏中,他们认为它们只是随机重贴了自我游戏的一侧。

他们在 Hanabi(游戏不变于重新标记颜色)中对此进行了评估,并证明了所产生的智能体更擅长与接受过不同种子或略有不同架构训练的其他智能体一起玩耍,并且他们在人类中的玩法也更好,非职业玩家的平均得分为15.75,而通过常规自我游戏训练的智能体的平均得分为9.15。

Rohin 的观点: 为了进行比较,我认为与新玩家一起玩时,我的得分大约为17-22,最高得分为25,因此,如果不使用任何人类数据,则15.75的得分非常合理。话虽这么说,在其他设置中似乎很难使用此方法-即使在相对简单的“ 过度煮熟”的环境AN#70)中,此类训练也没有明显的对称性。也许将来的工作将使我们能够以某种方式找到游戏中的近似对称性,然后我们就可以训练它们变得更健壮了?

通过自我对局来学习多智能体协商 (Yichuan Charlie Tang)(由Rohin总结):虽然前一篇文章介绍了其他游戏以使其对未知的合作伙伴变得强大,但本文采用了另一种方法,即简单地训练一个健壮的智能体到各种各样的可能的智能体。特别是,它研究了自动驾驶汽车的“拉链合并”环境,并训练了智能体以使其对各种基于规则的智能体以及自身的过去版本具有健壮性,并发现这样做可以带来更大的成功合并策略。但是,这是根据接受过培训的人员而不是任何以前看不见的人员进行评估的。

构建可以利用隐藏信息掌握复杂的合作游戏的人工智能 (Adam Lerer等人)(由 Flo 总结):本文改进了玩HanabiAN#45)的人工智能智能体的先进技术,这是一种具有挑战性的合作多人游戏因为分散的隐藏信息和受限的通信。

该方法通过使用搜索改进基线策略而起作用。在最简单的情况下,只有一个智能体执行搜索,而所有其他智能体都遵循固定的策略,这样就可以减少在 POMDP 中进行搜索的问题。即使搜索很浅,仅此一项也可以带来相关的改进。固定策略之所以有帮助,是因为它们允许搜索智能体在看到其他智能体的行为时正确地更新其对隐藏信息的信念(因为它知道在给定隐藏信息的不同状态下其他智能体的行为方式)。通过让每个智能体模拟彼此的搜索过程,可以将这种想法推广到所有智能体执行搜索的情况。由于智能体 A 在第二轮中的信念还取决于智能体 B 在第一轮反事实情况下的搜索过程,因此这很快就会变得昂贵。这样智能体 B 在第二回合中的搜索也必须模拟这些反事实。引入了计算预算以使其在计算上可行,并且所有智能体都知道,如果其他智能体的费用低于预算,则其他智能体将仅依次使用搜索。

由于搜索可以在任何策略之上执行,并且可以在推理过程中充分利用计算能力,而不仅是训练,因此它很好地补充了使用深度强化学习的更直接方法,而在 Go 和 Poker 中也发现了这一特点。

阅读更多: 论文:通过在部分可观察的合作游戏中进行搜索来改善策略


Flo的观点: 回想起来,这种解决方案似乎非常明显。尽管作者非正式地报告说,他们的方法提高了用人类替代其他智能体的健壮性,但他们给出的例子似乎表明,这是因为搜索可以防止在人类行为引起的新颖情况下出现明显的错误。因此,我仍然希望(隐式)人类模型AN#52)成为人机合作的重要组成部分。

深度学习

日益增长的神经细胞自动机 (Alexander Mordvintsev等)(由 Zach 总结):生物体的形状发展(形态发生)过程是一个活跃的研究领域。一个中心问题是确定细胞如何决定如何生长以及何时停止。用于研究此问题的一种流行模型是 Cellular Automata(CA)。这些模型单元生活在一个网格上,并通过查看它们最近的邻居生成的规则相互交互。作者通过引入不断依赖于其周围环境的规则集,为这一研究方向做出了贡献。连接 CA 和深度学习的中心思想是,由于规则集是恒定的,因此更新规则的工作方式与卷积过滤器类似。这使作者可以利用可用于训练神经网络来模拟 CA 的方法。利用这种见解,作者训练了可以形成抗干扰和删除图像的 CA。换句话说,CA 能够再生。

Zach 的观点: 这种方法的主要意义在于,它提供了概念证明,即可以采用适合深度学习方法的令人尴尬的并行方式对复杂的目标(例如形状形成)进行编程。这自然会在通信成本很高的多智能体设置中产生影响。我建议你查看主要的 Web 应用程序,该应用程序使你可以在 CA 成长期间观看 CA 并与之交互。他们还有一个代码存储库,可以轻松地适应你自己的模式的培训。例如,我在这里种植了一颗再生的 Patrick Star 。

元学习

用于多任务学习的梯度手术 (Tianhe Yu 等)(由 Nicholas 总结):在多任务学习中,算法为多个任务提供了数据,并尝试同时学习所有任务,理想情况下在它们之间共享信息。本文确定了悲剧性三重条件,当同时存在这三个条件时,它们可以防止梯度下降找到一个好的最小值:

当一个任务的梯度指向另一个任务的不同方向时,就会发生冲突的梯度

当一个任务的梯度比另一个任务的梯度大得多时,就会出现主导梯度

高曲率是指多任务曲率在梯度方向上较高时。

在这种情况下,梯度到高曲率区域的线性近似会导致高估主导梯度任务的性能提升,而低估了冲突梯度任务的性能下降。我发现描绘了抛物线 y=x^2,发现梯度下降步骤高估了进度,而梯度上升步骤低估了有助于理解这一点。

为了解决这个问题,他们提出了 PCGrad,以成对的方式将所有渐变投影到其他渐变的法线平面中。他们的理论分析建立了 PCGrad 的收敛性,并凭经验表明它可以与其他多任务算法结合使用以提高性能,并使多任务监督学习和强化学习的优化更加容易。他们还显示了一些图,证实了这些定理的必要条件出现在这些情况下。

Nicholas 的观点: 我喜欢本文如何分析特定问题的损失情况,多任务学习,并使用该知识来推导新算法。我在机器学习论文中总是发现棘手的一件事是,很难确定算法起作用的理论(通常显示在玩具模型上)也是提高性能的原因(通常使用复杂的神经网络显示)。我很欣赏本文检查了他们训练的多任务强化学习模型中的定理条件。话虽如此,我认为为了确认他们描述的悲剧性三重是 PCGrad 改善性能的机制,他们将需要某种方式来切换三重的每个元素,同时保持所有其他内容不变

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s