AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

在此处找到所有Alignment Newsletter资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

此处的音频版本   (可能尚未启用)。

强调

学习互动学习和协助 (Mark Woodward等人)  (由 Zachary Robertson 总结):  合作逆向强化学习 提出了一种模型,其中AI助手将帮助人类长官,其中只有长官才知道任务奖励。本文在深度强化学习的背景下探讨了这个想法。在他们的网格世界环境中,两名智能体四处走动,捡起柠檬或李子。长官因搬家而受到处罚,但是唯一知道应摘李子或柠檬的人。作者假设,简单地通过联合训练两个智能体以使奖励最大化,他们将自动学习互动以使助手学到任务,而不需要诸如比较或演示之类的明确机制。

递归 Q 网络用于智能体,然后通过深度 Q 学习对其进行训练。作者进行了一些显示紧急交互的实验。在第一个实验中,当 principal 因搬家而受到惩罚时,它学会向助手演示任务,然后让助手完成工作。在第二个实验中,当助手的视野受限时,助手会学会跟随 principal 看看自己的工作,直到可以推断出 principal 是想要李子还是柠檬。第三,他们在 50% 时间内告诉助手任务,因此 principal 最初不确定智能体是否需要任何指示(由于移动成本, principal 宁愿什么也不做)。智能体知道任务后,便执行任务。当智能体不知道任务时,它会靠近 principal,去达成“询问”奖励是什么的效果, principal 移动直到可以看到对象为止,然后通过向对象移动(如果应该收集)或不进行任何操作(如果没有)来“回答”。最后,作者使用像素作为输入进行了实验。尽管他们不得不改用 Dueling DQN 而不是普通的 DQN,但他们表明,联合奖励与网格方法相当。他们还对人类原理进行了实验,结果表明人类/助手对的表现优于人类-单人设置。

Zach 的观点:总的来说,我发现本文表达的观点很明确。虽然我认为网格世界环境有点简单,但是它们的结果很有趣。如果我们对人类与自治智能体之间的健壮的协作感兴趣,那么能够以在线方式学习意图是一个重要的问题。但是,作者指出,在大多数情况下(64%的时间),像素输入的训练都失败了,这引起了人们对该方法在非平凡环境中推广的兴趣。

Rohin 的观点:  我很高兴CIRL的想法正在逐步进入深度强化学习。最终,我希望我们希望一个智能体将其所有的感官数据作为“人类想要的”证据,而不是依靠特殊的奖励渠道或称为“比较”或“演示”的特殊类型的数据,这项工作采用了这种方法。

对于这些简单的环境,受过训练与其他人工智能体一起表现良好的智能体会合理地将其推广到真实的人类,因为 principal 只有几种合理的策略可以采用。但是,在更复杂的环境中,当有很多交互方式时,我们不能指望这种概括。(我很快就会有一篇关于这种现象的论文和博客文章。)

技术AI对齐

技术议程和优先级

四种方法衡量手段能帮助对齐 Matthew Barnett  (由 Asya Bergal 总结):许多  近期  (AN#25)  工作  (AN#49)一直专注于量化 AI 对世界的影响,又名影响度量,尽管有些人 表示怀疑。这篇文章介绍了影响措施可以帮助 AI 协调的四种潜在方式。首先,影响可以充当 调节器:未经训练的 AI 尝试进行价值学习可能会受到影响惩罚,从而阻止它在确信已学习正确的效用函数之前采取危险的行动。 其次,影响可以作为 安全规程:如果我们的训练过程很危险,例如由于 mesa 优化  (AN#58),我们可以在训练期间对影响进行惩罚,以安全地测试可能未对齐的模型。 第三,影响可以起到 影响限制器的作用:影响度量可以帮助我们构建范围有限的AI,而这不会严重影响整个世界。 第四,影响可以帮助我们 消除混乱:即使不使用影响度量本身,关于影响的概念清晰性也可以帮助我们获得关于其他重要概念的概念清晰性,例如可修改性、适度的优化等。

Asya 的观点:我对作为正则化工具的影响和作为安全协议的影响感到非常兴奋。我觉得在运行时刻受到影响限制的 AI(影响限制条件)不太可能与其他没有影响力的 AI竞争(这将在后文中讨论)。我发现这样一种论点,即影响对于取消混淆的强制性尤其有用。

Rohin 的观点:在我看来,安全协议参数是针对训练时的有限动作,而影响限制因素是针对测试时的有限动作。我真的不知道正则化器应该与这两种情况有什么不同 —— 也许是因为它是 AI 专门优化的效用函数分布上的正则化器?这仍然令人困惑,我希望影响限制器的情况也可以改变效用函数。像 Asya 一样,我也担心竞争力:请参阅 下面有关可逆变化的文章  。

防止不良行为

可逆的变化:考虑一桶水 (Stuart Armstrong)  (由 Rohin 总结):这篇文章认为影响正则化方法需要偏好信息才能正常工作。考虑一个必须导航到某个位置的机器人,而最快的方法是将一桶水踢进游泳池以使其畅通无阻。即使水桶不可逆转,踢水桶也是可以接受的,但如果水具有用于工业过程的特殊盐混合物,则可能不会。为了确定适当的惩罚措施,我们需要偏好信息 —— 仅考虑与价值不可知的任何事物(如可逆性)是不够的。

Rohin 的观点:我同意这一点 —— 就像我之前说的那样,似乎很难同时避免灾难,又是有用的,并是价值无关的。这篇文章认为,如果我们要避免灾难并发挥作用,那么我们就不能与价值无关。

对抗性例子

自然对抗性示例 (Dan Hendrycks 等)  (由 Flo Dorner 总结):本文介绍了一个新的数据集,用于评估图像分类器的最坏情况性能。ImageNet-A 包含未经修改的自然图像,这些图像始终被 ImageNet 上训练的流行神经网络体系结构误分类。基于一些具体的错误分类,例如黄色塑料铲上的蜻蜓被归类为香蕉,作者推测当前的分类器过分依赖颜色、纹理和背景提示。既不进行经典的对抗训练,也不进行旨在减少对纹理的依赖的 ImageNet 版本的训练,都无济于事,但是修改网络体系结构可以将ImageNet-A 的准确性从 5% 提高到 15%。

Flo 的观点:这似乎表明,即使在自然发生的情况下,当前用于图像分类的方法和/或训练集仍远不能实现健壮的泛化。虽然并不令人意外,但这些结果可能会说服那些由于依赖人工扰动而大大削弱了经典对抗性示例提供的证据的人。

Rohin 的观点:这个数据集让我特别兴奋,因为它似乎是评估新技术的健壮性的一种明显更好的方法:它更接近于对该技术的“真实世界”测试(与引入分类器的人工扰动相反)预计会很强大)。

领域建设

AI阅读列表 Vishal Maini

人工智能战略与政策

AI联盟播客:中国的AI超级大国之梦 Lucas Perry and Jeffrey Ding  (由 Rohin 总结):另请参阅  以下  (AN#55),  三个  (AN#61)  播客  (AN#63)。

人工智能的其他进展

强化学习

关于深度强化学习中的归纳偏差(Matteo Hessel,Hado van Hasselt等人)(由Sudhanshu Kasewa 总结):我们使用的归纳偏差越少,我们的算法就越通用。但是,减少归纳偏差到底有多少帮助呢?本文用通用或自适应变体替换了 A2C 智能体的几个手工设计的组件,以凭经验回答这个问题。

具体来说,他们进行了比较:1)奖励截断与通过PopArt进行奖励规范化   (AN#24),2)精选折扣因子与通过元学习进行在线自适应折扣,3)固定动作重复与学习的动作承诺,以及 4)标准 Atari 观测预处理与将原始观测值传递到递归网络中。在超过 57 个 Atari 任务中,他们发现仅在(1)中,调整后的算法优于自适应方法。(2)和(3)的性能相似,在(4)中建议的方法优于基准。当将完全自适应的智能体与初级智能体(针对 Atari 设计的启发式方法)进行了 28 次未见过的连续控制任务进行比较时,自适应智能体在其中 14 个中表现更好,在一个中表现较差,在其余情况中表现大致相同,提供了证据更少的归纳偏差确实会导致更通用智能体。

Sudhanshu 的观点:总体看我很高兴看到这项工作主张减少复杂的流程中的手工调试和手工制作所花费的时间,并演示了目前存在的替代方法。

但是,我觉得这项工作没有完全比较调整超参数之间的权衡,并没有通过添加自适应组件来增加流程的复杂性。不过,我同意,后者是一次性的(每个归纳偏差),因此比前者更具可伸缩性,后者对于每个新任务的每个偏差都需要重复进行。

有趣的是,当我们更关心失败而不是成功的时候,或者当自适应智能体比基准智能体更适合/更不适合安全探索时,他们会如何解决问题。我的直觉是,智能体的自适应内部机制会导致其行为更有噪声/无法预测,并且可能不如我们目前为解决此类问题所做的努力。

Rohin 的观点:虽然可以肯定的是,归纳偏差越少意味着更加通用的智能体,但通常也意味着更多的计算和数据需求。对于重复动作和学习到的折扣因子,只需学习一个新参数,因此无论哪种方式都没有太大的区别(实际上 Atari 的性能变化不大)。奖励截断的确比 PopArt 学得更快。我不知道为什么循环网络会在 Atari 的标准观测预处理上得到改进 —— 也许最初循环很难训练,而使用观测预处理已成为事实上的标准,后来当循环网络更加容易训练时没有检查去使用循环网络?

杂项(AI)

视觉模型中的独立自我注意 (Prajit Ramachandran 等) (由 Cody 总结):继各学科中注意力模型的普遍兴起之后,本文认为仅注意力模型可以与卷积网络在图像分类任务上的性能相媲美,而卷积已经成为多年以来流行的默认方法。由于注意力不会随着空间比例的增加而按参数进行缩放,因此可以在参数和 FLOP 数量明显减少的情况下实现这种可比的性能。作者对注意力进行了一些有趣的修改。首先,除了存储图像内容的矢量外,还应注意图像中像素位置的表示形式。在本文中,他们发现以相对术语(即“该像素离注意力正被计算的中央像素有多近”)。

这可以看作是卷积的一种推广形式,在这种情况下,注意力不是将固定像素权重的核按相对位置索引,而是将内容和相对位置都作为输入并动态生成权重。另一种修改是,在网络的下部,对注意力范式进行某种程度的修改,以使每个位置的“值”不仅是该位置输入的中性变换版本,而且根据输入的不同而变换像素相对于锚点(正在计算注意力)的位置。在网络的较低层,卷积往往会超过注意力,但是注意力在网络的更高层表现更好。作者声称这是有道理的,

Cody 的观点:我喜欢并赞赏本文对卷积模型用于图像处理的明显默认性提出质疑的方式,尤其是它突出了插值路径上的各种可到达点(邻域感知的值转换、相对位置位置编码等)的方式。纯粹基于相对距离(卷积)的权重与纯粹基于内容相似性的权重(注意,没有任何位置表示)之间的权衡。我希望将来看到这一领域的更多工作,探索网络体系结构中以内容为中心或位置为中心的计算最有价值的不同地方。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s