AN #107 目标导向的智能体的收敛工具性子目标

中文版

对齐周报第 107 期

对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

TABLE_OF_CONTENTS: TableOfContents

强调

基本的人工智能驱动力 (Stephen M. Omohundro)(由 Rohin 总结):2008 年的论文介绍了收敛的工具性子目标:除非谨慎避免,否则人工智能系统将“默认”具有这些子目标。对于本文而言,人工智能系统是“具有通过在世界范围内行动而试图实现的目标”的系统,即,它假定系统是目标导向的AN#35

首先要论证一个足够强大的目标导向的人工智能系统将要自我提升,因为这可以帮助它在(可能很长的)未来更好地实现其目标。特别是,从效用函数由其目标决定的角度出发,它将希望最大化其期望效用,这将使其成为“理性的” 。(这样做的理由是 VNM 定理,以及支持贝叶斯主义和期望效用最大化的各种荷兰赌(Dutch book)论点。)

但是,并非所有修改都对人工智能系统有利。特别是,它将非常希望保留其实用效用函数,因为它决定了将来它将(尝试)完成的工作,并且从当前实用效用函数的角度来看,实用效用函数的任何更改将是一场灾难。同样,它将希望保护自己免受伤害,也就是说,它具有生存动机,因为如果死了就无法实现其目标。

最终的工具性子目标是获取资源并有效地使用资源以实现其目标,因为按照定义,资源几乎可用于多种目标,包括(可能是)人工智能系统的目标。

Rohin 的观点:在本期周报中,我经常提到收敛的工具性子目标,因此似乎我应该对其进行总结。我特别喜欢这篇论文,因为它在 12 年后保存得很好。即使我批评AN#44认为强大的人工智能系统必须是期望效用最大化器的想法,但我仍然发现自己同意本文,因为它假设了目标导向的智能体和那里的原因,而不是试图争论强大的人工智能系统必须以目标为导向。鉴于此假设,我同意此处得出的结论。

技术性人工智能对齐

MESA 优化

内部安全性,外部安全性以及构建安全高级人工智能的建议 (Lucas Perry 和 Evan Hubinger)(由 Rohin 总结):该播客涵盖了很多主题,特别关注高级机器学习系统中学习到的优化带来的风险AN# 58,以及有关构建安全高级人工智能的11条建议的概述AN#102

Rohin 的观点:我的摘要很详细,因为在本周报中之前已经强调了许多主题,但是如果你不熟悉它们,那么播客是学习它们的重要资源。

学习人类意图

利用本体感受从视频中模仿学习(Faraz Torabi 等人)(由 Zach 总结):从观察(IfO)到模仿学习的最新工作使智能体可以从不包含状态和动作信息的视觉演示中执行任务。在本文中,作者对利用本体感受信息,内部状态的知识来创建有效的 IfO 算法感兴趣。与通常仅使用观察向量的 GAIfO 相比,该算法仅允许将图像用于判别,但允许智能体使用内部状态来生成动作。他们在多个 MujoCo 域上测试了他们提出的技术,并表明它优于观察算法的其他模仿技术。

Zach 的观点:我认为很容易忘记观察不一定等同于状态表示。这篇文章很好地提醒了我,在 MujoCo 任务中使用状态特征不同于使用图像训练模仿学习智能体。实际上,由于部分可观察性,尝试仅从图像中学习可能会失败,但是在这里引入本体感受是一种自然的解决方案。我大致同意作者的结论,即解决实施例不匹配和视点不匹配是此类研究的自然下一步。

验证

用于深度强化学习的经过认证的对抗式健壮性 (Michael Everett、Bjorn Lutjens 等人)(由 Flo 总结):对抗式健壮性AN#19为小扰动对神经网络输出的影响提供了保证。本文采用这种方法,通过训练 DQN 并通过在根据证书范围估算的对抗性扰动下选择具有最佳最坏情况 Q 值的行动(称为健壮的最优行动)来使强化学习更加健壮,而不是通过 Q 值最高的动作。

该方法在 Cartpole 和需要避免碰撞的导航任务上进行了评估,在两种情况下对手都会干扰观察。对于较小的扰动,此技术实际上会提高性能,但是随着扰动变大,智能体的保守性可能导致性能大幅下降。

Flo 的观点:虽然这种方法很简单,并且在许多情况下肯定会增强健壮性,但似乎值得一提的是两个严重的问题。首先,他们假设最初的 DQN 训练学习了完美的 Q 函数。其次,提供的证书是关于单个操作的,而不是策略性能的:DQN 中近似的 Q 值从下一个操作开始具有最佳性能,此处未给出。我有点担心没有真正讨论这些限制,而论文声称“由此产生的策略带有解决方案质量证书”。

杂项(对齐)

AvE:通过授权提供帮助 (Yuqing Du 等人)(由 Rohin 总结):进行人工智能对齐的一种方法是进行意图对齐AN#33,我们在其中构建了一个试图帮助用户的人工智能系统。通常,我们可能会想像推断出用户想要什么,然后帮助他们得到它,但这通常容易出错。取而代之的是,我们可以简单地帮助用户实现更多目标。我们可以正式将其视为他们的授权。

作者展示了如何在高维环境中执行此操作,并通过模拟的人类和人类研究在简单的 gridworld 示例以及 Lunar Lander 环境中演示了该方法的好处。总体而言,他们发现,当可能的目标集很小且指定得当时,目标推断会表现良好,但是,如果有许多可能的目标,或者目标集存在误称,那么针对人类授权进行的优化会更好。

Rohin 的观点:当我们尝试“帮助用户”时,我们希望将用户视为目标导向的智能体。我喜欢本文如何利用工具性收敛,这是目标导向智能体的核心属性,并利用这一事实来设计更好的辅助系统。

目标局部性 (Adam Shimi)(由 Rohin 总结):这篇文章介绍了目标局部性的概念,即目标离目标有多远。例如,温度计的“目标”是非常本地化的:它“想要”调节房间的温度,而不是“关心”相邻房屋的温度。相比之下,回形针最大化器的目标非常非本地化,因为它“关心”宇宙中任何地方的回形针。我们还可以考虑目标是否取决于智能体的内部,其输入、其输出和/或环境。

这个概念很有用,因为对于极度局部化的目标(通常是有关内部或输入的目标),我们会期望发生窃听或篡改,而对于极度非局部化的目标,我们会期望收敛的诸如资源获取之类的工具性子目标。

目标和简短描述 (Michele Campolo)(由 Rohin 总结):这篇文章认为目标导向策略的一个区别因素是,相对于例如为每个观察值分配随机选择的操作的查找表,它们具有较低的 Kolmogorov 复杂度。然后将其与量化器AN#48mesa 优化AN#58相关。

Rohin 的观点:在我看来,这是目标导向的一个方面。请注意,这不是充分条件。例如,始终选择动作 A 的策略的复杂性极低,但我不会将其称为目标导向的。

人工智能的其他进展

分层RL

用于部分可观察的强化学习的学习奖励机器 (Rodrigo Toro Icarte 等人)(由 Rohin 总结)(H / T Daniel Dewey):通常,在强化学习中,智能体仅获得奖励信号:它看到一个数字,表示如何做得好。如果智能体可以通过奖励的结构化表示来更全面地了解问题,则可能更容易解决问题。这样可以推断出“如果我向左移动,我将获得奖励 5,但是如果我向右移动,我将获得奖励 10”。在当前的强化学习范式下,必须在单独的回合中尝试两种动作以了解这一点。

基于模型的强化学习尝试恢复某些结构化表示形式:它学习世界模型和奖励函数,因此你可以提出以下形式的查询:“如果我采取此一系列动作,我将获得什么奖励?” 希望是,学习到的模型可以推广到我们以前从未见过的新序列,从而使智能体可以从更少的环境交互中学习(即更高的样本效率)。

这项工作使用奖励机器完成了类似的工作。关键思想是使用有限状态机来表示奖励和动力学的某些方面,然后可以在不积累更多经验的情况下进行推理。特别地,给定一个 POMDP,他们建议学习一组状态 U,这样当将观察值 o 与状态 u 组合时,我们拥有一个 MDP 而不是POMDP。这被称为完美奖励机。为了使之可行,他们假设存在标记函数 L,该标记函数 L 在给定转换 的情况下提取所有相关状态信息。(由于 POMDP 可以简化为信念空间 MDP,因此始终可以通过使 U 为可能的信念集合,L 为等同函数来提取理想的奖励机器,但希望 U 和 L 可以更简单在多数情况下。)

它们提供了关于有限状态机的优化问题的表述,因此,完美的奖励机器将是该问题的最佳解决方案(尽管我相信其他不完善的奖励机也可能是最佳的)。由于他们是在离散空间中搜索,因此需要使用离散优化算法,最后使用 Tabu 搜索。

一旦他们从经验和标记函数 L 中学习了奖励机器,他们如何使用它来改善策略学习?他们提出了一个非常简单的想法:当我们获得经验时,将其视作对每个可能 u 的单独经验,以便你有效地乘以数据集的大小。然后,他们可以学习以状态 u 为条件的最佳策略(可以在测试时使用学习到的状态机来推断状态)。实验表明,这在某些简单的 gridworlds 中有效。

Rohin 的观点:总而言之,本文假设我们有一个带有标记函数 L 的POMDP,该函数从过渡中提取重要的状态信息。鉴于此,他们将从经验中学习(希望是完美的)奖励机制,然后使用奖励机制更有效地学习策略。

我看到此方法有两个主要限制。首先,它们需要一个良好的标记函数 L,该函数似乎很难指定(至少如果你想要仅提取相关信息的高级标记函数)。其次,我认为他们试探性地将每个转换作为单独的经验用于每个可能的 u 的尝试通常是行不通的 —— 即使你学习了一个完美的奖励模型(这样 o 和 u 的组合也共同构成了 MDP 中的“状态” ),不一定就对得到观察 o 的每个可能状态而言,在采取行动 a 时得到观察 o’。作者以一个带有按钮的网格世界示例来承认这种限制,该按钮可以更改过渡的工作方式。但是在我看来,在实践中,POMDP 中的基础状态通常会影响你得到的下一个观察结果。例如,在 Minecraft 中,也许你会获得一些砍伐树木的经验,其中下一次观察涉及到你拥有木头。如果将其概括为具有相同初始观察值的所有可能状态,则还将其概括为在你身后有一个即将攻击的敌人的情况。然后,你的策略将学会砍伐树木,即使知道背后有一个敌人。

在强化学习中弄清楚如何在 POMDP 中工作时如何推断基本状态似乎非常重要,因为对于我们的智能体来说,假设存在一个“马尔可夫”世界似乎是一个有用的归纳偏差,而我人们正在考虑这一点感到很兴奋。由于上述两个限制,我不希望奖励机器成为合适的前进的方向(至少到目前为止是这样),但是看到这一领域的新想法令人兴奋。(我目前对学习潜在状态空间模型感到非常兴奋,例如在DreamerAN#83中所做的。)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s