AN #58 Mesa 优化:这是什么,为什么我们应该关心它

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。

强调

高级机器学习系统中学到的优化的风险 (Evan Hubinger等):假设你搜索一个程序空间,寻找能够很好地玩 TicTacToe 的程序。最初,你可能会发现一些很好的启发式方法,例如去中心广场,如果你沿着一行有两个,然后放置第三个,等等。但最终你可能会找到 minimax 算法,通过搜索最好的行动从而最优化自身行为。值得注意的是,你对程序空间的外部优化发现了一个程序 本身就是 一个针对可能行动进行搜索的优化器。用本文语言来说,minimax 算法是一个 mesa 优化器:一个由基本优化器自主发现的优化器,在这种情况下的搜索针对所有程序。

为什么这与人工智能有关?嗯,梯度下降是一种优化算法,它搜索神经网络的参数空间,以找到在某个目标函数上表现良好的参数集合。发生同样的事情似乎也很合理:梯度下降可以找到一个本身正在进行优化的模型。那个模型将成为 mesa 优化器,它优化的目标是 mesa 目标。请注意,虽然 mesa 目标应该导致与训练分布上的基目标类似的行为,但它不需要在偏离分布时这样。这意味着 mesa 目标是 伪对齐的 ; 它如果在偏离分布时也导致类似行为,它是 健壮的(Robust)对齐

人工智能对齐的一个主要担忧是,如果强大的智能体优化了错误的目标,它可能会导致人类的灾难性后果。由于 mesa 优化器的可能性,这种担心加倍:我们需要确保基目标函数与人类对齐(称为 外部对齐)并且 mesa 目标与基目标对齐(称为 内部对齐)。一个特别令人担忧的方面是 欺骗性对齐:mesa 优化器具有长期的 mesa 目标,但知道它正在针对基目标进行优化。因此,它在训练期间优化了基目标以避免被修改,但在部署时,当被修改的威胁消失时,它就只追求 mesa 目标。

下面我们来举例说明动机,如果有人想要创建最好的生物复制器,他们可以合理地使用自然选择/进化作为这个目标的优化算法。然而,这将导致人类的创造,他们将是优化其他目标的 mesa 优化器,并且不优化复制(例如通过使用节育控制)。

本文有更多的细节和分析,哪些因素使得 mesa 优化更有可能,更危险等等。你必须阅读论文了解所有这些细节。一种通用模式是,当使用机器学习解决某些任务 X 时,有许多属性会影响学习启发式或代理的可能性,而不是实际学习针对 X 的最佳算法。对于任何此类属性,使启发式/代理更多可能会导致 mesa 优化的可能性降低(因为优化器不像启发式/代理),但是在 mesa 优化出现的条件下,更有可能是伪对齐而不是健壮的对齐(因为现在是启发式/代理的压力导致学习代理 mesa 目标而不是真正的基目标。

Rohin的观点:  我很高兴这篇论文终于出来了。mesa 优化和内部对齐问题的概念似乎非常重要,目前我最担心的是由于未对齐的 mesa 优化器导致的生存风险。不幸的是,目前尚不清楚 mesa 优化器是否会在实践中出现,尽管我认为基于我们在开发通用人工智能确实很有可能。梯度下降是一个相对较弱的优化器; 似乎通用人工智能必须要强大得多,因此需要学习优化器(就像人类可以被认为是“通过进化学习的优化器”一样)。

这个概念仍然存在很多混乱和不确定性,特别是因为我们对“优化”没有一个好的定义。在现有机器学习系统中很难得到一个这样的例子 —— 今天的系统可能没有强大到足以拥有 mesa 优化器(尽管他们有 mesa 优化器,但我们可能因为模型的难以解释而无法说清楚)。

阅读更多: 对齐论坛版本

技术AI对齐

智能体基础

选择与控制 (Abram Demski):前一篇论文侧重于 mesa 优化器,这些优化器明确地在一个可能的空间中搜索一个在某个目标上表现良好的选项。这篇文章认为,除了这种优化的“选择”模型之外,还有一个优化的“控制”模型,其中模型不能单独评估所有选项(例如,寻求热量的导弹,不能尝试分别指向目标的所有可能路径)。然而,这些并不是完全分离的类别 —— 例如,搜索过程可以在其内部具有基于控制的优化,以启发式的形式引导搜索到更可能的搜索空间区域。

Rohin的观点: 这是一个重要的区别,我认为大多数我们称之为“智能”的东西实际上更像是这两个选项的“控制”方面。

学习人的意图

作为 f-散度最小化的模仿学习 (Liyiming Ke等) (由 Cody 总结):本文通过将模型在轨迹(或条件行为)上的分布与专家策略分布相匹配的视角来研究模仿学习。这种分布比较的框架自然导致了对 f-散度的讨论,包括 KL 和 Jenson-Shannon 散度在内的一系列广泛的度量。本文认为,现有的模仿学习方法隐式地选择了激励“模式覆盖”的散度度量(确保在专家所做的任何地方得到支持)与模式崩溃(确保只有专家所做的支持),以及后者因安全原因更合适,因为专家策略的两种模式之间的平均值本身可能不是一项安全的策略。他们通过使用一个对逆-KL 距离作为模仿学习器背后的散度的变分近似展示了这点。

Cody 的观点:  我很欣赏这些将不同领域之间的人们直觉联系起来的论文(如模仿学习和分布差异的度量)。看起来这似乎更强烈地导致缺乏超越展示者的能力,但实际上这更多地是对模仿学习的批评,而不是特别指出这一点。

处理智能体群

社会影响看作多智能体深度强化学习的内在动机 (Natasha Jaques等) (由 Cody 总结):一个新兴的共同多智能体研究领域考虑如何诱导智能体群执行复杂的协调行为以增加总体奖励,并且许多现有方法涉及中心化地训练或将利他行为硬编码至智能体中。本文提出了一种新技术,它可以奖励智能体对其他智能体的行为产生因果影响,这样智能体对的行为具有很高的互信息。作者通过实验发现,即使少数智能体充当“影响者”,也可以帮助避免部分信息设置中的协调失败,并导致更高的集体奖励。在一个子实验中,他们只将这种影响奖励加入智能体的沟通信道,这样智能体被激励取提供将会影响其他智能体行动的信息(这个信息假设是真实和友好的,否则会在后续过程被忽略掉)

Cody 的观点: 我对本文的发现感兴趣,你可以通过激励智能体来影响其他人,而不是必然帮助他人,从而产生明显的利他行为。我也很欣赏以去中心化的方式进行训练的观点。我希望看到更多关于更为对称版本的影响力奖励的工作; 由于对因果反馈循环的担忧,目前影响者和被影响者是不同的群体,这隐含地意味着存在一组被构造的准利他主义者,他们得到的具体奖励较少,因为他们受到这种辅助奖励的激励。

不确定

ICML不确定性和健壮性研讨会接受的论文  (由 Dan H 总结):不确定性和健壮性研讨会接受论文可用。主题包括分布外检测、随机破坏的泛化和标签损坏的健壮性等。

杂项(对齐)

从一阶近似上看,道德现实主义和道德反现实主义是一回事 (Stuart Armstrong)

人工智能战略和政策

Grover:针对神经虚假新闻防御的当前最佳工作 (Rowan Zellers等):我们可以使用机器学习来检测其他机器学习模型生成的假新闻吗?本文建议用于生成虚假新闻的模型也可用于 检测  相同的假新闻。特别是,他们在新闻文章上训练了类似 GAN 的语言模型,他们称之为 GROVER,并且表明所生成的文章比人类生成的文章  更好的 虚假宣传,但它们至少可以被 GROVER 本身检测到。

值得注意的是,他们确实计划发布这些模型,以便其他研究人员也可以解决检测假新闻的问题。他们遵循与GPT-2  (AN#46)类似的发布策略  :他们将 117 M 和 345 M 参数模型公之于众,并向签署发布表格的研究人员发布他们的 1.5B 参数模型。

Rohin 的观点:  有趣的是,这个小组采用了非常相似的发布策略,我希望他们写了更多关于他们为什么选择做他们所做的事情。我确实认为他们正面对它与 OpenAI “保持一致”,但最终我们需要规范 如何 做出发布决定,而不是总是遵循先前某人设定的先例。虽然我认为他们的模型可能存在更大的风险 —— 虽然它们与发布的GPT-2模型的尺寸相同,但它们比 GPT-2 更适合产生虚假宣传。

阅读更多: 抵御神经假新闻

黑客学会信任 (Connor Leahy):一位独立研究人员试图复制  GPT-2  (AN#46),并计划发布该模型。然而,他现在决定不释放,因为释放将开创一个不好的先例。无论 GPT-2 是否危险,在未来的某个时刻,我们将开发真正危险的人工智能系统,我们需要有足够的规范,以便研究人员能够花时间评估潜在的问题,然后做出明智的决定。关键引用: “发送一个表明对于单个人单方面违反其他研究人员的合理安全问题是好的甚至是该庆祝的信息,本身其实不是一个好消息”。

Rohin的观点: 我非常强烈同意 GPT-2 决定的最重要影响是它已经开始讨论适当的安全规范应该是什么,而在此之前根本没有这样的规范。我不知道 GPT-2 是否危险,但我很高兴人工智能研究人员开始考虑是否以及如何改变发布规范。

人工智能的其他进展

强化学习

自然语言强化学习的调查 (Jelena Luketina等) (由 Cody 总结):人类使用语言作为有效存储世界知识的方式和处理新情景的指令; 本文是从这样的角度编写的,如果强化学习智能体可以以类似的方式利用语言中存储的信息,那么它将具有潜在的巨大价值。他们着眼于语言是任务内在部分的情况(例如:目标是通过语言指令参数化)以及语言用于提供辅助信息(例如:使用语言描述环境的某些部分)。总体而言,作者在这一领域推动了更多的工作,尤其是使用外部语料库预训练语言模型和使用人类生成而非综合生成语言的研究设计的更多工作; 为了速度,后者通常是首选,但前者我们有着特别的挑战需要克服来实际使用人类语言数据的已有资源。

Cody 的观点:这篇文章是我对评论文章所期望的一个可靠而实用的版本:作为一种在强化学习和自然语言处理技术的交集方向上思考的方式,它非常有用,让我对深入挖掘一些文中提到的技术更有兴趣了,因为按照设计这篇评论并没有深入到其中任何一个。

深度学习

转换器……“解释”? nostalgebraist  (H / T Daniel Filan):这是对自注意力机制和变换器 架构  (AN#44)背后的直觉和思想的极好解释  。

射线干扰:深度强化学习中的高原状态的来源 (Tom Schaul等人)  (由 Cody 总结):作者认为深度强化学习受到一种特殊的训练问题的影响,称为“射线干扰”,由一种情况引起(1 )任务中有多个子任务,一个梯度更新可以降低其他子任务的性能;(2)学习给定子任务的能力是其当前性能的函数。只要名义子组件或子任务之间存在共享组件,就会发生性能干扰,并且许多强化学习算法同策略学习意味着低性能可能导致参数空间区域中的数据收集很少,并且使得在将来提高性能变得更加困难。

Cody 的观点:  这似乎是一个有用的心理概念,但似乎很难有效地补救,除非通过优先选择免策略方法来实施同策略方法,因为实际上没有好的办法将真正的强化学习任务按照在玩具示例中的方式分解成可分离的组件。

元学习

Alpha MAML:自适应模型不可知元学习 (Harkirat Singh Behl等)


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s