AN #66 将健壮性分解为能力健壮性和对齐健壮性

在此处找到所有Alignment Newsletter资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

从本周开始,我们将有一些新的摘要器;你总可以在这里找到整个团队。我(罗欣)将继续编辑所有摘要和意见,并添加一些我自己的摘要和意见。

此处的音频版本   (可能尚未启用)。

强调

2-D 健壮性 (Vladimir Mikulik)  (由 Matthew 总结):通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑  mesa 优化  (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。

Matthew 的观点:以这种方式分解健壮性有助于我将错对齐的 mesa 优化与机器学习健壮性这一更普遍的问题区分开。我认为对研究人员来说,理解这种区别很重要,因为对于理解为什么解决健壮性问题的失败可能会导致灾难而不仅是良性的能力失败至关重要。

Rohin 的观点:我完全同意这种区别,实际上,当我考虑 mesa 优化问题时,我更喜欢只考虑功能强大但目标不明确的模型,而不是考虑模型的内部结构以及它是否正在执行搜索,这似乎是一个比较棘手的问题。

技术AI对齐

迭代扩增

通过学习说服问答模型找到泛化证据 (Ethan Perez 等人)  (由 Asya 总结:本文试图通过类似于辩论的AI安全性的技术 (AN#5)来提高关于文本段落的多项选择题的性能  。该设置由 法官模型 和一个或多个证据智能体组成。首先,对法官模型进行预训练,样本包括一个段落,关于该段落的多项选择题以及对该问题的正确答案。然后,在设置的实验部分,而不是查看完整的段落,判断模型查看的是通过合并多个证据智能体的输出而创建的段落的子序列。每个证据智能体都被赋予了相同的段落并为该问题分配了特定的答案,并且必须从段落中选择数量有限的句子以呈现给法官模型以使其确信该答案。

本文在调整其设置中的几个参数,包括法官模型的训练过程,所使用的问题,证据智能体用来选择句子的过程等。它发现,当法官模型负责概括时,对于这些参数的许多设置从较短的段落到较长的段落,或者从较容易的段落到较硬的段落,在证据智能体的协助下,它们对新段落的处理效果更好。它还发现,证据智能体提供的作为证据的句子以及判断模型都令人信服。

Asya的观点:我认为辩论代理人实际上可以提高模型的准确性是一个很酷且重要的结果。很难从这个狭义的例子中推断出很多东西来作为通用的AI安全技术进行辩论。法官模型是在回答多项选择题,而不是例如评估详细的行动计划,而辩论主体是在引用现有案文,而不是产生自己的潜在谬误陈述。

所有用于AI对齐的迭代/递归方法之间有什么区别? Issa Rice

mesa 优化

效用≠奖励 (Vladimir Mikulik)(由 Rohin 总结):这篇文章描述了mesa 优化的整体故事   (AN#58)。与原始论文不同,它着重于针对某项任务优化的系统(例如,瓶盖)与针对某项任务优化的系统之间的区别。通常,我们希望训练有素的神经网络能够得到优化。当它们也进行优化时,就会出现风险。

智能体基础

理想代理理论还是现有代理理论? (John S Wentworth)  (由 Flo 总结):对代理的理论理解至少可以通过两种方式使用:一方面,这种理解可以  设计  具有某些特性的人工代理。另一方面,它可用于  描述  现有代理。虽然成功对齐 AI 可能需要两种观点,但各个研究人员都面临一个权衡:要么他们将精力集中在有关强属性的存在结果上,这有助于设计(例如,MIRI 在嵌入式代理上的大部分  工作  (AN#31),或者他们致力于证明各种代理的较弱属性,这有助于进行描述(例如,  所有逻辑感应器都可以描述为市场,下面概述)。设计相对于描述的优先次序可能是对发展代理理论的正确方法的分歧的症结所在。

Flo 的意见:为了促进富有成果的讨论,在任何可能的情况下,将对目标的分歧与对手段的分歧区分开来似乎很重要。我喜欢清楚地展示这种尝试,以找出(子)目标层面上的共同意见分歧。

对逻辑归纳法来说市场是通用的 (John S Wentworth)  (由 Rohin 总结):逻辑归纳器是随时间分配逻辑语句概率的系统(例如 “ pi的百万分之一为3”),它满足 逻辑归纳法准则:如果我们将概率解释为如果陈述为真则支付$ 1的合约价格,否则为$ 0的合约价格,则不存在具有有限货币的多项式时间交易者函数,该函数可以随时间获得无限收益。在  原始论文  表明,逻辑归纳器存在。这篇文章证明,对于任何可能的逻辑归纳器,随着时间的推移,存在一些与逻辑归纳器产生相同价格的交易人市场。

对抗性例子

E-LPIPS:通过随机变换集合实现健壮的感知图像相似性 (Markus Kettunen 等) (由 Dan H 总结):卷积神经网络是评估图像之间感知相似度的最佳方法之一。本文提供了证据,可以使对抗相似性指标具有对抗性。开箱即用的基于网络的感知相似性度量指标显示出一定的对抗性健壮性。当分类器将长嵌入向量转换为类分数时,感知相似性度量会计算长嵌入张量和宽嵌入张量之间的距离,可能是多层的。因此,攻击者必须改变更多的神经网络响应,这使得攻击者对感知相似性度量的攻击更加困难。本文通过使用输入图像变换的‘弹幕’掩护以及在计算嵌入时使用诸如丢弃等技术,使攻击者更难进行攻击。

人工智能战略与政策

负责任的AI开发为何需要安全方面的合作 (Amanda Askell 等人)  (由 Nicholas 总结):公司越来越多地开发 AI 系统,因此了解竞争将如何影响这些系统的安全性和健壮性非常重要。本文将公司建模为参与合作背叛博弈的智能体,其中合作代表负责任的发展,而背叛则代表无法负责任地发展。该模型产生五个因素,这些因素增加了公司在安全方面进行合作的可能性。理想情况下,公司将  高度信任  其他公司在安全方面进行合作,相互合作可带来巨大收益(共同的利益),相互背叛所产生的巨额成本(共同的负面影响)),没有多少动力去投奔当别人合作(低优势),并且不会受到伤害太多,如果别人背叛的时候他们合作(低曝光)。

然后,他们提出了四种可以帮助改进当今规范的具体策略。首先,公司应帮助促进人们对安全利益的正确认识。其次,公司应在研究和工程上进行合作。第三,公司应透明并允许适当的监督和反馈。第四,社区应该通过奖励安全工作和惩罚不安全行为来激励坚持高安全标准。

Nicholas 的意见: 鉴于当前 AI 的大部分进步是由计算能力的提高驱动的,在我看来,公司很快将成为 AI 领域更重要的参与者。结果,我赞赏本文试图确定我们现在可以做些什么,以确保竞争态势有利于采取适当的安全预防措施。但是,我确实相信,他们用来提出其因素的单步合作背叛博弈对于一个非常复杂的交互系统而言似乎是一个非常简单的模型。例如,人工智能的开发将随着时间的流逝而进行,并且同一家公司很可能会继续相互交流。迭代博弈的动力截然不同,我希望以后的工作将探索这将如何影响他们目前的建议,

阅读更多:合作在负责任的AI开发中的作用

人工智能的其他进展

分层强化学习

使用信息受限原语的竞争性集成进行强化学习 (Anirudh Goyal 等人)  (由 Zach 总结):推广到新环境的学习策略是强化学习中的一项基本挑战。特别是,人类似乎善于学习技能并以一种有条理的方式理解世界,这暗示了差异的根源。分层强化学习(HRL)通过将策略分解为顶级控制器从中选择的选项/原始/子策略来部分解决了差异。但是,泛化是有限的,因为顶层策略必须在所有状态下都适用。

在本文中,作者探索了一种新颖的去中心化方法,其中策略仍可分解为原始数据,但没有顶层控制器。 关键思想是激励每个原语在不同状态的集群上工作。每个原语在状态和预测动作之间都有一个变分信息瓶颈,这使我们能够量化在选择动作时该原语使用了多少有关状态的信息。直观地讲,一个知道如何打开门的原语将从状态中提取大量有关门的信息以选择适当的动作,而在没有门的状态中不会提取很多信息。因此,我们的高层控制器可以是:检查哪个原语使用最多的状态信息,然后让该原语选择动作。

来自轨迹的奖励 R 与选择每个原语的可能性成比例地在原语之间分配。这就是激励原语使用状态信息的原因。原语也会因其使用多少信息而成倍增加代价,从而激励他们专注于特定的状态集群。最后,有一个正则化项也可以激励专业化,特别是可以防止单个原语始终处于活动状态的崩溃。

为了证明其有效性,作者将基准 HRL 方法(option-critic 型和  元学习共享层次结构)  与他们在网格世界和运动模仿迁移任务中的方法进行了比较。他们表明,在任务综合中,使用整体原语可以胜过更传统的 HRL 方法。

Zach 的观点:总体而言,本文令人信服,因为所提出的方法既有希望,又为以后的工作提供了自然的思路。 可以说,这里介绍的方法比 HRL 更简单,并且可以轻松实现泛化到新环境的功能。在信息理论水平上引入竞争的想法似乎很自然,并且具有更好的泛化能力的证据令人信服。看到使用更复杂的原语会发生什么会很有趣。

杂项(AI)

不可重现的研究是可重现的 (Xavier Bouthillier 等)  (由 Flo 总结):本文认为,尽管共享源代码越来越流行,但是机器学习研究仍存在可重现性问题。它区分了方法/结果的可重复性(  可通过固定随机种子和共享代码来实现)与结果/结论的可重复性(  这要求不同的实验设置(或至少是随机种子)得出相同的结论)之间的区别。 

几种流行的神经网络体系结构在几种图像分类数据集上经过多次训练,使用不同的随机种子来确定权重初始化和数据采样。对于所有数据集以及在数据集之间,发现体系结构相对于测试准确性的相对排名随随机种子而变化。

然后作者认为,尽管方法的可重复性可以帮助加快探索性研究的速度  ,但结果的可重复性对于 进行可靠的结论的经验研究是必要的。他们声称,不基于可靠发现的探索性研究可能会效率低下,因此呼吁机器学习界进行更多的实证研究。

Flo的观点:我真的很喜欢这篇论文,不仅声称可重复性存在问题,而且还通过实验更严格地证明了这一点。在中期,更可靠的经验发现对于更好地理解机器学习系统非常重要。由于这种理解对安全性相关的研究特别重要,因为在默认情况下探索性研究似乎有更多问题,因此我很高兴朝着这个方向努力。

新闻

菲尔公开大学奖学金  (Rohin 总结):菲尔公开大学奖学金正在为其第三批研究寻求申请。申请截止日期为 10 月 25 日。该奖学金向现有和即将毕业的博士生开放,包括那些已有资金来源的学生。它提供最多 5 年的支持,津贴为 40,000 美元,差旅费为 10,000美元。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s