AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

在此处找到所有Alignment Newsletter资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

此处的音频版本   (可能尚未启用)。

强调

人工智能对齐研究概述 (Jacob Steinhardt)  (由 Dan H 总结):自AI安全中的具体问题以来已经过去了三年多。从那时起,我们已经了解了有关安全问题的结构的更多信息。本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。”

“技术一致性”下的第一个主题是“分布外的健壮性”,与“具体问题”相比,它受到更多的重视。分布外健壮性的部分原因是,具有变革性的人工智能会导致现实世界发生重大变化,我们希望我们的系统即使在这些巨大且可能迅速的数据变化下也能表现良好。特定的子问题包括  一些  对抗性示例和分布外检测的工作。接下来,给出了奖励学习的问题。为此,存在许多挑战,包括学习人类价值观,并确保在极端优化条件下保持那些有损代表的人类价值观能够保持一致。自从“ 具体问题”以来,我们就奖励学习获得了更多的概念清晰性。因此,奖励学习在很大程度上仍然是“未知的”,并且还不清楚“如何解决问题”。关于可扩展奖励生成的下一部分指出,将来,标记含义或提供人工监督将变得越来越困难。接下来,他建议我们应该研究如何使系统“发挥保守作用”,例如赋予系统具有不确定性时激活保守的回退例程的能力。技术对齐下的最后一个主题是反事实推理。在这里,一个可能的方向是生成一系列模拟环境以生成反事实。

“技术对齐”部分是本文档的主要内容。随后的部分,如“预先检测故障”,强调了深度神经网络可视化和最近的模型压力测试数据集的重要性。“方法论理解”表明,如果我们改进构建和评估模型的最佳实践,那么我们更有可能构建统一的人工智能系统,而“系统构建”则推测了如何为未来的多层次ML系统实现这一目标。

Dan H 的观点:  这是对具体问题的友好更新,因为它目前更为具体,并讨论了在深度学习和强化学习(而非主要是强化学习)中提高安全性。尽管文档中提到了许多问题,但问题的集合保持了准确性,所幸的是,其中并未包括可能会影响安全性的所有功能问题。一个收获是,价值学习和模型透明性仍然需要基础,但是幸运的是,其他问题(包括分布失稳)更加具体化,并且主要需要时间和持续的努力。

Rohin 的观点:我特别喜欢这个议程的一件事是,与人工智能对齐的联系比在具体问题中要清晰得多  。

技术性人工智能对齐

迭代扩增

Ought 进度更新 2019年10月)(Jungwon Byun 和 AndreasStuhlmüller)  (由 Rohin 总结):虽然此更新提供了有关 Ought 整体的详细信息,但我仅关注他们所做的研究。提醒一下,Ought 的目标是了解我们如何将棘手的问题委托给机器和人类专家。他们最初专注于  因式认知  (AN#36),其中每个问题都被递归分解为子问题,以帮助  找到  答案。现在,他们将其称为“因子生成”,并使用“因子认知”作为任何方法的总称,这些方法可通过某种分解来帮助回答难题。

尽管 Ought 进行了一些旨在使分解自动化的机器学习实验,但他们主要在用于因式评估  (AN#62)的人体实验上工作  ,其中分解用于帮助 评估  答案。他们专注于评估答案,而不是出于某些原因而找不到答案。首先,可能已经有我们可以使用其答案的专家:可以将其直接插入因数评估中,而不是因数分解中。其次,评估通常比产生容易。第三,因式评估更适合于节省时间的技巧,例如仅关注树的单个分支(例如通过辩论进行的  人工智能安全  (AN#5))。最后,在训练机器学习系统时,如果模型无法准确地模仿专家,则我们需要能够区分好与坏行为的东西,这可以通过分解评估来实现,而不能分解为分解生成。(另请参阅  反对模仿。)

实验涉及一名法官,他试图确定一个问题的两个答案中哪个是最好的,一个诚实的专家提供一个答案,而一个恶意的专家提供一个答案。(子问题可能还会从两位专家那里得到不同的答案。)目标是找到一种设置,使法官能够可靠地选择诚实的答案,而与恶意专家的能力无关:如果可以确定,这将是有力的证据该设置会激励诚实的答案。当然,这要求我们对所有恶意策略进行量化,但是人类可能找不到最佳的恶意策略。为了缓解这种情况,实验为恶意专家提供了许多诚实的人所没有的优点,以模拟功能强大的恶意专家。

他们已经从实验中学到了东西。最初,他们希望参与者能够开发出良好的元级策略来确定真相。(这里的元级别意味着这些策略将推广到其他领域,例如,总是将答案分为单独的主张并分别为每个主张要求证据的启发法。)他们发现这些战略  并不是  有机地出现的,因此正在计划花费大量的员工时间来寻找好的策略。他们还发现,恶意专家有时会因可避免的错误而获胜,并希望通过整合多人的工作以增强健壮性来消除这种情况。

Rohin的观点:自上次更新以来,这是明显的进步,尽管我认为实验仍然具有探索性,很难有什么大的收获。产生良好策略的困难表明,培训我们的监督员(如AI安全需求社会科学家  (AN#47)中建议的那样)以提供正确的反馈,例如,如果我们希望他们仅对他们可干涉的推理  (AN#35)进行奖励,就显得尤为重要。我对下一次更新感到特别兴奋,我们可以看到实验功能强大到可以得出更可靠的结论。

学习人的意图

规范,奖励和意图立场:比较机器学习方法与道德训练 (Daniel Kasenberg等人)  (由Asya总结)(H / T Xuan Tan):本文认为  规范推理  是逆强化学习的合理替代方案来教人们想要的系统。现有的逆强化学习算法依赖于 马尔可夫假设:世界的下一个状态仅取决于世界的前一个状态和智能体从该状态采取的行动,而不取决于智能体的整个历史。在有关过去的信息很重要的情况下,逆强化学习要么无法推断正确的奖励函数,要么将被迫对每个状态下要编码的过去信息做出具有挑战性的猜测。相比之下, 规范推理  试图推断哪些(潜在的时间)命题编码了系统的回报,仅保留了与评估潜在命题有关的过去信息。该论文认为,规范推理会导致比逆强化学习具有更好解释性的系统 —— 使用规范推理的系统可以成功地建模奖励驱动的主体,但是使用逆强化学习的系统在学习时间规范方面表现不佳。

Asya 的观点:本文提出了一种有趣的新颖替代逆强化学习方法,并且很好地认识了潜在的反对意见。决定是否以及如何存储有关过去的信息似乎是逆强化学习必须解决的重要问题。本文提到的我对规范推理的主要关注是,在实践中对所有可能命题进行优化的过程极其缓慢。除非有大量计算能力可用,否则我不认为规范推理将是一种性能可控的策略。

Rohin 的观点:此处使用的“规范”的概念与我通常想象的非常不同,例如  遵循人类规范  (AN#42)。通常,我认为规范是对策略施加约束而不是定义最佳策略,(通常)指定不执行操作而不是执行操作,并且是一组智能体而不是单个智能体的属性。(另请参阅  此评论。)本文中的“规范”不满足以下任何条件:我将其规范推理描述为使用具有历史依赖性的奖励函数执行逆强化学习,并对“逻辑”奖励函数有强烈的归纳偏见(这是由于它们的使用线性时序逻辑)。请注意,一些归纳偏差是必要的,因为如果没有归纳偏差,依赖于历史的奖励函数的表达能力将太高,并且无法合理地学习任何内容。我认为不管作者是如何写得,但本文不应被视为对逆强化学习范式的谴责,而应视为提出一种与我们现有算法完全不同的更好逆强化学习算法的建议。

借助行动建议改善Minecraft的深度强化学习 (Spencer Frazier等人)  (由 Asya 总结):本文使用 Minecraft 中的迷宫遍历来研究人类建议在多大程度上可以帮助实现    3D 环境中的混叠,这个问题很多每个状态具有几乎相同的视觉特征。本文比较了两种依赖神经网络的建议算法,这些算法经过训练可以探索和预测它们可能采取的行动的效用,有时甚至接受人类的建议。两种算法的主要区别在于它们是为当前行动提供建议还是为多个行动提供持久性建议。

实验结果表明,这两种算法,尤其是适用于多种动作的算法,都有助于解决 3D 混叠问题,这可能是因为该系统可以依靠先前时间步中获得的行动建议,而不必在当前时刻辨别出棘手的视觉特征。该论文还改变了所提供建议的频率和准确性,并且发现接受更多建议可以显着改善性能,即使该建议的准确性仅为 50%。

Asya的观点:我喜欢这篇论文,主要是因为从建议中学习并没有在 3D 世界中广泛应用,这是令人信服的概念证明。我认为这也是一个值得注意的结果,但当真实视觉证据难以解释时,暂时保留的建议会很有帮助。

预测

关于人类能力变异的两种解释 Matthew Barnett(由 Flo 总结):人工智能超越人类能力的速度有多快?证据之一就是人类内部智能的变化:如果变化不大,我们可能期望人工智能不会长期停留在人类水平的智能上。有人认为,与任意的智能体的这种变化相比,人类认知能力的变化较小。但是,象棋这样的游戏中人类能力的变化似乎是很明显的,象棋计算机从初学者过渡到击败最优秀的人类花了四十多年的时间。博客文章提出了两个论点来调和这些观点:

首先,相似的头脑可能会在学习能力上产生很大差异:如果我们破坏一台复杂机器的随机部分,即使坏掉的机器与未损坏的机器非常相似,它的性能可能也会变差或完全停止工作。人类学习能力的变化在很大程度上可以由许多小的“断裂部分”(例如有害突变)来解释。

其次,如果能力是由其他因素(例如练习时间)的变化来解释的,则学习能力的小变化可以与能力的大变化相一致。例如,如果一位玩家比另一位玩家玩了更多的游戏,那么下棋比赛对于确定谁更聪明并不是很有用。这种观点也重塑了 AlphaGo 的超过人类水平的特性:打败李世石的版本是他的大约 2000 倍的下棋盘数。

Flo 的观点:我喜欢这篇文章,并且很高兴它强调了学习能力和能力之间的区别,这在有关人工智能进展的辩论中似乎经常被忽略。我很高兴看到对“断裂部分”模型的进一步探索及其对人类和任意智能之间认知能力差异的影响。

杂项(对齐)

Chris Olah 对通用人工智能安全的观点 (Evan Hubinger)  (由 Matthew 总结):这篇文章是 Evan 最好的尝试,总结了 Chris Olah 关于透明度如何是构建安全人工智能的重要组成部分的观点,他将其分为四种不同的方法:

首先,我们可以应用可解释性来审核我们的神经网络,换句话说,就是在模型中捕获有问题的推理。其次,透明度可以通过允许研究人员以系统地起作用的方式有意构造其模型,而不是将机器学习用作黑匣子,从而有助于提高安全性。第三,了解透明性使我们能够直接激励模型设计和决策中的透明性 —— 类似于我们如何通过让人们展示他们的工作来对他们的推理(不仅是正确的答案)进行评分。第四,透明度可以使我们将人工智能领域重新定位为显微镜式的人工智能:人工智能为我们提供了一种了解世界的新方法,使我们能够在不采取自主行动的情况下变得更有能力。

Chris 与其他人的主要分歧在于,随着模型变得更加复杂,是否可以实现良好的透明度。他假设,随着模型变得更加先进,它们将反直观地变得更具解释性,因为它们将开始使用更清晰的人类相关抽象。最后,Chris 意识到他的观点意味着我们可能必须重新对齐机器学习社区,但他仍然保持乐观,因为他认为这有很多悬而未决的成果,对可解释性的研究使低预算实验室能够保持竞争力,并且可解释性与科学美德保持一致以了解我们的工具。

Matthew 的观点:开发透明性工具是目前我对如何避免人工智能系统中的欺骗和灾难性计划的最佳猜测。我对通过第一条和第三条路线应用透明性技术感到非常兴奋,这主要有助于我们审核模型。对于第四种方法,我比较悲观,因为它可以预见地涉及重新构造机器学习作为一个领域的动机,这非常困难。如果我们能够以某种方式协调这些技术的发展,我的看法可能会有所不同。

关于持续起飞的误解 Matthew Barnett  (由 Flo 总结):这篇文章试图阐明作者关于持续人工智能起飞的概念,定义为未来人工智能能力的增长与当前趋势的推断相符。尤其是,这意味着与之前的项目相比,没有任何一个人工智能项目会突然带来巨大的功能提升。

这样的连续起飞不必一定很慢。例如,在过去的五年中,生成对抗网络已经迅速发展起来,但是进步仍然是零散的。此外,例如,由于递归自我提升而产生的指数增益可以与连续起飞相一致,只要来自改进过程的一次迭代的增益是适度的。但是,这意味着持续的起飞并不会阻止出现巨大的功率差异:轻微的优势会随着时间的流逝而复合,即使缺乏不连续的进步,参与者也可能利用其在人工智能开发中的领先优势来达到其战略优势,就像西欧过去利用其技术优势征服世界大部分地区。

知晓人工智能起飞是否持续发生对于对齐研究很重要:连续起飞将使我们更多地采取“应对事物的态度”的态度,我们应该将重点转移到难以处理的特定方面上。他们来了。如果起飞不是连续的,一个特工可能会迅速获得相对于其他文明的能力,因此,在问题出现很久之前就将其排除在外很重要。

Flo 的观点:我认为了解不同形式的起飞对我们的优先排序应具有的影响非常重要,并且很高兴本文强调了这一点。但是,令我有些担心的是,这种对持续进步的非常宽泛的定义限制了该概念的实用性。例如,看起来似乎有道理的是,一旦部署后很难处理的递归自我提升智能体仍然会以足够慢的速度来提高其功能以适应定义,尤其是在其开发人员比其他开发人员具有明显领先优势的情况下。

人工智能战略与政策

特别报告:人工智能政策与中国 —— 国家主导的发展现实

人工智能的其他进展

强化学习

让我们讨论一下 OpenAI 的魔方工作 (Alex Irpan)  (由 Rohin 总结):这篇文章对OpenAI 的魔方  (AN#70)提出了很多观点  ,但是我只专注于两个。首先,结果是OpenAI 专注于鼓励长期研究成功的设计决策取得了重大成功。特别是,它在很大程度上依赖于工程繁重的模型“外科手术”和策略提炼能力,这些能力使他们可以在训练过程中修改(例如,我们在  OpenAI Five  (AN#19))。其次,领域随机化并没有你想像的那么好:OpenAI 需要花费大量的精力来改善仿真以获得这些结果,从而使面部旋转任务的成功次数增加了三倍。直观地讲,我们仍然需要付出很大的努力才能使模拟接近“现实”,然后领域域随机化可以处理将其健壮地转移到现实中所需的最后一点。考虑到领域随机化的作用不大,目前尚不清楚零射击模拟到真实传输的范例是否是正确的选择。引用帖子的结论:我在这里看到了两个结局。一方面,机器人学习简化为构建用于随机化的功能丰富的模拟器,然后在这些模拟器上使用“荒唐”的计算量。另一方面,无论计算情况如何,随机化都远远不够,不能仅仅超过实际机器人数据之前的引导步骤。两者在我看来似乎都是合理的,我们将看看情况如何发生变化。

Rohin 的观点:  像往常一样,Alex 的分析是正确的,除了有力的共识,我没有其他补充。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s