AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。

强调

设计健壮及可靠的人工智能系统以及如何在人工智能中取得成功 (Rob Wiblin和Pushmeet Kohli) :(对于大篇幅的内容,我只是总结了突出要点,而忽略掉了播客中不相干的整个部分。)

在这个播客中,Rob 深入研究了 Pushmeet 关于使人工智能系统健壮的工作细节  。Pushmeet 并未特别将人工智能安全和人工智能能力区分 —— 构建良好人工智能系统的一部分是确保系统安全、稳健、可靠并且通用性良好。否则,如果它不会做我们想要的,我们为什么还要纠结使用它。他的目标是通过主动搜索违反规格的行为或通过形式验证神经网络的特定属性来提高健壮性。也就是说,他还认为这里面临的主要挑战之一是首先确定要验证的内容的规格。

他认为人工智能中的问题类似于编程和计算机安全中出现的问题。在编程中,通常情况是一个写下来的程序不能准确地匹配预期的规格,从而导致错误。通常我们只是接受这些错误发生,但对于亟需安全的系统,如交通信号灯,我们可以使用测试、模糊测试、符号执行和形式验证等技术,使我们能够在程序中找到这些错误。我们现在需要为机器学习系统开发这些技术。

这个类比可以更进一步。静态分析涉及与任何输入分开理解程序的属性,而动态分析涉及理解具有特定输入的程序。类似地,我们可以具有“静态”可解释性,它可以将模型理解为整体(如在  特征可视化中),或“动态”可解释性,这解释了模型对特定输入的输出。另一个例子是类似于验证神经网络属性的特定方法的程序抽象解释技术。

这个类比表明我们以前就已经面临人工智能安全问题,并且已经取得了实质性进展; 现在的挑战是应用在机器学习系统上。也就是说,通用人工智能系统存在一些独特的问题; 这不仅仅是规格问题。例如,我们应该如何与这样一个系统进行沟通是非常不清楚的,这个系统可能有自己的概念和模型,这些概念和模型与人类的概念和模型非常不同。我们可以尝试使用自然语言,但是如果我们这样做,就需要以人类的方式对自然语言进行研究,并且我们不知道如何做到这一点,尽管我们可以测试学习概念是否可以推广到新的设置。我们也可以试着研究机器学习模型的权重,分析它们是否有学到概念——但这需要我们已经有关于概念的形式化规格,这部分看起来很难获得。

Rohin的观点:  我非常喜欢编程和人工智能之间的这个类比; 通过自己思考这个比喻,我形成了很多想法。我同意这个类比意味着我们正试图解决之前在不同上下文环中曾解决过的问题,但我认为现在存在重大差异。特别是,针对长期人工智能安全,我们正在考虑在哪些错误可以是非常昂贵的设定, 并且 我们无法提供我们想要的形式化式规格。将此与交通信号灯进行对比,其中错误可能非常昂贵,但我猜我们可以提供需要遵守的安全约束的形式化规格。公平地说,Pushmeet 承认这一点,并强调规格学习是研究的一个关键领域,但对我来说,这感觉就像我们面临的先前问题的质的差异,而我认为 Pushmeet 会不同意(但我不确定为什么)。

阅读更多: 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证  (AN#52

技术AI对齐

学习人的意图

观察的感知价值 (Ashley D. Edwards等人)  (由 Cody 总结):本文提出了一种技术,通过假设轨迹中的最后一个状态是达到目标的状态来学习原始专家轨迹观察,并且其他状态的价值与它们与示范轨迹中的终止状态的接近程度成正比。他们使用此作为训练模型预测价值和行动价值的基础,然后使用这些估计值来确定行动。

Cody的观点:  这个想法肯定会得到一个明确且易于实现的启发式点子,但我担心它可能会遇到与其目标导向假设不匹配的视频。

代表性强化学习 (Vanessa Kosoy):考虑具有“陷阱”的环境:永久限制智能体实现的长期价值的状态。没有人类的世界可能就是这样一个陷阱。如果新状态不像旧状态那样有效获得高回报,那么陷阱也可能在任何不可逆转的行动之后发生。

在这样的环境中,强化学习算法可以简单地不采取任何动作,在这种情况下,它会引起悔值(regret),即到目前为止的时间步数是线性的。(悔值是最优策略下的期望奖励与实际执行的政策之间的差异,因此如果最优政策的每个时间步的平均奖励为2且无所作为总是奖励 0,那么悔值将是 ~2T,其中 T 是时间步数,所以后悔在时间步数上是线性的。)我们能否找到一种RL算法,它能  保证  在时间步长的数量上保持次线性,无论环境如何?

不出所料,这是不可能的,因为在探索过程中,RL 智能体可能陷入陷阱,导致线性悔值。但是,我们假设我们可以委托一位了解环境的顾问:对于我们做得更好的顾问来说,一定是真的吗?显然,顾问必须能够始终避免陷阱(否则会出现同样的问题)。然而,这还不够:获得次线性悔值也需要我们进行足够的探索以最终找到最优策略。因此,顾问必须至少有一些小的概率成为最优,然后智能体可以从中学习。本文证明,有了这些假设,确实存在一种保证获得次线性悔值的算法。

Rohin的观点:  有趣的是,为了让人工智能系统能够避免灾难性的不良结果,需要采用何种假设,“陷阱”的概念似乎是形式化这一点的好方法。我担心在智能体和环境之间存在笛卡尔边界,尽管可能在这里,只要顾问知道这样的边界引起的问题,它们就可以被建模为陷阱并因此避免。

当然,如果我们希望顾问成为一个人,那么这两个假设都是不切实际的,但我相信Vanessa 的计划是让假设更加真实,以便了解实际需要什么样的假设。

我想知道的一件事是关注陷阱是否必要。由于理论模型中存在陷阱,主要挑战之一是防止智能体由于无知而陷入陷阱。然而,人工智能系统似乎不可能意外地采取一些不可逆转的灾难性行动 —— 我更担心的是人工智能系统对我们进行对抗性优化并故意采取不可逆转的灾难性行动。

奖励学习理论

默认情况下,避免模糊的遥远情况 Stuart Armstrong

处理代理组

PRECOG:视觉多智能体设置中的目标条件预测 (Nicholas Rhinehart等人)  (由Cody总结):本文通过开发一个以自己的行为和自身行为为条件的未来状态模型来模拟多智能体自动驾车的情景。多个人的行动,并选择潜在空间行动,该潜在空间行动在达到其目标的渴望与在其所示的专家多智能体轨迹中看到的优选轨迹之间取得平衡(其中,例如,两个人类很少彼此碰撞)。

杂项(对齐)

具有难以察觉的奖励的强化学习 (Vanessa Kosoy):通常在强化学习中,奖励函数是在观察  和行动上定义的  ,而不是直接在状态上定义,这确保了奖励总是可以被计算。然而,实际上  我们关心的是状态的潜在方面,这些方面可能不容易从观察中计算出来。我们不能保证次线性的悔值,因为如果你不确定你的行为仍会影响的状态的一些不可观察的部分的奖励,那么你永远不会学到奖励和接近最优。

要解决这个问题,我们可以使用仅限于工具状态的奖励。我不明白这些是如何工作的,因为我不知道形式化中使用的数学,但我相信这个想法是为了定义一组工具状态,以便对于任何两个工具状态,存在一些“试验“智能体可以运行以便在某个有限时间内区分状态。这篇文章的主要观点是,假设没有陷阱,我们可以建立对MDP(而不是POMDP)的悔值约束。

人工智能战略和政策

北京人工智能共识:这些原则是中国学术界和工业界的合作,并且涉及到今天围绕人工智能讨论的许多问题,包括公平、问责制、透明度、多样性、工作自动化、责任、道德等。特别是对于长期主义者,它特别提到控制风险、通用人工智能、超级智能和人工智能竞赛,并呼吁在人工智能治理中进行国际合作。

阅读更多: 北京发布人工智能道德标准,呼吁国际合作

AI的其他进展

深度学习

解构彩票:零,标志和超级面具 (Hattie Zhou,Janice Lan,Rosanne Liu等) (由Cody总结):本文进行了一系列实验性消融研究,以更好地理解彩票假设的局限性,并研究初始修剪和掩蔽程序的变体,其中影响越来越明显。它首先是一系列有趣的结果,没有任何中心理论将它们联系在一起。这些结果包括观察保持修剪重量与其“彩票”初始化相同的标志似乎比保持其精确的初始幅度更重要,采取混合策略将修剪的重量归零或在初始化时冻结它们可以获得更好的结果,并且将学习的0/1掩模应用于重新初始化的网络即使没有重新训练也可以获得惊人的高精度。

Cody的观点:  虽然有一篇论文提出对LTH的统一(和经验支持)理论理解肯定会令人兴奋,但我尊重这样一个事实,即这是一个纯粹的实证研究,试图做一件事 —— 设计和运行干净、清晰的实验 —— 并且做得很好,而不是为了拥有它们而试图构建解释。我们仍然有办法了解彩票的优化动态,但这些似乎是通往这种理解的重要且有价值的数据点。

阅读更多: Cody更长的总结

应用

真实世界强化学习的挑战 (Gabriel Dulac-Arnold等)  (由 Cody 总结):本文是一篇相当清晰且做得很好的文献综述,重点关注为培养和部署强化而需要克服的困难学习现实问题。他们描述了这些挑战中的每一个 —— 从慢速模拟速度到频繁学习免策略的需要,到现实世界系统中安全的重要性 —— 以及每个挑战或参考现有指标来捕捉给定的程度强化学习模型解决了这一挑战。最后,他们提出了一个人形环境的修改版本,其中包含了一些真实世界风格的挑战,并鼓励其他研究人员在此框架内测试系统。

Cody 的观点:  对于想要更好地理解当前强化学习和实际可部署强化学习之间差距的人来说,这是一个很好的介绍和概述。我希望作者花更多的时间来解释和澄清他们提出的测试平台系统的设计,因为它的描述都是相对概括性的。

新闻

提供合作和/或指导 (Vanessa Kosoy):这正是听起来的样子。你可以从The Learning-Theoretic AI Alignment Research Agenda  (AN#13)中找到有关Vanessa研究议程的更多信息  ,我在本期简报中总结了她最近的两篇帖子。

人类对齐的AI暑期学校 (Jan Kulveit等):第二个人类对齐的人工智能暑期学校将于7月25日至28日在布拉格举行,重点是“优化和决策”。申请截止日期为6月15日。

开放Phil AI奖学金 – 2019年级:今年 Open Phil AI 研究员已经公布!恭喜所有研究员:)

TAISU – 技术AI安全会议 (Linda Linsefors)

边做边学的人工智能安全研讨会 (Linda Linsefors)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s