在此处找到所有 Alignment Newsletter 资源。特别是,您可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。您可以通过回复此电子邮件将其发送给我。
CHAI 的 Stuart Russell 出版了一有关人工智能安全的书。预计本周将收到一份额外的通讯,以总结该书以及作为其基础的一些研究论文!
此处的音频版本 (可能尚未启用)。
强调
重构影响-第1部分 (Alex Turner) (由 Rohin 总结): 该序列中的练习 将被该摘要所破坏,因此先考虑一下是否要直接阅读该序列。
该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?”
一些含义和其他想法:
- 影响是 相对于智能体而言的:如果您是基督徒,那么新教的影响力就更大。
- 一些影响是 客观的:赚钱对几乎所有知道钱是什么的智能体都具有影响力。
- 影响 与期望有关:抢劫房屋对你有影响(你没想到),但对窃贼(已计划了)却影响不大。但是,如果窃贼不确定盗窃是否会成功,那么成功/失败会对他们产生影响。
尽管这看起来似乎很明显,但 过去的工作 (AN#10)一直在谈论影响是由状态变化引起的。当然,任何影响都涉及状态的变化,但这是对影响的推理的错误抽象级别:从根本上讲,影响与我们关心的内容有关。
Rohin 的观点:在与 Alex 的讨论中引用自己的话: “你正在寻找最优效用函数的最优 Q 函数,并说’这是我们所关心的一个很好的衡量标准’,我当然同意” 。(尽管这有点不准确——它不是最优的 Q 函数,而是相对于我们期望和了解的 Q 函数。)
鉴于我过去 对影响度量持悲观态度,这可能有些令人惊讶。但是,我的立场是,很难同时获得三个目标:价值不可知论,避免灾难以及有用性。影响的这种表征非常明确地取决于价值,因此不会与价值背道而驰。(此外,这只是直观的意义。)
序列的这部分确实也改变了我对影响度量的一些想法。具体而言,此顺序区分了 适用于所有(或大多数)智能体的客观影响与 价值 影响。这类似于 融合工具子目标的想法,以及 大规模多主体训练 (AN#65)可能会导致通常可用于新任务的有用行为。在我看来,我们可以制定与价值无关的影响度量标准,主要是惩罚这种客观影响,这似乎很合理,这足以避免灾难。这将阻止我们将人工智能用于处理大型的、有影响力的任务,但可能允许人工智能系统执行较小的、有限的任务。我怀疑我们会在此序列的下一部分看到这些思路。
技术AI对齐
技术议程和优先级
AI安全性“成功案例” (Wei Dai) (由 Matthew 总结):很难清楚地了解各种对齐方式最终对未来有用的类型,从而无法衡量各种对齐方式的有效性。这篇文章收集了 AI的“成功案例”——在析取(disjunctive)场景中利用对齐方法来确保美好的未来。这些方案是否通过将在很大程度上取决于背景假设,例如我们是否可以实现全球协调,或解决最终极的安全问题。绘制这些成功案例可以帮助我们确定研究优先级。
Matthew 的观点: 这篇文章并没有穷尽所有可能的成功案例,但它使我们更接近于能够研究一种特定的方法并问:“这到底对我们有什么帮助?” 我的猜测是,从长远来看,大多数研究最终只能带来最小的帮助,因此,我认为这样的查询对于确定原因优先级非常有用。
防止不良行为
马尔可夫决策过程的形式语言约束 (Eleanor Quint 等人) (由 Rohin 总结):在 RL的框架内,作者建议使用 DFA(确定性有限自动机)定义的约束,以消除安全故障或防止智能体探索明显无效的策略(这将加速学习)。可以在可以从“基本” MDP计算出的任何辅助信息上定义约束。约束可能会限制动作空间,从而迫使智能体采取不违反约束的动作,这种行为被称为“硬”约束;或约束可能会对智能体施加惩罚,从而作为一种奖励塑造的形式,他们称之为“软”约束。他们考虑了两个约束:一个阻止智能体“抖动”(向左走,然后向右,然后向左,然后向右),以及一个防止智能体“过度激活”的行为(连续四次朝同一方向移动)。他们在 Atari 游戏和 Mujoco 环境中使用这些约束评估了他们的方法,并表明它们可以提高奖励并减少违反约束的情况。
Rohin 的观点: 这种方法似乎是一种建立领域知识的好方法,该领域知识是关于哪种动作序列不太可能在某个领域中起作用的,这有助于加速学习。实验中的两个约束都这样做。该论文还建议使用该技术强制执行安全约束,但是实验不涉及任何安全约束,并且从概念上讲,确实存在两个大障碍。首先,约束将取决于状态,但是要仅访问动作和高维像素观察,很难编写这样的约束。其次,您只能通过在违反约束之前的一个时间步删除操作来防止违反约束:如果某项操作不可避免地会在10个时间步内导致违反约束,则此框架中无法采取任何措施。(当然,你可以使用软约束,但是然后用奖励塑造的标准技术。)
通常,这样的方法面临一个主要挑战:如何指定要避免违反的安全约束?我希望看到更多有关如何创建形式化分析的规格的研究。
可解释性
通过生成式深度学习实现 Atari 智能体的反事实状态 (Matthew L.Olson 等)
对抗性例子
安全性之外的健壮性:表示学习 (Logan Engstrom 等人) (由 Cody 总结):今年早些时候,麻省理工学院的一篇 引人入胜的论文 (AN#62)声称对抗性干扰不仅是虚假的相关,而且至少在在某些情况下,这些功能可以推广到测试集。本文的一个微妙的暗示是,对抗性示例的健壮性不是解决模型的误解的问题,而是消除模型对人类无法感知的微小特征的敏感性的问题之一。如果我们通过对抗训练来做到这一点,我们就会得到所谓的“健壮的代表”。该小组现在又发表了另一篇论文,提出了一个问题:健壮的表示形式是否也像人类一样?
为了评估表示形式与人的相似程度,他们提出了以下实验:拍摄源图像,并对其进行优化,直到其表示形式(倒数第二层的激活)与某些目标图像的表示形式相匹配。如果表示形式类似于人,则此优化结果(对人而言)应与目标图像非常相似。(他们称此属性为“可逆性(invertibility)”。)正常的图像分类器在此测试中惨遭失败:图像看起来基本上像源图像,使其成为经典的对抗示例。另一方面,健壮的模型通过了测试,表明健壮的表示通常类似于人。它们通过显示您可以在不进行正则化的情况下运行要素可视化并提供有意义的结果(如果不进行正则化,则现有方法会产生噪音),从而提供了进一步的证据。
Cody 的观点: 我发现,在对标准和健壮模型所学习的表示形式如何不同的经验检验中,这篇论文清晰,写得很好且简单明了。我对这方面的研究也特别感兴趣,因为我已经思考了一段时间,我们应该更加清楚这样一个事实,即对抗敏感的模型在某种绝对意义上并不是错误的,而是相对于人类的感知而言。
Rohin 的观点: 我同意以上的 Cody,还有其他想法。
本文中的大多数证据表明,从两个具有相似表示的图像也必须在感知上(与人类)相似的意义上说,学习的表示是“类人”的。也就是说,通过强制“像素的小变化”表示“表示的小变化”,你似乎可以免费获得相反的含义:“表示的小变化”表示“像素的小变化”。这对我而言并不明显:先验地,每个功能可能对应于 2 个以上的“簇”输入。
作者似乎也声称这些表示在语义上类似于人类使用的表示。我认为这没有令人信服的证据。例如,他们声称在将“条纹”特征放在动物的图片上时,只有动物会得到条纹,而没有背景。但是,当我自己在交互式可视化中尝试时,看起来很多背景也开始出现条纹。
特征可视化的一种典型正则化方法 是在优化图像时抖动图像,这似乎类似于为感知不到的变化选择健壮性,因此使用健壮特征有助于特征可视化是有意义的。就是说,还有其他几种用于正则化的技术,并且作者不需要任何一种,这很有趣。另一方面,对我来说,它们的可视化效果不如其他论文中的可视化效果好。
阅读更多: 论文:对抗性健壮性作为学习表示的先验
安全性之外的健壮性:计算机视觉应用 (Shibani Santurkar,Dimitris Tsipras,Brandon Tran,Andrew Ilyas,Logan Engstrom等人) (由 Rohin 总结):由于健壮的模型似乎具有明显更多的“类人”功能(请参见上文) ),它应该能够帮助完成计算机视觉中的许多任务。作者演示了图像生成,图像到图像的转换、修复、超分辨率和交互式图像处理的结果:所有这些都可以通过简单地优化图像来最大化特定类别标签或特定学习特征的值来完成。 。
Rohin 的观点: 尽管上一篇文章中的所有评论也都适用于此,但这为有健壮特征的效用函数提供了更多证据。特别是,从结果来看,我不太专家水平的猜测是它们可能不是最新技术(但有趣的是,一种简单的方法能够很好地完成所有这些任务)。
阅读更多: 论文:使用单个(健壮的)分类器进行图像合成
批评(联盟)
关于LeCun,Russell,Bengio,Zador等之间的工具性收敛的争论 (由Rohin总结):请参阅 Import AI。
杂项(对齐)
你所看到的并不总是你想要的 (Alex Turner) (由 Rohin 总结):这篇文章指出,对于马尔可夫奖赏,观察函数起作用 ,因为任何给定的观察都可以对应于多个潜在状态,所以我们不能仅通过分析奖励函数就知道它是否实际上会导致良好的行为:它还取决于环境。例如,假设我们希望一个智能体将一个房间中的所有蓝色块收集在一起。我们可能会因为观察到的蓝色而对其进行奖励:如果智能体仅具有拾取和移动块的能力,这可能会很好用,但是如果智能体具有画笔和蓝色颜料,则效果不好。这使得奖励设计者的工作更加困难。但是,设计人员可以使用不需要对单个观察结果进行奖励的技术,例如可以取决于智能体内部认知的奖励(如迭代扩增),或者可以取决于历史的奖励(如 来自人类偏好的Deep RL)。
Rohin 的观点:我当然同意我们要避免根据观察定义的奖励函数,这就是原因之一。对我来说,这似乎是线头争论的一个更一般的版本,并且即使你认为 AI 将无法进行 wireheading 攻击也适用,只要该 AI 有能力找到获得设计者意图的高奖励之外的计划即可。
人工智能的其他进展
强化学习
强化学习的行为套件 (Ian Osband 等) (由 Zach 总结):很难收集清晰、信息丰富且可扩展的问题,这些问题涵盖了有关如何设计通用有效学习算法的重要方面。当前用于评估 RL 算法的许多环境引入了混杂变量,这些变量使新算法难以评估。在这个项目中,作者通过引入用于强化学习的行为套件(bsuite)来协助这项工作,该套件促进了对 RL 中核心问题的可重复性和可访问性研究。这些实验的想法是以易于测试或评估的方式捕获核心问题,例如“探索”或“记忆”。该项目的主要贡献是一个名为 bsuite 的开源项目,它以代码实例化所有实验,并自动对 bsuite 上的所有 RL 智能体进行评估和分析。该套件设计灵活,包含代码,可在 Jupyter 笔记本上与 Google Cloud 并行运行实验,并与 OpenAI Gym 集成。
Zach 的观点:可以肯定地说,为RL智能体建立良好的评估指标是一件好事。我认为本文以一种易于推广的方式捕获了许多使智能体“良好”的概念。套件上的评估时间是合理的,每个实验不超过 30 分钟。此外,能够以标准格式生成自动摘要报告是一项不错的功能。核心实验集中似乎缺少的一件事是超越简单概括的转移学习能力的良好概念。但是,作者很容易注意到该套件尚在开发中,因此我不会怀疑会及时推出的相关内容。
Rohin 的观点: 像这样的工作中最有趣的事情是他们选择评估哪些“核心问题”-我不清楚在简单环境中的“记忆”是否值得将来的研究优化。
了解更多: 查看 Import AI
Leave a Reply