在此处找到所有Alignment Newsletter资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。
此处的音频版本 (可能尚未启用)。
强调
辅助多臂老虎机 (Lawrence Chan 等人) (由 Asya 总结):逆强化学习的标准方法是假设人类根据自己的喜好采取最佳行动,而不是随着时间的流逝了解自己的喜好。本文试图通过引入辅助多臂老虎机 问题来对后者建模 。
在标准 多臂老虎机 问题中,参与人反复选择要拉的几个“臂”之一,其中每个臂根据某种未知的分布提供奖励。想象一下,在你选择的10种不同,未知的老虎机上可以获得 1000 次免费游戏。这是一个很难解决的问题,因为参与人必须在探索(了解一些手臂)和开发(拉出到目前为止最好的手臂)之间进行权衡。在 辅助多臂老虎机 中,机器人有机会每轮拦截参与人并拉动其选择的手臂。如果未拦截,则可以看到参与人拉动了手臂,但参与人看不到奖励。这将仅包含部分信息的智能体形式化,以试图帮助学习者优化其奖励。
本文对该问题进行了一些理论分析,并进行了涉及神经网络和参与者根据各种不同策略进行操作的实验设置。它对问题进行了一些观察:
- 善于学习的参与人并不一定会导致参与人 —— 机器人团队的表现更好 —— 机器人可以根据参与人的手臂所传递的关于手臂奖励的信息量,帮助次优参与人更好地进行比赛。
- 机器人具有正确的模型以学习参与人的学习方式时,最擅长于提供帮助。
- 即使对机器人的学习模型有误,将机器人建模为学习的机器人通常也会比不进行学习的机器人做得更好。
- 问题对参与人使用哪种学习模型以及机器人采用哪种学习模型非常敏感。某些参与人学习模型只有在正确建模后才能得到有效帮助。一些机器人假定的学习模型可以有效地协助各种实际参与人学习模型。
Asya 的观点:关于人类最佳行为的标准逆强化学习假设似乎不切实际;我认为,本文提供了一个没有此假设的有见地的初始步骤,并以干净而引人注目的方式对问题的非最优版本进行了建模。我认为值得注意的是,这个问题对参与人的学习模型非常敏感,并且我同意该论文,这表明我们应该努力研究实际的人类学习策略。我不确定如何考虑将这些见解推广到其他逆强化学习案例。
技术性人工智能对齐
问题
机器学习和人工智能的多方动力学和失败模式 (David Manheim) (由 Flo 总结):尽管 对Goodhart定律的各种变化进行分类 说明了当单个智能体的代理脱离真实目标时发生的失败模式,但本文旨在描述失败的特征涉及多个智能体:
当多个智能体的组合动作导致单智能体故障时,会发生意外转向。例如,现在捕捞更多的鱼通常与渔夫的长期目标正相关,但是一旦有很多渔民为短期收益而优化并且鱼的数量崩溃,这种关系就会反转。
当具有相互兼容目标的业务代表无法协调时,就会发生协调失败。例如,由于其他智能体的目标和能力的模型不完整,共享一个目标的两个智能体可能会争夺资源,即使其中之一在将资源转化为实现其目标的进展方面严格地更好。
对抗性优化 是指智能体 O 引导世界进入 V 的代理目标与 O 的目标正相关 的状态。例如,可以通过卖出波动性不大但仍具有风险的工具来利用利用短期波动性来代替风险的投资者。
输入欺骗 是指一个智能体操纵虚假证据或通过系统地过滤接收到的证据来操纵另一学习智能体的模型的行为,这在Microsoft的Tay中可能是发生的。
最后, 目标 co-option 会在智能体 O 对硬件智能体 V 运行或依赖的硬件进行(部分)控制时发生。这样,O 可以修改 V 接收到的奖励信号以更改 V 优化的内容,也可以直接更改 V 的输出。
在精确建模其他复杂智能体的过程中遇到的困难以及与嵌入式智能体有关的其他问题使得使用当前方法很难完全避免这些故障模式。放慢人工智能系统的部署并专注于缓解所讨论的故障模式可能会防止短期的大灾难,而大灾难又可能导致进一步部署和安全优先级的放慢。
Flo 的观点:我喜欢本文将多方优化中可能发生的故障模式细分为几个清晰的类别,并为每个故障类别提供各种模型和示例。我不确定这个结论:一方面,为了提高现代系统的安全性而减慢部署速度似乎是非常明智的。另一方面,似乎会出现一些范围有限的故障,这些故障很难在“实验室”中重现。广泛部署的人工智能系统可能会为我们提供有关这些故障的宝贵经验数据,并提高我们对故障模式的总体了解。我猜理想情况下,可以在非关键区域(例如管理本地停车场)进行快速部署的差异部署,但是对于关键基础架构的部署速度非常慢。
Rohin 的观点:我对分析此类故障如何影响生存风险特别感兴趣。我不确定 David 是否认为它们与存在性风险相关,但即使如此,本文中也没有提出论据。
mesa 优化
轻松进行内线对抗训练 (Evan Hubinger) (由 Matthew 总结):以前,Paul Christiano 建议 创建一个对手来搜索将使功能强大的模型表现“不可接受”的输入,然后对模型进行相应的惩罚。为了简化对手的工作,Paul 放宽了问题,因此只需要找到一个伪输入即可,可以将其视为限制可能输入的谓词。这篇文章是在 Paul 的建议的基础上扩展的,首先定义了形式化的不可接受的惩罚,然后根据此框架分析了许多情况。惩罚依赖于放大模型检查自身未放大版本的想法。为了使此程序起作用,放大的监督者必须能够正确推断出潜在的输入是否会在其未放大的自我中产生不可接受的行为,这似乎是合理的,因为它应该知道未放大的版本所做的一切。文章的结论是,模型透明度的进步是这些可接受性保证的关键。特别是,Evan 强调需要将模型分解为内部优化过程所涉及的部分,例如世界模型、优化过程和目标。
Matthew 的观点: 我同意透明性是对手的重要条件,因为如果没有模型运作方式的细节,很难寻找导致灾难的输入。我不太确定机器学习模型的这种特殊分解是必要的。更笼统地说,我很高兴看到对抗训练如何有助于 内部对齐。
学习人的意图
使用单个视频演示和人工反馈从观察中学习 (Sunil Gandhi 等人) (由 Zach 总结):设计奖励可能是一个漫长而费时的过程,即使对于专家而言。解决这个问题的一种常用方法是通过演示。但是,可能很难以标准表示形式(例如,联合位置)记录演示过程。 在本文中,作者建议使用人工反馈来避免演示的录制方式(视频)和所需的标准表示形式(关节位置)之间的差异。 首先,人类对专家演示的短片提供与智能体的尝试相似的评估,并且智能体学习了相似性函数。其次,此相似性函数用于帮助训练可以模仿专家的策略。两个函数进行联合学习。该算法既可以通过 Hopper 的后空翻拍演示,也可以通过 YouTube 视频中的人类后空翻来学习使 Hopper 智能体后空翻。最终,作者表明,他们的方法比另一种使用人工反馈而不直接与所需行为进行比较的方法有所改进。
Zach 的观点:本文似乎是对先前工作的自然延伸。通过观察获得的模仿学习问题是众所周知的且困难的。在结构化的状态空间中引入人的反馈绝对似乎是一种可行的方法,可以解决诸如 GAIL 之类的其他方法中的许多已知问题。
处理智能体组的情况
与人类合作需要了解他们 (Micah Carroll等人) (由 Rohin 总结): 注意:我是本文的第二作者。 自我参与的智能体(例如曾经玩过Dota (AN#13)和 Starcraft (AN#43)的那些智能体 )非常擅长与自己进行协调,但不擅长与其他智能体进行协调 。他们“期望”他们的合作者与他们相似。他们无法预测人类合作者会做什么。在竞争性博弈中,这很好:如果人类偏离最佳策略,即使你没有预测到,你仍然会击败他们。(说这句话的另一种方式:最小最大性定理不管 对手情况保证最低奖励,但是,在合作环境中,情况并不是那么好:无法预期合作者的计划会导致任意不好的结果。我们通过一个简单的环境演示了这一点,该环境需要基于流行游戏 Overcooked 的强大协调。我们显示,在模拟和真实用户研究中,经过专门训练以与人类一起玩耍的智能体在与人类配对时,比自我参与或基于群体的训练要好得多。
Rohin 的观点:我写了一篇简短的 博客文章 谈到这项工作的意义。简要地说,存在三个潜在影响。首先,了解如何与未知智能体进行协调似乎普遍有用。其次,它对于扩大辅助游戏 (AN#69)特别有用 ,这对于解决最佳问题是很棘手的。最后,这可能导致更多的机器学习研究人员专注于解决实际人类的问题,这可能导致我们发现并解决构建统一的人工智能系统所需解决的其他问题。
阅读更多: 论文:关于学习人类对人类-AI协调的效用
通过观察性增强的自我参与学习现有的社会惯例 (Adam Lerer和Alexander Peysakhovich) (由 Rohin 总结):本文从同样重要的见解开始,即关于自我参与在需要推广到智能体之外时不起作用的观点,但后来又有所不同。他们假设测试时智能体正在发挥 均衡策略,也就是说,假设所有其他策略都是固定的,则每个智能体都发挥最佳响应策略。他们通过模仿学习和自我扮演相结合的方式来训练他们的智能体:自我参与使他们学习平衡行为,而模仿学习则将他们推向测试时间智能体所使用的平衡。他们的表现都超过了基本的自我参与和基本的模仿学习。
Rohin 的观点:人类常常没有发挥均衡策略,因为它们常常是次优的。例如,在《 Overcooked》中,任何均衡策略都会绕过布局,很少会等待,这是人类无能为力的。但是,当你的人类行为数据集非常有限时,均衡策略假设所提供的偏差可能确实有助于智能体比普通模仿学习模型更好地推广,因此,在没有太多数据的情况下,此技术可能会更好。
对抗性例子
对抗策略:攻击深度强化学习 (Adam Gleave等人) (由 Sudhanshu 总结):这项工作演示了高维两人零和游戏中行为的对抗策略的存在 。具体而言,他们表明,仅会影响受害者对其状态(Adv)的观察结果的经过对抗训练的智能体(“ Adv”)可以采取使受害者混淆其行为的方式。
通过在单人游戏范例中进行强化学习来训练对抗策略,其中受害者是黑匣子固定策略,该策略以前通过自我参与进行训练,可以抵抗对抗攻击。结果,对抗策略学会将受害人的观察推广到训练分布之外,从而导致受害人表现不良。对抗性策略实际上并没有表现出明智的行为,例如阻止或应付受害者,而是采取不寻常的举动,例如以对人类来说随机出现的方式痉挛,缩成球或跪下。
进一步的实验表明,如果删除了受害者对对手的观察,那么对手将无法学习这种对抗策略。此外,与对抗随机或无生命的对手相比,与对抗策略对抗时,受害者的网络激活非常不同。通过比较两个相似的游戏,主要区别是观察到的对手维数,他们表明,这种策略在高维游戏中更容易学习。
Sudhanshu 的观点:这项工作指出了有关在高维连续空间中进行优化的重要问题:如果不能保证实现解决方案的最优性,我们如何设计对(无关)非分布观测值具有健壮性的性能系统?通过产生当前方法不足的证明,它可以激发主动学习,持续学习,后备策略和探索等领域的未来工作。
我有个小建议:虽然讨论非常好,但是本文并没有涵盖以前是否在离散的观察/动作空间中观察到了这种现象,以及为什么/为什么没有,我认为这将是进一步研究的一个重要方面。在有限的环境中,受害者策略实际上可能涵盖了所有可能的情况,因此对于此类攻击具有健壮性。对于连续的空间,我不清楚我们是否 总能 找到对抗性攻击。
作为回应,作者 Adam Gleave 指出,他认为这些维度相对较低 —— 即使 MNIST 的维度也更大 —— 因此,与常规对抗性示例进行比较时,似乎多智能体强化学习的健壮性要比监督学习更难。
了解更多: 对抗策略的网站
人工智能的其他进展
强化学习
用机器人手解决魔方问题(OpenAI) (由 Asya 总结):从历史上看,研究人员在制造通用机器人手方面取得的成功有限。现在,OpenAI 已经成功地训练了一对神经网络,以类似于人的机器人手的方式来解决魔方(问题的学到的部分是操纵手 —— 解决魔方是通过经典算法指定的)。即使在各种扰动下,手也可以解开魔方,包括将其一些手指绑在一起,或将其视线部分遮挡。提出的主要创新是称为自动域随机化的新方法(ADR)。ADR 会自动生成越来越困难的环境,以在模拟中进行训练,这些环境足够多样,可以捕获现实世界的物理情况。ADR 比现有的域随机方法要好,后者需要手动指定随机范围。这篇文章推测,ADR 实际上正在产生 紧急的元学习,网络在该元学习中学习一种学习算法,该算法可以使其自身迅速适应其环境。
Asya 的观点: 我的印象是,这是一个非常令人印象深刻的机器人技术成果,主要是因为将模拟训练转换为现实生活(“ sim2real”)的问题非常困难。我也认为,如果按照作者的假设,该系统表现出紧急的元学习,那将是相当新颖的。值得注意的是,这只手还没有达到人的水平 —— 在最困难的配置中,它仅能成功完成 20% 的时间,并且在大多数实验中,手都可以通过手腕内部的蓝牙传感器获得立方体的某些状态。立方体,而不仅仅是通过视觉。
阅读更多: Vox:观看此机器人单手解决魔方的问题
新闻
FHI DPhil奖学金 (由 Rohin 总结):人类未来研究所将在 2020/21 学年授予两项 DPhil 奖学金,向在牛津大学攻读 DPhil 的学生开放,其研究旨在回答改善关键问题人类的长期前景。申请将在 1 月或 2 月左右开放,并在 4 月做出决定。
符合道德规范的人工智能的博士后奖学金(由 Rohin 总结)(H/T Daniel Dewey):Mila 正在寻找一名将于2020年秋季开始的博士后研究员,他将致力于符合道德规范的学习机器,致力于构建可以实现特定目标的机器同时以符合人类价值观和社会规范的方式行事。申请已经在处理中,并且将继续进行处理,直到填补职位为止。
Leave a Reply