此处的音频版本 (可能尚未启用)。
强调
通过学习模型进行规划来掌握 Atari、围棋、国际象棋和将棋 (Julian Schrittwieser 等人) (由 Nicholas 总结):到目前为止,免模型强化学习方法在 Atari 等视觉丰富的领域一直是最新技术,基于模型的强化学习对于需要提前规划许多步骤的游戏(例如围棋,国际象棋和将棋)都非常出色。本文使用基于模型的方法 MuZero 在 Atari 上获得了最先进的性能,同时在围棋、国际象棋和将棋上达到了 AlphaZero (AN#36)水平,同时使用了较少的计算量。重要的是,它不需要任何游戏规则方面的知识就可以做到这一点。
MuZero 的模型包含三个组成部分:
1. 表示 函数根据所有现有观测值产生初始内部状态。
2. 动力学 函数可预测在给定内部状态下采取行动后的下一个内部状态和立即获得的奖励。
3. 预测 函数根据内部状态生成策略和值预测。
尽管这些是基于 MDP的结构, 但是模型的内部状态并不一定具有任何人类可以解释的含义。他们接受了端到端的训练,只能准确地预测策略、值函数和即时奖励。然后,该模型用于模拟在 MCTS 中使用的轨迹。
Nicholas的观点:这显然是基于模型的强化学习迈出的重要一步,它成为非常流行的基准上的最先进技术,并使规划方法可用于规则或动态未知的领域。我通常对基于模型的方法感到乐观,认为这是朝着安全 AGI 迈进的一步。它们很好地映射了人们对最复杂任务的看法:我们考虑行动的可能结果,然后做出相应的计划。此外,基于模型的强化学习通常具有安全性,程序员可以知道算法期望通过哪种状态并最终进入状态,这有助于解释性和审核。但是,MuZero 通过使用内部状态不受任何语义约束的学习模型,该属性会丢失。看到后续工作使我们能够了解模型组件正在学习的内容以及如何对它们进行特别严重的错误检查,我将感到非常兴奋。
Rohin的观点: 注意:这比往常更具投机性。 这种方法在事后看来确实很明显并且很有用(我上次在基于群体的超参数训练中感觉到这一点 )。基于模型的规划的主要性能收益(我看到)是,它仅需要使用环境交互来学习环境的 工作方式,而不是如何 最佳地行动。 在环境中——它可以使用某些 MDP 规划算法或通过模拟世界模型中的轨迹来“发挥最佳作用”,而不需要实际环境。直观地讲,学习环境的工作原理应该容易得多,考虑一下学习游戏规则相对于玩游戏要容易得多。但是,大多数基于模型的方法会迫使学习的模型学习对预测状态有用的功能,而对于玩得好的状态可能不是有用的功能,这可能会影响最终性能。另一方面,免模型方法可以准确地学习良好玩法所需的功能——但它们的学习任务要艰巨得多,因此需要学习更多的样本,但可以带来更好的最终性能。理想情况下,我们希望获得使用 MDP 规划算法的好处,同时仍然仅要求智能体学习对最佳操作有用的功能。
与前一篇论文类似,这正是 MuZero 所做的事情 :其“模型”仅预测行为、奖励和值函数,所有这些行为与最佳行为显然都息息相关。但是,从环境交互中学习到的任务在某种意义上是“更轻松”的 —— 在一系列操作之后,该模型仅需要预测 直接的回报是什么。它特别 不 需要做的是如何预测一个动作现在会影响从现在开始的事情 10 个回合,只要它给定 到达那里的十个动作能够预测从现在 10 个回合事情如何进行将是一个伟大的工作。当然,模型确实需要预测策略和值函数(既困难又取决于未来),但是学习的信号来自 MCTS,而免模型强化学习为此目的依赖于贡献分配。由于 MCTS 可以考虑多种可能的未来方案,而贡献分配只能看到实际铺开的轨迹,因此我们应该期望 MCTS 会带来更好的梯度和更快的学习。
我是Buck Shlegeris,我在AMA的MIRI (Buck Shlegeris)做研究和外展工作 (由 Rohin 总结):有些观点认为 Buck 认为我认为特别有趣(出于与人工智能安全性相关的考虑而选择):
1.如果他认为 50 年内 AGI 的机会少于 30%,他可能不会从事人工智能安全工作。
2. 学到的优化带来的风险 (AN#58)中的思想非常重要。
3.如果我们构建“照常营业的ML”,则会出现内部对齐失败,这很难修复。此外,机器学习系统的目标可能会随着自我完善而意外更改,从而使我们无法获得任何保证。解决此问题的唯一方法是更清晰地了解我们在构建这些系统时正在做的事情。(这是对有关 MIRI 研究议程动机的一个问题的回答,因此可能未反映他的实际信念,而仅反映了他对 MIRI 信念的信念。)
4.从事人工智能对齐工作的不同人对人工智能的发展将是什么样,对齐问题是什么以及解决方案可能是什么样的情况有着截然不同的印象。
5.熟练且经验丰富的人工智能安全研究人员似乎具有更全面,更具体的心态:他们认为解决方案由许多部分组成,这些部分解决可以以不同相对强度组合在一起的子问题,而不是寻求解决方案。一个整体的故事。
6.在人工智能安全方面,外部批评似乎相对不重要,因为没有一个成熟的研究社区已经弄清楚哪种论点最重要。
Rohin 的观点:我强烈同意2和4,略微同意1、5和6,不同意3。
技术性人工智能对齐
问题
定义AI wireheading (Stuart Armstrong) (由 Rohin 总结):这篇文章指出“wireheading”是一个模糊的类别。考虑一个通过增加气压来控制天气的人工智能,这是由世界晴雨表测得的。如果它在每个晴雨表周围形成一个很小的圆顶并增加了圆顶内的气压,则我们将其称为 wireheading。但是,如果我们增加圆顶的大小,直到它成为围绕整个地球的圆顶,那么它听起来就好像是一种优化奖励功能的完全合理的方法。在中间的某个地方,必须弄清楚它是否是 wireheading 。该帖子建议可以将 wireheading 行为定义为规格游戏的子集 (AN#1),其中“游戏”是通过关注某个狭窄的测量通道而发生的,而模糊性则来自于“狭窄的测量通道”。
Rohin的观点:你可能已经注意到,本新闻通讯并没有太多谈论 wireheading 头条新闻;这就是原因之一。wireheading 似乎是规范游戏的模糊子集,并不是特别有可能是导致灾难的唯一一种规格游戏。如果我们找到某种解决方案,说“这可以解决所有 wireheading 现象,但不能解决规格游戏”,我会感到惊讶——似乎没有特别的区分功能可以使我们有解决 wireheading 问题的方法,但没有规格游戏。当然,对于确实 具有明显区别特征的特定种类的 wireheading,可能会有解决方案 ,例如 奖励篡改 (AN#71),但我通常不希望这些成为人工智能风险的主要来源。
技术议程和优先级
价值定义问题 (Sammy Martin) (由 Rohin 总结):这篇文章考虑了价值定义问题:我们应该让我们的人工智能系统 尝试做些什么 (AN#33),以获得最大的积极结果?它认为,应根据使对齐变得容易的程度,优化人工智能系统的能力以及优化后的结果如何来判断问题的答案。解决方案在“直接”程度上也有所不同-一方面,显式地写下实用函数将是非常直接的,而另一方面,诸如“ 相干外推意志”之类的东西 将是非常间接的:它委派了弄清楚什么对人工智能系统本身有好处。
Rohin 的观点:我更多地倾向于偏爱间接方法,尽管那意味着我应该委派给未来的人,而不是将某些特定的价值发现机制定义到最终会产生价值定义的人工智能系统中。
杂项(对齐)
自我实现的预言并非总是与自我意识有关 (John Maxwell) (由 Rohin 总结):我们能否通过阻止超级智能的先知通过建模自身来防止自我实现的预言?这篇文章介绍了仍然会实现自我实现的预言的三种情况。例如,如果不是对自身进行建模,而是对某些人工智能系统的预测经常变为现实的事实进行建模,那么它可能会尝试预测人工智能系统会说些什么,然后再说。这将导致自我实现的预言。
分析:通过神谕 Oracle 的未来的UFAI 和 破坏神谕发出的 危险消息:超理性和非理性贸易(Stuart Armstrong) (由 Rohin 总结):这些帖子指出了 反事实的Oracle (AN#59)存在问题:未来可能会未曾对齐的代理的人工智能系统可能会实施只要神谕做出使人类建立代理人工智能系统的预测,即使在发生擦除的情况下,也可以帮助神谕(例如,给予其最大的奖励或使其预测成为现实)。或者,多个神谕可以相互合作,以构建一个可奖励所有神谕的代理人工智能系统。
人工智能战略与政策
AI联盟播客:机器伦理和AI治理 (Lucas Perry 和 Wendell Wallach) (由 Rohin 总结):机器伦理旨在弄清如何将伦理推理嵌入当今的自动化系统中。相反,人工智能对齐从智能假设开始,然后询问如何使系统运行良好。Wendell 预计,我们将必须经历开发阶段,在此阶段我们必须解决如何将道德推理嵌入不太智能的系统中,然后才能解决人工智能对齐问题。
通常,在治理中,存在一个问题,即技术很容易在早期进行监管,但是那时我们不知道哪种法规会是好的。现在,治理变得更加困难,因为它变得非常拥挤:有超过 53 种人工智能原理列表以及许多拟议的法规和法律。潜在的缓解措施是 治理协调委员会:一种问题管理器,可以跟踪领域,绘制问题和差距,并弄清楚如何解决这些问题。
从中期来看,令人担忧的是,人工智能系统正在为那些想要操纵人类行为的人们提供越来越多的力量。此外,失业是一个现实问题。一种可能性是,我们可以根据公司解雇多少工人和创造多少工作来向公司征税。
考虑到 AGI,政府现在可能不应该参与其中(也许为某些研究提供资金),因为我们对问题的实质和需要做的事情知之甚少。我们确实需要监视风险的人员,但是现有的社区非常强大,因此政府无需参与其中。
Rohin 的观点: 我不同意 Wendell 的观点,即当前的机器道德对于AI的整合是必不可少的——可能是这样,但是一旦我们的人工智能系统足够智能以实际理解我们的道德体系,事情似乎就会发生重大变化,因此我们不再需要设计特殊的程序将道德推理嵌入到人工智能系统中。
按照治理协调委员会的原则,就治理进行协调似乎确实有用;如果只需要一个或两个小组来说服某个问题的重要性,而不是 53 个(!!),那就更好了。
人工智能的其他进展
强化学习
学会在不预见的情况下进行预测:没有前瞻性预测的世界模型 (C. Daniel Freeman等) (由 Sudhanshu 总结):对 “ 世界模型” (AN#23)的一种 批评是,在任何现实的环境中,你只想学习对于正在考虑的任务很重要的功能,而本文中使用的 VAE 将学习状态重建的功能。相反,本文研究的是直接从奖励中训练的世界模型,而不是通过对观察到的未来状态进行监督学习而建立的世界模型,这应导致仅关注与任务相关的特征的模型。具体来说,他们使用 观察辍学 在环境感知上,真实状态以偷窥概率 p 传递给策略,而神经网络 M 生成概率为 1-p 的智能体状态 。在下一个时间步, M 接受与策略相同的输入,加上策略的操作,并生成下一个智能体状态,然后可以以 1-p 的概率再次传递给控制器 。
他们研究了新兴的“世界模型” M是否 表现得像一个良好的前瞻性预测模型。他们发现,即使以极低的窥视概率(例如 p = 5%),M仍能学习到足够好的世界模型,使该策略能够合理地执行。此外,他们发现,由此学习到的世界模型可以用于训练有时可以很好地转移到实际环境中的策略。他们声称世界模型仅学习对任务执行有用的功能,而且还指出这些功能的可解释性取决于归纳偏差,例如网络体系结构。
Sudhanshu 的观点:这项工作值得参观易于吸收的动画和图表。另一方面,他们进行了一些无辜的观察,这使我感到不舒服,因为它们没有经过严格的证明或被标记为推测,例如:a)“在较高的窥视概率下,不需要学习的动力学模型来解决任务,因此”;以及b)“在这里,世界模型显然仅学习了可靠的过渡图,可以上下左右移动,这就足够了。”
尽管这是一项很好的工作,但仍然不太可能(以及目前在基于深度模型的强化学习中的大多数其他工作)扩展到更复杂的对齐问题,例如 嵌入式世界模型 (AN#31)。这些世界模型没有捕获智能体的概念,也没有将智能体建模为在环境中制定长期计划的实体。
深度学习
SATNet:使用可区分的可满足性求解器桥接深度学习和逻辑推理 (Po-Wei Wang等) (由 Asya 总结):从历史上看,深度学习架构一直在处理涉及逻辑推理的问题,因为它们通常会施加非本地约束,即梯度下降很难学习。本文提出了一种新技术SATNet,它允许神经网络通过将其明确编码为 MAXSAT 解决神经网络层来解决逻辑推理问题。MAXSAT 问题在指数级庞大的选项集上提供了一大套逻辑约束,目标是找到满足尽可能多的逻辑约束的选项。由于 MaxSAT 是 NP 完全的,因此作者设计了一层解决方案,以解决其向前通过时 MaxSAT 问题的松弛(与 MaxSAT 不同,可以快速解决该问题),而向后则通过照常计算梯度。
在实验中,为 SATNet 提供 9,000 个 9 x 9 Sudoku 板的位表示,用于学习 Sudoku 的逻辑约束,然后提供 1,000 个测试板以进行求解。在相同的训练/测试设置下,SATNet 大大优于传统的卷积神经网络,在卷积网达到 0% 的情况下,可达到 98.3% 的测试准确度。它在“视觉”数独问题上的表现相似,在该问题中,受训网络由执行数字识别的初始层和随后的 SATNet 层组成,在卷积网达到 0.1% 的情况下达到 63.2% 的精度。
Asya 的观点:我的印象是,这是将逻辑推理嵌入当前深度学习技术的一大进步。从工程角度来看,能够训练端到端包含这些层的系统似乎非常有用。值得注意的是,在这样的系统中,由于为解决逻辑约束的特定问题而明确地雕刻了一部分网络,因此失去了很多通用性 —— 很难使用同一网络来学习不同的问题。
新闻
AI安全会议2019 (David Krueger,Orpheus Lummis 和 Gretchen Krueger)(由Rohin总结):与去年一样,将于 12 月 9 日星期一上午 10 点至下午 6 点与 NeurIPS一起举行人工智能安全会议。虽然网站建议注册截止日期为 11 月 25 日,但组织者告诉我这是一个有限的截止日期,但你可能应该立即 注册 以确保获得席位。
Leave a Reply