在此处找到所有Alignment Newsletter资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。
此处的音频版本 (可能尚未启用)。
强调
严格的智能体评估:发现灾难性故障的对抗方法 (Jonathan Uesato,Ananya Kumar,Csaba Szepesvari等) (由 Nicholas 总结):在安全至关重要的领域中,一个重要的问题是准确估计灾难性故障的可能性很小:百万分之一与十亿分之一有很大不同。标准的蒙特卡洛方法需要数百万或数十亿次试验才能找到单个故障,这是非常昂贵的。本文建议在训练过程的早期使用智能体来为学习的失败概率预测器提供信号。例如,对于仿人机器人,故障定义为机器人摔倒。在早期智能体上训练神经网络,以预测智能体从给定状态跌落的可能性。为了评估最终智能体,根据神经网络认为状态导致故障的可能性对状态进行重要性抽样。这基于这样的假设,即最终智能体的故障模式与早期智能体的某些故障模式相似。总体而言,该方法将准确估计故障概率所需的样本数量减少了多个数量级。
Nicholas 的观点:我对防止低可能性灾难性事件的关注感到非常兴奋,特别是从降低存在风险的角度出发。本文的关键假设是,在早期训练智能体会以相关的方式失败,但会更频繁地出现,这对我来说似乎是合理的,并且与我训练神经网络的大多数经验相符,并且实验证明了效率的极大提高。
我很希望看到对在更强大的未来智能体的背景下哪种情况或多或少会使这种假设变得可能的理论分析。例如,在训练的后面阶段,故障模式可能会很明显的一种情况是,如果智能体学习如何打开汽车,那么这使得智能体可以访问汽车发生灾难性故障的状态的可能性大大高于以前。
技术性人工智能对齐
学习人的意图
AI Alignment Podcast:AI 将人类的偏好综合成效用函数 (Lucas Perry 和 Stuart Armstrong)(由 ohin 总结):Stuart Armstrong 的 议程 (AN#60)涉及从人类中提取部分偏好并将其综合成为一个 适当的 效用函数。除其他事项外,此播客还涉及议程的设计决策:
首先,为什么还要具有实用功能?在实践中,有 许多压力 表明最大程度地发挥期望的效用是要做的“正确”事情 —— 如果你不这样做,那么你将在桌面上留下价值。因此,任何未最大化实用程序功能的智能体都将希望自行修改为使用实用程序功能的智能体,因此我们应该首先使用实用程序功能。
第二,为什么不遵循间接法则或诸如此类的反射稳定值中的漫长反射过程呢?Stuart担心,这样的过程会导致我们优先考虑简单性和优雅性,但会失去一些真正的价值。这也是为什么他专注于 部分偏爱的原因:即我们在“正常”情况下的偏爱,而无需将此类偏爱推论到非常新颖的情况。当然,在我们的道德观念崩溃的任何情况下,我们都必须以某种方式进行推断(否则它就不会成为一种效用函数),这对研究议程提出了最大的挑战。
阅读更多: Stuart Armstrong研究议程在线讲座
用于偏好学习的完整玩具模型 (Stuart Armstrong) (由 Rohin 总结):这篇文章将 Stuart 的通用偏好学习算法应用于玩具环境,在该环境中机器人对如何对两种类型的对象进行分类和分类具有偏好。
Rohin的观点:这很好地说明了之前提出的非常抽象的算法;如果更多的人以此方式说明他们的算法,我将非常喜欢。
预测
AlphaStar:令人印象深刻的是强化学习的进步,而不是AGI的进步 (正交的) (由Nicholas总结):这篇文章认为,虽然 AlphaStar 可以建立足够复杂的概念以在《星际争霸》中取胜令人印象深刻,但实际上并不是在制定反应性策略。AlphaStar 只是执行预定的一组策略中的一个,而不是侦察对手在做什么,并以此为基础制定新的策略。这是因为 AlphaStar 不使用因果推理,因此可以使其不击败任何顶级选手。
Nicholas 的观点:虽然我没有充分观看过比赛而有一个强烈观点 AlphaStar 是凭经验反应其对手的策略,我认同 Paul Christiano 的 意见 ,原则上因果推理仅仅是一个类型的应该是可学的计算。
讨论还强调了用于深度强化学习的可解释性工具的必要性,以便我们可以就如何以及为何决定策略进行更明智的讨论。
人工智能和计算的附录 (Girish Sastry 等人) (由 Rohin 总结):去年,OpenAI 撰写 (AN#7),自 2012 年以来,最大规模的实验中使用的计算量每 3.5 个月翻一番。该文章的附录分析了 1959-2012 年的数据,发现在此期间趋势是 2 年的翻倍时间,大约与摩尔定律保持一致,并且没有展现出以前的“人工智能冬季”的影响。
Etzioni 2016 年调查 (Katja Grace) (由 Rohin 总结):Oren Etzioni 在 2016 年对 193 名 AAAI fellows 进行了调查,发现其中 67.5% 的人认为我们将会有一天,但超过 25 年,“实现超级智能”。只有 7.5% 的人认为我们会比那早实现。
人工智能战略与政策
GPT-2:1.5B发行版 (Irene Solaiman 等人) (由 Rohin 总结):随着最后一个最大的 GPT-2 模型的发行,OpenAI 在分阶段发行带给他们的时间段内的研究中解释了他们的发现。虽然 GPT-2 可以产生令人信服的合理输出,这些输出很难被发现并且可以进行微调,例如用于生成合成宣传,但到目前为止,他们还没有发现任何实际滥用的证据。
Rohin 的观点: 尽管可以一直相信 OpenAI 只是在大肆宣传,因为 GPT-2 预计不会有重大的滥用应用,而且这种情况现在已经得到证实,但我主要感到高兴的是,在我们有危险的模型之前就开始考虑发布规范,在我看来,OpenAI 也在按照这些思路进行思考。
人工智能的其他进展
强化学习
AlphaStar:星际争霸II中使用多智能体强化学习的大师级别 (AlphaStar团队) (由 Nicholas 总结): DeepMind 的 StarCraft II AI 的AlphaStar (AN#43)现在击败了顶级职业玩家,超过了 99.8% 的玩家。尽管以前的版本只限于游戏的一部分,但现在可以玩完整版游戏,并且在执行动作时与顶级人类玩家相似的速度受到限制。最初是通过在人类玩家上进行的监督学习来进行训练的,然后再使用强化学习进行训练。
通过自我对抗学习《星际争霸》的挑战在于,策略具有非传递性:潜行者 Stalker 单位击败虚空射线 Void Rays ,虚空射线击败不朽者 Immortals,但不朽者击败潜行者。这可能导致训练陷入循环。为了避免这种情况,他们成立了发现者 exploiter 智能体和主智能体联盟。发现者智能体仅针对主智能体的当前迭代进行训练,因此他们可以学习特定的对策。然后,主智能体针对当前主智能体,过去的主智能体和发现者的混合 mixture 进行训练,优先考虑那些对他们的获胜率较低的对手。
Nicholas 的观点:我认为这是非常令人印象深刻的展示,它展示了当前机器学习方法在一个非常复杂的游戏中的强大功能。《星际争霸》带来了许多棋盘游戏如象棋和围棋所没有的挑战,例如能见度有限、较大的状态和动作空间以及在很长一段时间内都会发挥作用的策略。我发现特别有趣的是,他们如何使用模仿学习和人类示例来避免尝试通过探索来寻找新策略,但随后通过训练获得更高的性能。
我确实相信游戏的进步与AGI的进步之间的联系越来越少。本文中的大多数关键创新都围绕着联赛训练而进行,而联赛训练似乎是星际争霸特有的。为了继续朝着 AGI 迈进,我认为我们需要专注于能够在现实世界中学习不那么容易模拟的任务。
阅读更多: 论文:使用多智能体强化学习《星际争霸2》大师
敏捷操纵的深度动力学模型(Anusha Nagabandi 等人) (由 Flo 总结):对于诸如螺丝起子之类的艰苦的机器人任务,免模型强化学习需要大量数据,而这些数据很难通过实际硬件生成。因此,我们可能想使用基于样本的效率更高的基于模型的强化学习,它具有额外的优势,即该模型可以重用于具有不同奖励的相似任务。本文使用一组神经网络来预测状态转换,并通过采样不同策略的轨迹进行规划。这样,他们训练了一只真正的拟人化机器人手,使其能够在几个小时内可靠地旋转手中的两个球。他们还对模拟中的相同任务进行了训练,并且能够重用所得模型将单个球移动到目标位置。
Flo 的观点:尽管机器人手仍然有些笨拙,但视频看起来令人印象深刻。我的直觉是,基于模型的方法在机器人技术和类似领域中可能非常有用,在这些领域中,转换的随机性很容易被高斯近似。在过渡遵循更复杂的多峰分布的其他任务中,我更持怀疑态度。
整合行为克隆和强化学习,以提高稀疏奖励环境中的性能 (Vinicius G. Goecks 等) (由 Zach 总结):本文为将模仿与强化学习相结合以更有效地训练智能体做出了贡献。当前该领域的困难是模仿和强化学习是在完全不同的目标下进行的,这对更新从纯粹的示范中学到的策略提出了巨大的挑战。这种困难的很大一部分来自使用所谓的“同策略”训练方法,这种方法需要大量的环境交互作用才能有效。在本文中,作者提出了一个名为“学习周期”(CoL)的框架,该框架允许模仿和强化学习的异策略组合。这使得这两种方法可以更直接地结合在一起,从而使智能体专家演示中的策略,同时允许强化学习调整策略。作者通过在几种环境中测试他们的算法并进行控制变量的研究,表明 CoL 是对当前技术水平的改进。
Zach 的观点:乍一看,似乎似乎很明显地想到了使用异策略方法将模仿与强化学习相结合的想法。但是,由于我们希望由我们的智能体估算值函数来满足 Bellman 方程的最优条件,因此实现起来很复杂。先前的工作,例如 Hester等2018年 执行强化学习时使用 n 步回报来帮助进行预训练并使用同策略的方法。我喜欢这篇论文的地方是他们进行了控制变量的研究,并表明模仿学习和强化学习算法的简单排序不足以获得良好的性能。这意味着将模仿和强化目标组合到单个损失函数中,将提供比其他方法明显的改进。
新闻
研究员/作家职位 (由 Rohin 总结):这个全职的研究员/作家职位将占一半的时间与 Convergence合作 开展存在性风险策略研究,另一半的时间与 Normative合作 开发环境和气候变化分析文档。
Leave a Reply