新研究工作简介:塑造行为的动机

从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。

AN #75 用学到的游戏模型解决 Atari 和围棋问题以及一位 MIRI 成员的想法

到目前为止,免模型强化学习方法在 Atari 等视觉丰富的领域一直是最新技术,基于模型的强化学习对于需要提前规划许多步骤的游戏(例如围棋,国际象棋和将棋)都非常出色。本文使用基于模型的方法 MuZero 在 Atari 上获得了最先进的性能,同时在围棋、国际象棋和将棋上达到了 AlphaZero (AN#36)水平,同时使用了较少的计算量。重要的是,它不需要任何游戏规则方面的知识就可以做到这一点。

AN #74 将向善的人工智能分解为能力、对齐和应对影响

第三,分类与我们开发的人工智能系统的细节相对不可知 —— 这些仅显示在第 4 级中,其中 Paul 指出他主要考虑的是学习方式的对齐,而不是规划和演绎。如果考虑其他类型的人工智能系统,我尚不清楚分解的高的层面在多大程度上有意义:如果我认为分解不如强大的演绎算法带来的风险那么好,我不会感到惊讶这将取决于演绎算法如何变得如此强大的细节。看到更多的工作提出了更强大的通用人工智能系统的更具体的模型,并对这些模型中的风险进行推理,我会感到特别兴奋,就像《学习型优化的风险》 (AN#58)中所做的那样。

AN #73 通过了解智能体如何崩溃来检测灾难性故障

在安全至关重要的领域中,一个重要的问题是准确估计灾难性故障的可能性很小:百万分之一与十亿分之一有很大不同。标准的蒙特卡洛方法需要数百万或数十亿次试验才能找到单个故障,这是非常昂贵的。本文建议在训练过程的早期使用智能体来为学习的失败概率预测器提供信号。例如,对于仿人机器人,故障定义为机器人摔倒。在早期智能体上训练神经网络,以预测智能体从给定状态跌落的可能性。为了评估最终智能体,根据神经网络认为状态导致故障的可能性对状态进行重要性抽样。这基于这样的假设,即最终智能体的故障模式与早期智能体的某些故障模式相似。总体而言,该方法将准确估计故障概率所需的样本数量减少了多个数量级。

AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。”

A Comparative Analysis of Expected and Distributional Reinforcement Learning

Clare Lyle, Pablo Samuel Castro, and Marc G. Bellemare Since their introduction a year ago, distributional approaches to reinforcement learning (distributional RL) have produced strong results relative to the standard approach which models expected values (expected RL). However, aside from convergence guarantees, there have been few theoretical results investigating the reasons behind the improvements distributional …

Continue reading A Comparative Analysis of Expected and Distributional Reinforcement Learning