AN #75 用学到的游戏模型解决 Atari 和围棋问题以及一位 MIRI 成员的想法

到目前为止,免模型强化学习方法在 Atari 等视觉丰富的领域一直是最新技术,基于模型的强化学习对于需要提前规划许多步骤的游戏(例如围棋,国际象棋和将棋)都非常出色。本文使用基于模型的方法 MuZero 在 Atari 上获得了最先进的性能,同时在围棋、国际象棋和将棋上达到了 AlphaZero (AN#36)水平,同时使用了较少的计算量。重要的是,它不需要任何游戏规则方面的知识就可以做到这一点。

AN #74 将向善的人工智能分解为能力、对齐和应对影响

第三,分类与我们开发的人工智能系统的细节相对不可知 —— 这些仅显示在第 4 级中,其中 Paul 指出他主要考虑的是学习方式的对齐,而不是规划和演绎。如果考虑其他类型的人工智能系统,我尚不清楚分解的高的层面在多大程度上有意义:如果我认为分解不如强大的演绎算法带来的风险那么好,我不会感到惊讶这将取决于演绎算法如何变得如此强大的细节。看到更多的工作提出了更强大的通用人工智能系统的更具体的模型,并对这些模型中的风险进行推理,我会感到特别兴奋,就像《学习型优化的风险》 (AN#58)中所做的那样。

AN #73 通过了解智能体如何崩溃来检测灾难性故障

在安全至关重要的领域中,一个重要的问题是准确估计灾难性故障的可能性很小:百万分之一与十亿分之一有很大不同。标准的蒙特卡洛方法需要数百万或数十亿次试验才能找到单个故障,这是非常昂贵的。本文建议在训练过程的早期使用智能体来为学习的失败概率预测器提供信号。例如,对于仿人机器人,故障定义为机器人摔倒。在早期智能体上训练神经网络,以预测智能体从给定状态跌落的可能性。为了评估最终智能体,根据神经网络认为状态导致故障的可能性对状态进行重要性抽样。这基于这样的假设,即最终智能体的故障模式与早期智能体的某些故障模式相似。总体而言,该方法将准确估计故障概率所需的样本数量减少了多个数量级。

AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。”

A Comparative Analysis of Expected and Distributional Reinforcement Learning

Clare Lyle, Pablo Samuel Castro, and Marc G. Bellemare Since their introduction a year ago, distributional approaches to reinforcement learning (distributional RL) have produced strong results relative to the standard approach which models expected values (expected RL). However, aside from convergence guarantees, there have been few theoretical results investigating the reasons behind the improvements distributional …

Continue reading A Comparative Analysis of Expected and Distributional Reinforcement Learning

AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。