A Comparative Analysis of Expected and Distributional Reinforcement Learning

Clare Lyle, Pablo Samuel Castro, and Marc G. Bellemare Since their introduction a year ago, distributional approaches to reinforcement learning (distributional RL) have produced strong results relative to the standard approach which models expected values (expected RL). However, aside from convergence guarantees, there have been few theoretical results investigating the reasons behind the improvements distributional …

Continue reading A Comparative Analysis of Expected and Distributional Reinforcement Learning

AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?

在此处查找所有Alignment Newsletter资源。特别是,您可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 您可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没有)。 强调 AI-GAs:AI生成算法,一种生成通用人工智能的替代范例 (Jeff Clune)  (由 Yuxi Liu 和 Rohin 总结):历史上,  痛苦的教训  (AN#49)告诉我们是那种增加用于学习的算力的方法优于那些积累了大量知识的方法。目前对 AGI 的理念似乎是我们将提出一系列构建模块(例如卷积、变换器、信任区间、GAN、主动学习和课程表法),我们将以某种方式手动组合成一个复杂的强大的 AI 系统。不再需要这种手动方法,而是可以再次应用学习,提供 AI 生成算法或 AI-GA 的范例。 AI-GA 有三大支柱。第一个是  学习架构:这类似于超级动力神经架构搜索,可以在没有任何硬编码的情况下发现卷积、循环和注意力机制。第二是  学习学习算法,即元学习。第三个也是研究得最不充分的支柱是学会  创造复杂多样的环境  来训练我们的智能体。这是元学习的自然延伸:通过元学习,您必须指定智能体应该执行的任务分发; 简单地说 AI-GA 是要学习这种分发。 POET  (AN#41)是该领域最近工作的一个例子。 我对 AI-GA 范式持乐观态度的一个强烈理由是它模仿人类产生的方式:自然选择是一种非常简单的算法,具有  大量  计算和非常复杂多样的环境能够产生通用智能:人类。由于它需要更少的构建块(因为它旨在学习所有东西),它可以比手动方法更快地成功,至少如果所需的计算量不是太高。它也比“手动”方法更容易被忽视。 但是,这里存在安全问题。任何来自 AI-GA 的强人工智能都将难以理解,因为它是通过这种大量计算产生的,所有东西都是习得的,因此很难获得符合我们价值观的 AI。此外,通过这样一个过程,强大的人工智能系统似乎更有可能“让我们感到惊讶” —— 在某些时候及其罕见的情况出现,然后巨大算力得到一个好的随机选择,突然它一下输出一个非常强大和采样高效的学习算法(又称 AGI,至少也需通过一些定义)。还有道德问题,因为我们最终会模仿进化,我们可能会意外地实例化大量可能受到影响的模拟生物(特别是如果环境具有竞争性,就会如同进化的情形那样)。 Rohin 的观点:特别是考虑到算力的  增长  (AN#7),这个议程似乎是追求获得 AGI 的自然选择。不幸的是,它也非常密切地反映了Mesa …

Continue reading AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?

PapeRman #8

A Baseline for Any Order Gradient Estimation in Stochastic Computation GraphsAuthors: Jingkai Mao, Jakob Foerster, Tim Rocktaschel, Maruan Al-Shedivat 4 Gregory Farquhar, Shimon WhitesonAbstract: By enabling correct differentiation in stochastic computation graphs (SCGs), the infinitely differentiable Monte-Carlo estimator (DiCE) can generate correct estimates for the higher order gradients that arise in, e.g., multi-agent reinforcement learning …

Continue reading PapeRman #8

AN #59 对人工智能风险的争论是如何随着时间而改变的

对于AI风险争论的转移 (Tom Sittler)由早期参数为AI安全焦点上存在风险的原因: 有着在AI能力上的尖锐的不连续跳跃的对齐失败。为了争论一个危险的转折,需要不连续性假设,例如:没有不连续性,我们可能会看到能力较弱的 AI 系统无法隐藏他们的错误对齐目标,或者试图欺骗我们而没有成功。同样,为了使 AI 系统获得决定性的战略优势,它需要比已经存在的所有其他 AI 系统更强大,这需要某种不连续性。

AN #58 Mesa 优化:这是什么,为什么我们应该关心它

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 高级机器学习系统中学到的优化的风险 (Evan Hubinger等):假设你搜索一个程序空间,寻找能够很好地玩 TicTacToe 的程序。最初,你可能会发现一些很好的启发式方法,例如去中心广场,如果你沿着一行有两个,然后放置第三个,等等。但最终你可能会找到 minimax 算法,通过搜索最好的行动从而最优化自身行为。值得注意的是,你对程序空间的外部优化发现了一个程序 本身就是 一个针对可能行动进行搜索的优化器。用本文语言来说,minimax 算法是一个 mesa 优化器:一个由基本优化器自主发现的优化器,在这种情况下的搜索针对所有程序。 为什么这与人工智能有关?嗯,梯度下降是一种优化算法,它搜索神经网络的参数空间,以找到在某个目标函数上表现良好的参数集合。发生同样的事情似乎也很合理:梯度下降可以找到一个本身正在进行优化的模型。那个模型将成为 mesa 优化器,它优化的目标是 mesa 目标。请注意,虽然 mesa 目标应该导致与训练分布上的基目标类似的行为,但它不需要在偏离分布时这样。这意味着 mesa 目标是 伪对齐的 ; 它如果在偏离分布时也导致类似行为,它是 健壮的(Robust)对齐。 人工智能对齐的一个主要担忧是,如果强大的智能体优化了错误的目标,它可能会导致人类的灾难性后果。由于 mesa 优化器的可能性,这种担心加倍:我们需要确保基目标函数与人类对齐(称为 外部对齐)并且 mesa 目标与基目标对齐(称为 内部对齐)。一个特别令人担忧的方面是 欺骗性对齐:mesa 优化器具有长期的 mesa 目标,但知道它正在针对基目标进行优化。因此,它在训练期间优化了基目标以避免被修改,但在部署时,当被修改的威胁消失时,它就只追求 mesa 目标。 下面我们来举例说明动机,如果有人想要创建最好的生物复制器,他们可以合理地使用自然选择/进化作为这个目标的优化算法。然而,这将导致人类的创造,他们将是优化其他目标的 mesa 优化器,并且不优化复制(例如通过使用节育控制)。 本文有更多的细节和分析,哪些因素使得 mesa 优化更有可能,更危险等等。你必须阅读论文了解所有这些细节。一种通用模式是,当使用机器学习解决某些任务 X 时,有许多属性会影响学习启发式或代理的可能性,而不是实际学习针对 X 的最佳算法。对于任何此类属性,使启发式/代理更多可能会导致 mesa 优化的可能性降低(因为优化器不像启发式/代理),但是在 mesa …

Continue reading AN #58 Mesa 优化:这是什么,为什么我们应该关心它