AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?

在此处查找所有Alignment Newsletter资源。特别是,您可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 您可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没有)。 强调 AI-GAs:AI生成算法,一种生成通用人工智能的替代范例 (Jeff Clune)  (由 Yuxi Liu 和 Rohin 总结):历史上,  痛苦的教训  (AN#49)告诉我们是那种增加用于学习的算力的方法优于那些积累了大量知识的方法。目前对 AGI 的理念似乎是我们将提出一系列构建模块(例如卷积、变换器、信任区间、GAN、主动学习和课程表法),我们将以某种方式手动组合成一个复杂的强大的 AI 系统。不再需要这种手动方法,而是可以再次应用学习,提供 AI 生成算法或 AI-GA 的范例。 AI-GA 有三大支柱。第一个是  学习架构:这类似于超级动力神经架构搜索,可以在没有任何硬编码的情况下发现卷积、循环和注意力机制。第二是  学习学习算法,即元学习。第三个也是研究得最不充分的支柱是学会  创造复杂多样的环境  来训练我们的智能体。这是元学习的自然延伸:通过元学习,您必须指定智能体应该执行的任务分发; 简单地说 AI-GA 是要学习这种分发。 POET  (AN#41)是该领域最近工作的一个例子。 我对 AI-GA 范式持乐观态度的一个强烈理由是它模仿人类产生的方式:自然选择是一种非常简单的算法,具有  大量  计算和非常复杂多样的环境能够产生通用智能:人类。由于它需要更少的构建块(因为它旨在学习所有东西),它可以比手动方法更快地成功,至少如果所需的计算量不是太高。它也比“手动”方法更容易被忽视。 但是,这里存在安全问题。任何来自 AI-GA 的强人工智能都将难以理解,因为它是通过这种大量计算产生的,所有东西都是习得的,因此很难获得符合我们价值观的 AI。此外,通过这样一个过程,强大的人工智能系统似乎更有可能“让我们感到惊讶” —— 在某些时候及其罕见的情况出现,然后巨大算力得到一个好的随机选择,突然它一下输出一个非常强大和采样高效的学习算法(又称 AGI,至少也需通过一些定义)。还有道德问题,因为我们最终会模仿进化,我们可能会意外地实例化大量可能受到影响的模拟生物(特别是如果环境具有竞争性,就会如同进化的情形那样)。 Rohin 的观点:特别是考虑到算力的  增长  (AN#7),这个议程似乎是追求获得 AGI 的自然选择。不幸的是,它也非常密切地反映了Mesa … More AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?

AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没好)。 强调 召唤 Alignment Newsletter 贡献者 (Rohin Shah):我正在寻找内容创作者和本期简报的发行人!请在 9 月 6 日前申请。 对抗性的例子不是错误,它们是特征 (Andrew Ilyas,​​Shibani Santurkar,Dimitris Tsipras,Logan Engstrom等)(由Rohin 和 Cody总结):Distill 发表了对本文的讨论。这个重点部分将涵盖整个讨论; 所有这些摘要和意见都应该一起阅读。 考虑两种可能的对抗性样本的解释。首先,它们可能是因为模型“幻觉”一个对分类无用的信号而引起的,并且它对这个特征变得非常敏感。我们可以将这些“错误”称为“错误”,因为它们并不能很好地概括。第二,他们可以通过该功能引起的  不  推广到测试集,而是  可以  通过对抗扰动进行修改。我们可以将这些称为“非健壮特征”(与“健壮特征”相反,而这些特征不能通过对抗性扰动来改变)。作者认为,基于两个实验,至少有一些对抗性扰动属于第二类,即有信息但敏感的特征。 如果“幻觉”的解释是正确的,那么幻觉可能是由训练过程,架构的选择,数据集的大小引起的,  而不是由数据类型引起的。因此,要做的一件事就是看看我们是否可以构建一个数据集,使得在该数据集上训练的模型在没有对抗训练情况下  已经很  健壮了。作者在第一个实验中这样做。他们采用经过对抗地训练得到的健壮的分类器,并创建其特征(健壮分类器的最终激活层)与某些未修改输入的特征匹配的图像。生成的图像仅具有健壮的特征,因为原始分类器是健壮的,并且实际上在该数据集上训练的模型是自动变得健壮的。 如果“非健壮特征”的解释是正确的,那么模型应该可以在仅包含非健壮特征的数据集上学习(这对于人类来说看起来毫无意义),并且  仍然可以推广到看似正常的测试集。在第二个实验(以下称为 WrongLabels)中,作者构建了这样一个数据集。他们的假设是,对抗性扰动通过引入目标类的非健壮特征而起作用。因此,为了构建他们的数据集,他们采用带有原始标签 y 的图像 x,对某些类 y’ 进行对抗扰动以获得图像x’,然后将(x’,y’)添加到他们的数据集中(即使对于人类而言) x’ 看起来像类 y)。它们有两个版本:在 RandLabels 中,目标类 y’ 是随机选择的,而在 DetLabels 中,y’ 被选择为 y … More AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

AN #61 人工智能策略与治理,来自该领域两位专家的分享

人工智能的许多类比都很破碎。人工智能是一套非常广泛的软件技术,不同于非常离散的核武器。使用出口制将“AI”保留在美国境内是不可行的。此外,人工智能将比创造致命的自主武器更加根本地影响战争 – Helen认为最大的军事影响可能是物流。将数据与石油进行比较也很奇怪,因为石油是竞争商品(两个人不能使用相同的油),而数据很容易被复制。此外,一桶油可以替代任何其他桶,但数据非常特定于具体应用。Helen的首选类比是将人工智能视为电力 —— 这是一种非常通用的工具,可以改变社会的许多方面。然而,这样类比也会有问题 —— 例如,人工智能研究社区看起来非常重要,但是对于电力倒不存在这样的情况。 … More AN #61 人工智能策略与治理,来自该领域两位专家的分享

AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

我很高兴看到一个项目非常直接地定位在推断复杂环境中的最终用户意图。这似乎是该领域走向的一个伟大方向。我认为Minecraft也可以作为一个测试平台,研究人员或工程师 (而不是最终用户)试图让智能体做某事:我们可以在这里承担更多的专家经验和知识。理想情况下,这将使我们能够解决比最终用户使用自然语言更复杂的任务。我个人计划沿着这些方向与Minecraft合作。 … More AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 设计健壮及可靠的人工智能系统以及如何在人工智能中取得成功 (Rob Wiblin和Pushmeet Kohli) :(对于大篇幅的内容,我只是总结了突出要点,而忽略掉了播客中不相干的整个部分。) 在这个播客中,Rob 深入研究了 Pushmeet 关于使人工智能系统健壮的工作细节  。Pushmeet 并未特别将人工智能安全和人工智能能力区分 —— 构建良好人工智能系统的一部分是确保系统安全、稳健、可靠并且通用性良好。否则,如果它不会做我们想要的,我们为什么还要纠结使用它。他的目标是通过主动搜索违反规格的行为或通过形式验证神经网络的特定属性来提高健壮性。也就是说,他还认为这里面临的主要挑战之一是首先确定要验证的内容的规格。 他认为人工智能中的问题类似于编程和计算机安全中出现的问题。在编程中,通常情况是一个写下来的程序不能准确地匹配预期的规格,从而导致错误。通常我们只是接受这些错误发生,但对于亟需安全的系统,如交通信号灯,我们可以使用测试、模糊测试、符号执行和形式验证等技术,使我们能够在程序中找到这些错误。我们现在需要为机器学习系统开发这些技术。 这个类比可以更进一步。静态分析涉及与任何输入分开理解程序的属性,而动态分析涉及理解具有特定输入的程序。类似地,我们可以具有“静态”可解释性,它可以将模型理解为整体(如在  特征可视化中),或“动态”可解释性,这解释了模型对特定输入的输出。另一个例子是类似于验证神经网络属性的特定方法的程序抽象解释技术。 这个类比表明我们以前就已经面临人工智能安全问题,并且已经取得了实质性进展; 现在的挑战是应用在机器学习系统上。也就是说,通用人工智能系统存在一些独特的问题; 这不仅仅是规格问题。例如,我们应该如何与这样一个系统进行沟通是非常不清楚的,这个系统可能有自己的概念和模型,这些概念和模型与人类的概念和模型非常不同。我们可以尝试使用自然语言,但是如果我们这样做,就需要以人类的方式对自然语言进行研究,并且我们不知道如何做到这一点,尽管我们可以测试学习概念是否可以推广到新的设置。我们也可以试着研究机器学习模型的权重,分析它们是否有学到概念——但这需要我们已经有关于概念的形式化规格,这部分看起来很难获得。 Rohin的观点:  我非常喜欢编程和人工智能之间的这个类比; 通过自己思考这个比喻,我形成了很多想法。我同意这个类比意味着我们正试图解决之前在不同上下文环中曾解决过的问题,但我认为现在存在重大差异。特别是,针对长期人工智能安全,我们正在考虑在哪些错误可以是非常昂贵的设定, 并且 我们无法提供我们想要的形式化式规格。将此与交通信号灯进行对比,其中错误可能非常昂贵,但我猜我们可以提供需要遵守的安全约束的形式化规格。公平地说,Pushmeet 承认这一点,并强调规格学习是研究的一个关键领域,但对我来说,这感觉就像我们面临的先前问题的质的差异,而我认为 Pushmeet 会不同意(但我不确定为什么)。 阅读更多: 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证  (AN#52) 技术AI对齐 学习人的意图 观察的感知价值 (Ashley D. Edwards等人)  (由 Cody 总结):本文提出了一种技术,通过假设轨迹中的最后一个状态是达到目标的状态来学习原始专家轨迹观察,并且其他状态的价值与它们与示范轨迹中的终止状态的接近程度成正比。他们使用此作为训练模型预测价值和行动价值的基础,然后使用这些估计值来确定行动。 Cody的观点:  这个想法肯定会得到一个明确且易于实现的启发式点子,但我担心它可能会遇到与其目标导向假设不匹配的视频。 代表性强化学习 (Vanessa Kosoy):考虑具有“陷阱”的环境:永久限制智能体实现的长期价值的状态。没有人类的世界可能就是这样一个陷阱。如果新状态不像旧状态那样有效获得高回报,那么陷阱也可能在任何不可逆转的行动之后发生。 在这样的环境中,强化学习算法可以简单地不采取任何动作,在这种情况下,它会引起悔值(regret),即到目前为止的时间步数是线性的。(悔值是最优策略下的期望奖励与实际执行的政策之间的差异,因此如果最优政策的每个时间步的平均奖励为2且无所作为总是奖励 0,那么悔值将是 ~2T,其中 T 是时间步数,所以后悔在时间步数上是线性的。)我们能否找到一种RL算法,它能  保证  在时间步长的数量上保持次线性,无论环境如何? 不出所料,这是不可能的,因为在探索过程中,RL 智能体可能陷入陷阱,导致线性悔值。但是,我们假设我们可以委托一位了解环境的顾问:对于我们做得更好的顾问来说,一定是真的吗?显然,顾问必须能够始终避免陷阱(否则会出现同样的问题)。然而,这还不够:获得次线性悔值也需要我们进行足够的探索以最终找到最优策略。因此,顾问必须至少有一些小的概率成为最优,然后智能体可以从中学习。本文证明,有了这些假设,确实存在一种保证获得次线性悔值的算法。 … More AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题