第 99 期对齐周报 算法效率的增倍时间

Alignment Newsletter 是每周出版的出版物,其最新内容与全球AI对准有关。在此处 找到所有Alignment Newsletter 资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 强调 人工智能和效率 (Danny Hernandez 等人)(由Flo总结):考虑到指数增长(AN#7)在用于机器学习的最新结果的计算中,人们可能会认为算法的进步很小。本文为反对该假设提供了有力的证据。通过跟踪实现特定性能基准所需的计算量,我们可以大致衡量算法的进度。这样做会使 ImageNet 的效率提高大约 16 个月(相当于相同性能只需要初始计算的一半的时间)的两倍(比摩尔定律更快)。诸如翻译以及下围棋和玩 Dota 2 之类的其他任务在短时间内显示出更快的翻倍时间。与提高解决已可行任务的效率相比,使任务首次可行可以说在算法上有更多进步,实际进度可能比这些数字所暗示的还要快。但是,数据点的数量非常有限,目前尚不清楚这些趋势是否会持续以及它们是否会推广到其他领域。仍然,作者推测对于获得大量投资并且在性能上获得实质性收益的任务,可以观察到类似的趋势。 将这些结果与随时间增加的可用计算相结合,作者估计,相对于2012年,可用于大型AI实验的有效训练计算资源在 2018 年增加了 750万倍(!)。 专注于效率而不是顶级性能,可让计算量有限的参与者做出贡献。此外,迅速达到特定基准的模型似乎是扩大规模的强大候选者。这样,更有效的算法可以充当进一步发展的催化剂。有一个公共git存储库,可以更好地跟踪算法效率。 > Flo的观点: 尽管以我确实不会将其标记为算法进步的方式(例如,通过使研究人员尝试更多不同的超参数),确实可以提高计算效率,但聚合总数似乎令人惊讶地高。这表明我要么没有正确地了解这些天AI能够解决哪些问题,要么低估了解决这些问题的难度。观察深度强化学习的样本效率是否有类似的改进将是非常有趣的,因为我希望在缺乏用于现实世界决策的精确模拟器的情况下,这将成为代理型人工智能应用的主要瓶颈。 技术性人工智能对齐 健壮性 BERT 真的很健壮吗?自然语言攻击文本分类和蕴含的强大基准 (Di Jin,Zhijing Jin 等)(由 Asya 总结):本文介绍了 TextFooler,这是一种仅通过黑盒访问模型即可为自然语言任务生成对抗性文本的算法。TextFooler 尝试生成与原始输入句子在语法和语义上相似但产生错误标签的句子。它通过识别原始句子中的一小部分最重要的单词,为这些单词生成候选同义词,然后通过测试哪些同义词导致模型错误预测或报告最低置信度得分,来逐步替换句子中的重要单词。 TextFooler 已在三种最新的 NLP 模型(WordCNN,WordLSTM 和 BERT)上进行了测试,所有模型都经过训练,其测试精度约为 80-90%。在各种文本分类数据集上,TextFooler 会将准确率降低到〜15%以下,只有不到 20% 的单词受到干扰。评估生成的句子的人说,它们在语法上与原始句子大致相同,在大约 90% 的情况下与原始句子具有相同的标签,并且与原始句子的相似度得分(以 0 到 1 表示)为 0.9。本文发现,通常,具有较高原始精度的模型具有较高的攻击后准确性。 作者使用 TextFooler 生成的数据从头开始重新训练 … Continue reading 第 99 期对齐周报 算法效率的增倍时间

规格欺骗:人工智能创造力的另一面

作者:维多利亚·克拉科夫娜(Victoria Krakovna),乔纳森·上萨(Jonathan Uesato),弗拉基米尔·米库里克(Vladimir Mikulik),马修·拉赫兹(Matthew Rahtz),汤姆·埃弗里特(Tom Everever),拉玛娜·库玛(Ramana Kumar),扎克·肯顿(Zac Kenton),杨·雷克(Jan Leike),沙恩·莱格(Shane Legg)—— DeepMind 人工智能安全团队  译者:朱小虎(Xiaohu Zhu)—— Center for Safe AGI 创始人 本文交叉发布在 DeepMind 的官方网站上。 规格欺骗是一种在没有达到预期结果的情况下满足目标字面规格的行为。即使没有这个名称,我们都有过规格欺骗的经验。读者可能已经听说过迈达斯国王的神话和点石成金的故事,其中国王要求将他接触的任何东西都变成黄金 —— 但很快就发现,甚至是食物和饮料也变成了他手中的金属。在现实世界中,当学生因在一项家庭作业上的出色表现而获得奖励时,他可能会抄袭另一个学生来获得正确的答案,而不是通过学习材料,从而利用了任务规格中的漏洞。 在人工智能体的设计中也会出现这个问题。例如,强化学习智能体可以找到一条获得大量奖励的捷径,而无需按照人工设计者的意图完成任务。这些行为很常见,到目前为止,我们已经收集了大约 60 个示例(汇总了现有 列表和人工智能社区的持续贡献)。在这篇文章中,我们回顾了规格欺骗的可能原因,分享了在实践中发生这种情况的案例,并争论了关于解决规格问题的原则方法的进一步工作。 让我们来看一个例子。在乐高积木堆叠任务中,理想的结果是使红色块最终位于蓝色块的顶部。当智能体未触摸红色块的底面高度时,会对其进行奖励。智能体没有执行相对困难的操作来捡起红色方块并将其放置在蓝色方块的顶部,而是简单地将其翻转到红色方块上以收集奖励。这种行为达到了既定目标(红色方块的高底面),而牺牲了设计人员实际关心的内容(将其堆叠在蓝色方块的顶部)。 资料来源:数据有效的深度强化学习,用于敏捷操作(Popov等人,2017年) 我们可以从两个不同的角度考虑规格欺骗。在开发强化学习(RL)算法的范围内,目标是构建学会实现给定目标的智能体。例如,当我们使用 Atari 游戏作为训练强化学习算法的基准任务时,目标是评估我们的算法是否可以解决困难的任务。在这种情况下,智能体程序是否通过利用漏洞来解决任务并不重要。从这个角度来看,规格欺骗是一个好的信号 —— 智能体已找到一种实现指定目标的新式方法。这些行为说明了算法的独创性和强大能力,它们可以找到确切地执行我们告诉他们的操作的方法。 但是,当我们希望智能体实际去堆叠乐高积木时,相同的创造力可能会带来问题。在构建能够在世界范围内实现预期结果的对齐的智能体的更广泛范围内,规格欺骗是有问题的,因为它涉及智能体以牺牲预期结果为代价来利用规格中的漏洞。这些行为是由于预期任务的规格不正确而不是强化学习算法中的任何缺陷引起的。除了算法设计之外,构建对齐智能体的另一个必要组件是奖励设计。 准确地反映人类设计者意图的设计任务规格(奖励功能,环境等)往往很困难。甚至对一个存在轻微的错误规格指定,一个非常好的RL算法也许能够找到与预期解决方案完全不同的复杂解决方案,即使一个更差的算法无法找到该解决方案,但得出的结果反而更接近于预期的解决方案。这意味着,随着强化学习算法的改进,正确指定意图对于实现所需结果变得更加重要。因此,至关重要的是,研究人员正确指定任务的能力必须与智能体寻找新颖解决方案的能力保持一致。 我们在广义上使用术语任务规格来涵盖智能体开发过程的许多方面。在强化学习设置中,任务规格不仅包括奖励设计,还包括训练环境和辅助奖励的选择。任务说明的正确性可以确定智能体的创造力是否符合预期结果。如果规格正确,智能体的创造力将产生理想的新颖解决方案。这就是 AlphaGo 走出著名的第 37 步的原因,这使人类围棋专家感到惊讶,但这在与李世石的第二场比赛中至关重要。如果规格错误,则可能会产生不良的博弈行为,例如翻转方块。这些类型的解决方案取决于一个范围,我们还没有一个客观的方式来区分它们。 现在,我们将考虑规格欺骗的可能原因。奖赏功能失准的一种根源是设计不当的奖赏塑造。奖励塑形通过在解决任务的方式上给予智能体一些奖励,而不是仅仅奖励最终结果,使学习一些目标变得更加容易。但是,如果奖励不是基于潜力的,则可以改变最优策略。考虑一个在海岸奔跑者游戏中控制船只的智能体,该游戏的预期目标是尽快完成比赛。智能体因在赛道上击中绿色方块而获得了成形奖励,这将最佳策略更改为绕行并一遍又一遍击中相同的绿色方块。 资料来源:荒谬的奖励功能(Amodei&Clark,2016年) 指定能够准确捕获所需最终结果的奖励本身可能是一项挑战。在乐高积木堆叠任务中,仅指定红色块的底面必须高出地面是不够的,因为智能体可以简单地翻转红色块来实现此目标。对所需结果的更全面说明还包括:红色块的顶面必须在底面之上,并且底面必须与蓝色块的顶面对齐。在指定结果时,很容易错过这些标准之一,从而使规格变得过于宽泛,并且可能更容易满足于一个退化的解决方案。 与其尝试创建涵盖所有可能的极端情况的规格,不如从人类反馈中学习奖励函数。评估结果是否已实现通常比明确指定结果要容易得多。但是,如果奖励模型没有学习到反映设计者偏好的真实奖励函数,则此方法也会遇到规格欺骗问题。错误的一种可能来源可能是用于训练奖励模型的人为反馈。例如,执行抓取任务的智能体通过在相机和对象之间悬停而学会了愚弄人类评估者。 资料来源:《人类偏好的深度强化学习》(Christiano等,2017) 由于其他原因,例如泛化不佳,学习的奖励模型也可能被错误指定。可以使用其他反馈来更正智能体尝试利用奖励模型中的不准确性的尝试。 另一类规格欺骗示例来自利用模拟器错误的智能体。例如,一个本应学会走路的模拟机器人想出了如何将双腿钩在一起并沿着地面滑动的方法。 资料来源:AI学步(Code Bullet,2019) 乍一看,这些示例可能看起来很有趣,但没那么有趣,并且与在没有模拟器错误的现实世界中部署智能体无关。但是,根本问题不是错误本身,而是智能体可以利用的抽象失败。在上面的示例中,由于对模拟器物理的错误假设,错误地指定了机器人的任务。类似地,通过错误地假设交通流量路由基础结构不具有足够聪明的智能体可以发现的软件错误或安全漏洞,可能会错误地指定现实世界的流量优化任务。无需明确地做出这样的假设 —— 更有可能的是,它们只是设计者从未想到的细节。而且,由于任务变得过于复杂而无法考虑每个细节,规格设计期间的错误假设。这就提出了一个问题:是否有可能设计能够纠正这种错误假设而不是进行假冒的智能体架构? 任务规格中通常做出的一种假设是,任务规格不会受到智能体的动作的影响。对于在沙盒模拟器中运行的智能体,这是正确的,但对于在现实世界中运行的智能体,则不是这样。任何任务说明都具有物理表现:存储在计算机上的奖励功能或存储在人脑中的偏好。部署在现实世界中的智能体程序可能会操纵目标的这些表示,从而产生奖励篡改问题。对于我们假设的流量优化系统,在满足用户的偏好(例如,通过给出有用的指示)与影响用户之间并没有明显的区别。(例如,通过轻推它们以选择更容易达到的目的地)。前者满足了目标,而后者则操纵了目标在世界上的表示(用户偏好),两者都为人工智能系统带来了丰厚的回报。再举一个极端的例子,一个非常先进的人工智能系统可以劫持运行它的计算机,并手动将其奖励信号设置为较高的值。 综上所述,解决规格欺骗至少要克服三个挑战: … Continue reading 规格欺骗:人工智能创造力的另一面

新研究工作简介:塑造行为的动机

从长远来看,我们的愿望是,当研究人员预期可能存在的安全性或公平性问题时,他们会使用此理论对其人工智能系统进行动机分析。在应用我们的图标准来自动识别存在哪些动机之前,通常需要绘制一个因果图来说明各种智能体的程序组件如何组合在一起,并就应该存在(或不存在)哪些动机做出判断。在非常乐观的情况下,动机分析将成为建立人工智能系统可信赖性的标准工具,类似于使用统计方法描述人工智能性能的方法。但是从短期来看,我们需要进行一些研究工作来使这些方法更为有用,因此也很乐意在大家需要的地方提供建议。

AN #75 用学到的游戏模型解决 Atari 和围棋问题以及一位 MIRI 成员的想法

到目前为止,免模型强化学习方法在 Atari 等视觉丰富的领域一直是最新技术,基于模型的强化学习对于需要提前规划许多步骤的游戏(例如围棋,国际象棋和将棋)都非常出色。本文使用基于模型的方法 MuZero 在 Atari 上获得了最先进的性能,同时在围棋、国际象棋和将棋上达到了 AlphaZero (AN#36)水平,同时使用了较少的计算量。重要的是,它不需要任何游戏规则方面的知识就可以做到这一点。

AN #74 将向善的人工智能分解为能力、对齐和应对影响

第三,分类与我们开发的人工智能系统的细节相对不可知 —— 这些仅显示在第 4 级中,其中 Paul 指出他主要考虑的是学习方式的对齐,而不是规划和演绎。如果考虑其他类型的人工智能系统,我尚不清楚分解的高的层面在多大程度上有意义:如果我认为分解不如强大的演绎算法带来的风险那么好,我不会感到惊讶这将取决于演绎算法如何变得如此强大的细节。看到更多的工作提出了更强大的通用人工智能系统的更具体的模型,并对这些模型中的风险进行推理,我会感到特别兴奋,就像《学习型优化的风险》 (AN#58)中所做的那样。

AN #73 通过了解智能体如何崩溃来检测灾难性故障

在安全至关重要的领域中,一个重要的问题是准确估计灾难性故障的可能性很小:百万分之一与十亿分之一有很大不同。标准的蒙特卡洛方法需要数百万或数十亿次试验才能找到单个故障,这是非常昂贵的。本文建议在训练过程的早期使用智能体来为学习的失败概率预测器提供信号。例如,对于仿人机器人,故障定义为机器人摔倒。在早期智能体上训练神经网络,以预测智能体从给定状态跌落的可能性。为了评估最终智能体,根据神经网络认为状态导致故障的可能性对状态进行重要性抽样。这基于这样的假设,即最终智能体的故障模式与早期智能体的某些故障模式相似。总体而言,该方法将准确估计故障概率所需的样本数量减少了多个数量级。

AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。”

AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 音频版本  在这里  (可能还没好)。 强调 召唤 Alignment Newsletter 贡献者 (Rohin Shah):我正在寻找内容创作者和本期简报的发行人!请在 9 月 6 日前申请。 对抗性的例子不是错误,它们是特征 (Andrew Ilyas,​​Shibani Santurkar,Dimitris Tsipras,Logan Engstrom等)(由Rohin 和 Cody总结):Distill 发表了对本文的讨论。这个重点部分将涵盖整个讨论; 所有这些摘要和意见都应该一起阅读。 考虑两种可能的对抗性样本的解释。首先,它们可能是因为模型“幻觉”一个对分类无用的信号而引起的,并且它对这个特征变得非常敏感。我们可以将这些“错误”称为“错误”,因为它们并不能很好地概括。第二,他们可以通过该功能引起的  不  推广到测试集,而是  可以  通过对抗扰动进行修改。我们可以将这些称为“非健壮特征”(与“健壮特征”相反,而这些特征不能通过对抗性扰动来改变)。作者认为,基于两个实验,至少有一些对抗性扰动属于第二类,即有信息但敏感的特征。 如果“幻觉”的解释是正确的,那么幻觉可能是由训练过程,架构的选择,数据集的大小引起的,  而不是由数据类型引起的。因此,要做的一件事就是看看我们是否可以构建一个数据集,使得在该数据集上训练的模型在没有对抗训练情况下  已经很  健壮了。作者在第一个实验中这样做。他们采用经过对抗地训练得到的健壮的分类器,并创建其特征(健壮分类器的最终激活层)与某些未修改输入的特征匹配的图像。生成的图像仅具有健壮的特征,因为原始分类器是健壮的,并且实际上在该数据集上训练的模型是自动变得健壮的。 如果“非健壮特征”的解释是正确的,那么模型应该可以在仅包含非健壮特征的数据集上学习(这对于人类来说看起来毫无意义),并且  仍然可以推广到看似正常的测试集。在第二个实验(以下称为 WrongLabels)中,作者构建了这样一个数据集。他们的假设是,对抗性扰动通过引入目标类的非健壮特征而起作用。因此,为了构建他们的数据集,他们采用带有原始标签 y 的图像 x,对某些类 y' 进行对抗扰动以获得图像x',然后将(x',y')添加到他们的数据集中(即使对于人类而言) x' 看起来像类 y)。它们有两个版本:在 RandLabels 中,目标类 y' 是随机选择的,而在 DetLabels 中,y' 被选择为 y … Continue reading AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?

AN #61 人工智能策略与治理,来自该领域两位专家的分享

人工智能的许多类比都很破碎。人工智能是一套非常广泛的软件技术,不同于非常离散的核武器。使用出口制将“AI”保留在美国境内是不可行的。此外,人工智能将比创造致命的自主武器更加根本地影响战争 - Helen认为最大的军事影响可能是物流。将数据与石油进行比较也很奇怪,因为石油是竞争商品(两个人不能使用相同的油),而数据很容易被复制。此外,一桶油可以替代任何其他桶,但数据非常特定于具体应用。Helen的首选类比是将人工智能视为电力 —— 这是一种非常通用的工具,可以改变社会的许多方面。然而,这样类比也会有问题 —— 例如,人工智能研究社区看起来非常重要,但是对于电力倒不存在这样的情况。