第 99 期对齐周报 算法效率的增倍时间

Alignment Newsletter 是每周出版的出版物,其最新内容与全球AI对准有关。在此处 找到所有Alignment Newsletter 资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 强调 人工智能和效率 (Danny Hernandez 等人)(由Flo总结):考虑到指数增长(AN#7)在用于机器学习的最新结果的计算中,人们可能会认为算法的进步很小。本文为反对该假设提供了有力的证据。通过跟踪实现特定性能基准所需的计算量,我们可以大致衡量算法的进度。这样做会使 ImageNet 的效率提高大约 16 个月(相当于相同性能只需要初始计算的一半的时间)的两倍(比摩尔定律更快)。诸如翻译以及下围棋和玩 Dota 2 之类的其他任务在短时间内显示出更快的翻倍时间。与提高解决已可行任务的效率相比,使任务首次可行可以说在算法上有更多进步,实际进度可能比这些数字所暗示的还要快。但是,数据点的数量非常有限,目前尚不清楚这些趋势是否会持续以及它们是否会推广到其他领域。仍然,作者推测对于获得大量投资并且在性能上获得实质性收益的任务,可以观察到类似的趋势。 将这些结果与随时间增加的可用计算相结合,作者估计,相对于2012年,可用于大型AI实验的有效训练计算资源在 2018 年增加了 750万倍(!)。 专注于效率而不是顶级性能,可让计算量有限的参与者做出贡献。此外,迅速达到特定基准的模型似乎是扩大规模的强大候选者。这样,更有效的算法可以充当进一步发展的催化剂。有一个公共git存储库,可以更好地跟踪算法效率。 > Flo的观点: 尽管以我确实不会将其标记为算法进步的方式(例如,通过使研究人员尝试更多不同的超参数),确实可以提高计算效率,但聚合总数似乎令人惊讶地高。这表明我要么没有正确地了解这些天AI能够解决哪些问题,要么低估了解决这些问题的难度。观察深度强化学习的样本效率是否有类似的改进将是非常有趣的,因为我希望在缺乏用于现实世界决策的精确模拟器的情况下,这将成为代理型人工智能应用的主要瓶颈。 技术性人工智能对齐 健壮性 BERT 真的很健壮吗?自然语言攻击文本分类和蕴含的强大基准 (Di Jin,Zhijing Jin 等)(由 Asya 总结):本文介绍了 TextFooler,这是一种仅通过黑盒访问模型即可为自然语言任务生成对抗性文本的算法。TextFooler 尝试生成与原始输入句子在语法和语义上相似但产生错误标签的句子。它通过识别原始句子中的一小部分最重要的单词,为这些单词生成候选同义词,然后通过测试哪些同义词导致模型错误预测或报告最低置信度得分,来逐步替换句子中的重要单词。 TextFooler 已在三种最新的 NLP 模型(WordCNN,WordLSTM 和 BERT)上进行了测试,所有模型都经过训练,其测试精度约为 80-90%。在各种文本分类数据集上,TextFooler 会将准确率降低到〜15%以下,只有不到 20% 的单词受到干扰。评估生成的句子的人说,它们在语法上与原始句子大致相同,在大约 90% 的情况下与原始句子具有相同的标签,并且与原始句子的相似度得分(以 0 到 1 表示)为 0.9。本文发现,通常,具有较高原始精度的模型具有较高的攻击后准确性。 作者使用 TextFooler 生成的数据从头开始重新训练 … Continue reading 第 99 期对齐周报 算法效率的增倍时间

AN #75 用学到的游戏模型解决 Atari 和围棋问题以及一位 MIRI 成员的想法

到目前为止,免模型强化学习方法在 Atari 等视觉丰富的领域一直是最新技术,基于模型的强化学习对于需要提前规划许多步骤的游戏(例如围棋,国际象棋和将棋)都非常出色。本文使用基于模型的方法 MuZero 在 Atari 上获得了最先进的性能,同时在围棋、国际象棋和将棋上达到了 AlphaZero (AN#36)水平,同时使用了较少的计算量。重要的是,它不需要任何游戏规则方面的知识就可以做到这一点。

AN #74 将向善的人工智能分解为能力、对齐和应对影响

第三,分类与我们开发的人工智能系统的细节相对不可知 —— 这些仅显示在第 4 级中,其中 Paul 指出他主要考虑的是学习方式的对齐,而不是规划和演绎。如果考虑其他类型的人工智能系统,我尚不清楚分解的高的层面在多大程度上有意义:如果我认为分解不如强大的演绎算法带来的风险那么好,我不会感到惊讶这将取决于演绎算法如何变得如此强大的细节。看到更多的工作提出了更强大的通用人工智能系统的更具体的模型,并对这些模型中的风险进行推理,我会感到特别兴奋,就像《学习型优化的风险》 (AN#58)中所做的那样。

AN #73 通过了解智能体如何崩溃来检测灾难性故障

在安全至关重要的领域中,一个重要的问题是准确估计灾难性故障的可能性很小:百万分之一与十亿分之一有很大不同。标准的蒙特卡洛方法需要数百万或数十亿次试验才能找到单个故障,这是非常昂贵的。本文建议在训练过程的早期使用智能体来为学习的失败概率预测器提供信号。例如,对于仿人机器人,故障定义为机器人摔倒。在早期智能体上训练神经网络,以预测智能体从给定状态跌落的可能性。为了评估最终智能体,根据神经网络认为状态导致故障的可能性对状态进行重要性抽样。这基于这样的假设,即最终智能体的故障模式与早期智能体的某些故障模式相似。总体而言,该方法将准确估计故障概率所需的样本数量减少了多个数量级。

AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点

本文给出与人工智能对齐相关的问题的最新分类法。Jacob Steinhardt 将其余的技术工作分解为“技术对齐(克服创建对齐的人工智能所需的概念或工程问题),检测故障(主动评估系统或方法的安全性/对齐性的工具的开发),方法论的理解(由经验支持的最佳实践)和系统构建(在许多从事大型系统工作的工程师的背景下,如何将上述三个类别结合在一起)。”

AN #71 通过当下-RF优化避免奖励篡改

我喜欢因果图的这种应用,并且认为对故障模式(例如 wireheading),工具性目标(例如奖励保留)和智能体的特定实现之间的相互作用进行类似的详细分析将非常有价值。就是说,对于提议的解决方案的可行性,我并不感到兴奋,因为它似乎需要智能体对反事实奖励的详细了解。另外,我希望在实际问题中,奖励信号的变化和状态变化之间的区别也很模糊,而当下-RF优化似乎需要非常严格的界限,而状态变化也会影响奖励。

AN #68 影响的可获得效用理论

该序列的第一部分重点在于确定影响力的含义,大概是为了帮助将来设计影响的度量。妙语:一个事件是对一个智能体有影响,如果它可以改变智能体以获得想要的东西的能力。这是 可获得效用(Attainable Utility)理论。引述序列的描述:“如果一件事情不能让我们改变自己的能力才能得到想要的东西,那么这件事情怎么可能对我们是一个大问题? 如果一件事让我们的能力改变了而获得自己想要的东西,那么它怎们会对我们不重要?”

AN #67 创建在其中研究内部对齐故障的环境

这篇文章提出了一个具体的环境,我们可以在其中运行上一篇文章中建议的实验。环境是一个迷宫,其中包含钥匙和箱子。真正的目的是打开箱子,但是打开箱子需要你已经有了一把钥匙(并用完了钥匙)。在训练过程中,钥匙要比箱子少得多,因此我们希望学习的模型会发展出一种“渴望”来捡起钥匙。如果我们然后用很多钥匙迷宫测试它,它会绕过地捡起钥匙,同时可能忽略箱子,这将视为内部对齐失败。这种预测的行为类似于人类如何发展对食物的“冲动”,因为祖先环境中的食物稀缺,即使现在食物很丰富。

AN #66 将健壮性分解为能力健壮性和对齐健壮性

通常,当我们考虑机器学习的健壮性时,我们会想象一个标量,代表系统从训练分布中移除时的性能。考虑 mesa 优化 (AN#58)时,很自然地将健壮性分解为两个变量:健壮能力和健壮对齐。当给定的环境与训练环境不完全相似时,通过有效地追求不同于训练过程中使用的损失函数的 mesa 目标,mesa 优化器可能会很危险。没有健壮对齐的健壮能力就是恶性故障的一个例子,这是创建 mesa 优化器时最令人担忧的结果。

AN #65 通过观看人类‘玩游戏’学习有用的技能

该模型通过学习生成表示计划(或动作序列)的向量,并共同学习将这些向量解码为动作序列。该体系结构学习去使用类似于自动编码器的结构来生成计划向量,该结构使用 KL 散度来对齐(1)从玩游戏数据的窗口的开始和结束状态预测的计划向量的分布,以及(2)通过回顾该窗口中执行的所有操作的计划向量的分布。由于我们正在共同学习展开(2)回溯总结向量,使其与实际采取的行动相匹配,因此理想情况下,我们将得到一个可以吸收给定计划向量并产生一系列行动以执行的系统的该计划。而且,因为我们重新学习预测一个向量,该向量与从开始的状态成功地达到最终状态所采取的动作相一致时,测试时的模型应该能够产生与可行的动作相对应的玩游戏向量,该向量将使其从当前状态变为最终状态。我们希望达到的目标状态。作者发现,即使在单任务模型经过显式演示训练的情况下,他们的玩游戏训练模型在一系列操作任务上也能胜过单任务模型。