第 99 期对齐周报 算法效率的增倍时间

Alignment Newsletter 是每周出版的出版物,其最新内容与全球AI对准有关。在此处 找到所有Alignment Newsletter 资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。

强调

人工智能和效率 (Danny Hernandez 等人)(由Flo总结):考虑到指数增长AN#7)在用于机器学习的最新结果的计算中,人们可能会认为算法的进步很小。本文为反对该假设提供了有力的证据。通过跟踪实现特定性能基准所需的计算量,我们可以大致衡量算法的进度。这样做会使 ImageNet 的效率提高大约 16 个月(相当于相同性能只需要初始计算的一半的时间)的两倍(比摩尔定律更快)。诸如翻译以及下围棋和玩 Dota 2 之类的其他任务在短时间内显示出更快的翻倍时间。与提高解决已可行任务的效率相比,使任务首次可行可以说在算法上有更多进步,实际进度可能比这些数字所暗示的还要快。但是,数据点的数量非常有限,目前尚不清楚这些趋势是否会持续以及它们是否会推广到其他领域。仍然,作者推测对于获得大量投资并且在性能上获得实质性收益的任务,可以观察到类似的趋势。

将这些结果与随时间增加的可用计算相结合,作者估计,相对于2012年,可用于大型AI实验的有效训练计算资源在 2018 年增加了 750万倍(!)。

专注于效率而不是顶级性能,可让计算量有限的参与者做出贡献。此外,迅速达到特定基准的模型似乎是扩大规模的强大候选者。这样,更有效的算法可以充当进一步发展的催化剂。有一个公共git存储库,可以更好地跟踪算法效率。

> Flo的观点: 尽管以我确实不会将其标记为算法进步的方式(例如,通过使研究人员尝试更多不同的超参数),确实可以提高计算效率,但聚合总数似乎令人惊讶地高。这表明我要么没有正确地了解这些天AI能够解决哪些问题,要么低估了解决这些问题的难度。观察深度强化学习的样本效率是否有类似的改进将是非常有趣的,因为我希望在缺乏用于现实世界决策的精确模拟器的情况下,这将成为代理型人工智能应用的主要瓶颈。

技术性人工智能对齐

健壮性

BERT 真的很健壮吗?自然语言攻击文本分类和蕴含的强大基准 (Di Jin,Zhijing Jin 等)(由 Asya 总结):本文介绍了 TextFooler,这是一种仅通过黑盒访问模型即可为自然语言任务生成对抗性文本的算法。TextFooler 尝试生成与原始输入句子在语法和语义上相似但产生错误标签的句子。它通过识别原始句子中的一小部分最重要的单词,为这些单词生成候选同义词,然后通过测试哪些同义词导致模型错误预测或报告最低置信度得分,来逐步替换句子中的重要单词。

TextFooler 已在三种最新的 NLP 模型(WordCNN,WordLSTM 和 BERT)上进行了测试,所有模型都经过训练,其测试精度约为 80-90%。在各种文本分类数据集上,TextFooler 会将准确率降低到〜15%以下,只有不到 20% 的单词受到干扰。评估生成的句子的人说,它们在语法上与原始句子大致相同,在大约 90% 的情况下与原始句子具有相同的标签,并且与原始句子的相似度得分(以 0 到 1 表示)为 0.9。本文发现,通常,具有较高原始精度的模型具有较高的攻击后准确性。

作者使用 TextFooler 生成的数据从头开始重新训练 BERT,然后再次使用TextFooler 对其进行攻击。他们发现,攻击后的准确性更高,而攻击则需要更多干扰词。

> Asya的观点: 我感到惊讶的是,在经过 TextFooler 产生的句子的对抗性训练之后,论文的准确性仍然不是很高 —— BERT 在一个数据集上的攻击后准确性从 11.5% 提高到 18.7%,在另一个数据集上从 4.0% 提高至 8.3%。该论文没有详细介绍其再训练程序,所以这可能只是因为他们没有在对抗性上进行尽可能多的训练。

> Rohin的观点: 这是跨领域总体趋势的一个实例,如果你以黑盒的方式搜索培训或测试输入,则可以相对容易地发现模型效果不佳的样本。我们已经通过图像分类中的对抗性样本以及深度强化学习中的对抗性AN#73策略AN#70)看到了这一点。

预训练的变压器可改善分布外的健壮性 (Dan Hendrycks等人)(由 Asya 总结):深度学习模型性能的一项重要指标是它们在多大程度上概括为分布外(OOD)的样本从他们接受培训的原始发行版中得出。这种能力有时被称为分布外健壮性。本文研究了几种 NLP 模型的 OOD 健壮性:词袋模型,使用词平均,LSTM 或 ConvNets 的词嵌入模型以及使用预训练双向变压器(BERT)的几种模型。

该论文发现:

  • 预训练的变压器(BERT)的 OOD 坚固得多。

  • 预训练的变压器(BERT)在检测遇到 OOD 样本时明显更好。以前的模型比随机检测的机会差。

  • 较大的模型不会像在计算机视觉中那样增加 NLP 中的 OOD 健壮性。

  • 模型蒸馏(使用较大的训练的神经网络训练较小的神经网络)会降低OOD的健壮性,这表明模型蒸馏方法的幼稚分布内测试可能掩盖了以后的失败。

  • 更加多样化的数据提高了OOD的健壮性。

本文假设这些预训练的模型可能会更好,因为它们在特别多样化的数据上进行了预训练,在大量数据上进行了训练,并在自我监督的目标下进行了训练,以前的工作表明这些模型可以提高 OOD 的健壮性和检测能力。

> Asya的观点: 我认为这是一篇很棒的论文,除其他外,它指出了提高 OOD 健壮性的潜在研究方向:更多的训练,更多样化的训练以及以自我监督的方式进行训练。我认为,值得注意的是,较大的模型不会增加 NLP 中的 OOD 健壮性(所有其他条件都相同),因为这意味着某些保证可能会完全受训练程序的约束。

杂项(对齐)

外部视图的可校正性 (Alex Turner)(由 Rohin 总结):这篇文章提出了将外部视图作为可校正性AN#35)推理的一个方面的思考。特别是,在智能体采取其认为正确的行动之前,它可以模拟具有不同值的可能的监督者,并查看导致该行动的推理在这些情况下是否也会做正确的事情。然后,只有在通常情况下,智能体才应采取该措施。

这类似于我们可能会认为,强加我们认为对每个人都最佳的规则对我们不利,即使我们有权这样做,因为从历史上看,这种情况的每一个实例实际上都是不好的。

> Rohin 的观点: 我同意这种“外部视角”的推理似乎很好。如果我们希望我们的智能体即使在没有外部视图可信赖的新情况下也能顺从,则该智能体将不得不通过模拟来构造该外部视图,这在计算上可能是不可行的。尽管如此,这似乎是一个不错的观点,我希望对这个想法有更深入的了解。

人工智能战略与政策

2019 年的人工智能治理 —— 一年回顾:来自 50 位全球专家的观察 (Shi Qian、Li Hui、Brian Tse 等)(由 Nicholas 总结):本报告包含来自 50 位专家的短文,回顾了人工智能治理的进展。我将在这里描述一些主题,而不是尝试总结每篇文章。

首先是强烈强调偏见、隐私、欺骗和安全问题。由于程序员设计算法的偏见以及数据中存在的偏见,都可能发生偏差。欺骗行为包括 deepfake 和冒充人类的在线帐户,其中一部分今年在加利福尼亚被定为非法。

整个国际会议经常强调国际合作和会议的好处以及得到政府和公司许多利益相关者广泛同意的好处。一个例子是《经合组织关于人工智能的原则》,后来被包括美国和中国在内的二十国集团采用,但是在行业和政府内部也组织了许多工作组和委员会。

2019 年的另一个转变是从广泛的原则转向更具体的要求和政策决定。商定的原则非常相似,但具体实施因国家而异。有个别文章描述了欧洲、英国、日本、新加坡、印度和东亚的区域挑战。许多文章还强调了围绕发表规范的辩论(AN#73),在 OpenAI 逐步发布 GPT-2 之后的 2019 年引起了广泛关注。

> Nicholas 的观点: 为本报告做出贡献的专家数量和多样性给我留下了深刻的印象。我认为让具有不同背景和专业领域的人们就如何提前使用人工智能进行协作非常有价值。听到迄今在原则上达成广泛的国际共识,尤其是考虑到最近发生的反对全球机构的总体政治趋势,我也感到惊讶。我当然很想知道管理该问题的关键因素,以及我们如何确保这些事情继续下去。

另一个让我惊讶的是,长期的安全问题与短期的偏见和隐私问题之间存在重叠。对于技术安全工作,我认为问题在很大程度上是不同的,对于安全研究人员而言,保持专注于解决具有重大长期后果的问题非常重要。但是,在治理环境中,这些问题似乎有很多共同点,需要许多类似的机构/流程来解决。因此,我希望这些社区继续合作,互相学习。

人工智能的其他进展

无监督学习

视觉表示的对比学习的一个简单框架 (Ting Chen 等人)(由 Rohin 总结):对比学习是最近的一项主要发展,我们通过赋予神经网络最大程度地提高学习者之间的“协议”任务来训练神经网络来学习表示。相似图片,同时在不同图片之间将其最小化。在 ImageNet 上的半监督学习中,它已用于获得出色的结果。

作者对对比学习进行了大量的实证研究。它们的框架由三个部分组成。首先,数据增强方法指定如何获取“相似图像”的样本:我们简单地获取(未标记的)训练图像,然后对其应用数据增强,以创建两个表示相同基础图像的图像。他们考虑随机裁剪,颜色失真和高斯模糊。第二种是神经网络体系结构,它分为前几层f()从输入中计算表示形式,后几层g()从表示中计算相似性。最后,对比损失函数定义了最大化相似图像之间一致性的问题,同时最小化了相似图像之间的一致性的问题。它们主要使用与CPCAN#92)中相同的 InfoNCE 损失函数。

然后,它们显示出许多经验结果,包括:

  1. g()中具有简单的线性层不如引入一个隐藏层好,换句话说,倒数第二层中的表示比最后一层中的表示更有用。

  2. 对于无监督的对比学习而言,更大的批量,更长的训练和更大的网络比对有监督的学习更为重要。

无监督视觉表示学习的动量对比度 (Kaiming He 等人)(由 Rohin 总结):在大多数深度学习设置中,批次大小主要控制梯度的方差,而较高的批次大小则减少方差。但是,在典型的对比学习中,批次大小也决定了任务:通常,任务是使批次中两个样本之间的一致性最大化,并使与批次中所有其他样本的一致性最小化。换句话说,给定一个输入,你必须正确地分类 minibatch 中其余的哪个样本是该输入的不同转换版本。因此,批处理大小决定了否定样本的数量。

因此,除了减少方差外,大批量还增加了要解决的任务的难度。但是,如此大的批处理量很难放入内存中,并且计算量很大。本文提出了动量对比(MoCo),其中我们获得了大量用于对比学习的负样本,同时允许小批量生产。

将对比学习视为字典查找任务-给定一个转换后的图像(查询),你希望从一大堆图像(键)中找到以不同方式转换的同一图像。本文的主要思想是使 minibatch 包含查询,同时使用所有以前的 N 个 minibatch 作为键(对于某些 N > 1),从而允许使用相对较小的 minibatch 的许多否定样本。

当然,如果每次我们在新的 minibatch 上进行训练时都必须再次对键进行编码,那么这将无济于事。因此,我们将图像的编码表示形式存储在字典中,而不是直接将图像存储为键,从而确保不必在所有键上每次迭代都重新运行编码器。这就是节省计算资源的地方。

但是,编码器会随着时间而更新,这意味着对不同的密钥进行不同的编码,并且没有一致的表示形式可以计算相似度。为了解决这个问题,作者使用了基于动量的编码器版本来对键进行编码,这可以确保键编码缓慢而平稳地变化,同时允许查询编码器快速变化。这意味着查询表示形式和键表示形式将有所不同,但是表示形式之上的层可以学习如何处理。重要的是,键的表示中,表示近似一致。

动量对比学习改善了基线 (Xinlei Chen 等人)(由 Rohin 总结):本文将 SimCLR 论文的见解应用于 MoCo 框架:在对表示损失进行训练的同时,在表示之上添加了额外的隐藏层,并添加模糊数据增强。这样就产生了一种新的关于图像自我监督表示学习的 SOTA。

强化学习

CURL:用于强化学习的对比无监督表示法 (Aravind Srinivas,Michael Laskin 等人)(由 Rohin 总结):本文将对比学习(如上所述)应用于强化学习。在RL中,对比学习与RL培训同时进行,而不是在初始的无监督阶段进行训练,因此它是加速学习的辅助目标。他们使用随机作物进行数据增强。

使用增强数据进行增强学习 (Michael Laskin,Kimin Lee等人)(由Rohin总结):尽管 CURL(如上所述)应用了对比学习,以确保网络对于特定的数据增强不变,但我们可以尝试更简单的方法:是否仅对增强的观测值(例如,随机裁剪的观测值)运行常规的强化学习算法?作者称这种方法为 RAD(带有增强数据的强化学习),并发现它实际上优于 CURL,尽管未使用对比学习目标。作者推测,通过使用对比损失作为辅助目标来限制 CURL,因此,CURL 的表示被迫对真实任务和对比预测任务都具有良好的效果,而 RAD 仅针对真实任务进行训练。

阅读更多: RAD网站

> Rohin 的观点: 我很想看到 CURL 上的一种变体,对比损失的权重会随着时间的推移而衰减:如果作者的猜测正确,那应该可以缓解 CURL 的问题,并且希望它会更好比 RAD。

图像增强就是你所需要的:正规化从像素进行的深度增强学习 (Ilya Kostrikov等人)(由 Rohin 总结):本文将数据增强应用到 Q-学习算法中,同样没有对比损失。具体来说,他们建议状态的 Q 值应随数据扩充而不变(例如,随机翻译,这是它们使用的状态),因此,每当我们需要估计 Q 值时,我们都可以减小此估计的方差通过对状态的多个数据增量进行采样,然后对每个状态的预测 Q 值求平均。他们将此方法应用于“ Soft Actor-Critic(SAC)”,发现它可以显着改善结果。

一个强化学习杂烩 *(Alex Irpan) *(由 Rohin 总结):本博客文章总结了强化学习几个最近的文章(包括我上面总结的数据增强论文,以及First Return Then Explore,在继承 Go-ExploreAN# 35)。

> Rohin的观点: 整个博客文章都值得一读,但是我特别同意他的观点,即数据增强通常似乎是不费吹灰之力的,因为你可以将其视为将数据集的大小增加某个常数,或者将其视为一种消除模型可能会学习的虚假关联的方法。

新闻

BERI 正在寻求新的大学合作者 (Sawyer Bernath)(由 Rohin 总结):BERI 正在扩展其产品范围,以向更广泛的与大学相关的团体和项目提供免费服务,现在,他们正在接受有兴趣接收团体和个人的申请他们的支持。如果你是从事长期项目的研究小组的成员或个人研究人员,则可以在此处申请

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s