在此处查找所有Alignment Newsletter资源。特别是，你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。

音频版本在这里（可能还没好）。

强调

召唤 Alignment Newsletter 贡献者 （Rohin Shah）：我正在寻找内容创作者和本期简报的发行人！请在 9 月 6 日前申请。

对抗性的例子不是错误，它们是特征 （Andrew Ilyas，Shibani Santurkar，Dimitris Tsipras，Logan Engstrom等）（由Rohin 和 Cody总结）：Distill 发表了对本文的讨论。这个重点部分将涵盖整个讨论; 所有这些摘要和意见都应该一起阅读。

考虑两种可能的对抗性样本的解释。首先，它们可能是因为模型“幻觉”一个对分类无用的信号而引起的，并且它对这个特征变得非常敏感。我们可以将这些“错误”称为“错误”，因为它们并不能很好地概括。第二，他们可以通过该功能引起的不推广到测试集，而是可以通过对抗扰动进行修改。我们可以将这些称为“非健壮特征”（与“健壮特征”相反，而这些特征不能通过对抗性扰动来改变）。作者认为，基于两个实验，至少有一些对抗性扰动属于第二类，即有信息但敏感的特征。

如果“幻觉”的解释是正确的，那么幻觉可能是由训练过程，架构的选择，数据集的大小引起的， 而不是由数据类型引起的。因此，要做的一件事就是看看我们是否可以构建一个数据集，使得在该数据集上训练的模型在没有对抗训练情况下 已经很 健壮了。作者在第一个实验中这样做。他们采用经过对抗地训练得到的健壮的分类器，并创建其特征（健壮分类器的最终激活层）与某些未修改输入的特征匹配的图像。生成的图像仅具有健壮的特征，因为原始分类器是健壮的，并且实际上在该数据集上训练的模型是自动变得健壮的。

如果“非健壮特征”的解释是正确的，那么模型应该可以在仅包含非健壮特征的数据集上学习（这对于人类来说看起来毫无意义），并且 仍然可以推广到看似正常的测试集。在第二个实验（以下称为 WrongLabels）中，作者构建了这样一个数据集。他们的假设是，对抗性扰动通过引入目标类的非健壮特征而起作用。因此，为了构建他们的数据集，他们采用带有原始标签 y 的图像 x，对某些类 y’ 进行对抗扰动以获得图像x’，然后将（x’，y’）添加到他们的数据集中（即使对于人类而言） x’ 看起来像类 y）。它们有两个版本：在 RandLabels 中，目标类 y’ 是随机选择的，而在 DetLabels 中，y’ 被选择为 y + 1。对于这两个数据集，如果你在数据集上训练一个新模型，你就会变得很好在原始测试集上的性能，表明“非健壮特征”确实推广。

Rohin 的观点： 我接受这个假设。这对于对抗性噪声的脆弱性是一个合理的解释（“因为非健壮的特征对于减少损失是有用的”），以及为什么对抗性样本在模型之间传递（“因为不同的模型可以学习相同的非健壮特征”）。实际上，该论文表明，在 ExpWrongLabels 中表现更差的架构（可能在学习非健壮特征方面表现不佳）也是对抗性示例迁移最少的架构。我会将其余的意见留给有关回复的意见。

阅读更多： 论文和作者的回应

响应：从错误标记的数据中学习 （Eric Wallace）：该响应指出所有实验都具有以下形式：创建与模型 M 一致的数据集 D; 然后，当你在 D 上训练一个新模型 M’ 时，你得到与 M 相同的属性。因此，我们可以将这些实验解释为表明模型提炼甚至可以用于我们天真地想到“错误标记”的数据点。这是一个更普遍的现象：我们可以采用MNIST 模型，仅选择 top 预测不正确的样本（使用这些不正确的 top 预测标记），并在其上训练新模型 —— 并在原始测试集上获得不俗的性能表现，即使新模型从未见过“正确标记”的样本。

Rohin的观点： 我绝对同意这些结果可以被认为是模型提炼的一种形式。我认为这不会影响论文的主要观点：即使标记数据不正确，模型提炼有效的原因可能是因为数据标记的方式是激励新模型挑选出旧的模型所关注的相同的特征。

回应：健壮特征泄漏 （Gabriel Goh）：此回应调查了 WrongLabels 中的数据集是否具有健壮的特征。具体来说，它检查在 WrongLabels 数据集上训练的可证明健壮特征的线性分类器是否可以在原始测试集上获得良好的准确性。这应该是不可能的，因为 WrongLabels 仅用于将非健壮特征与标签相关联。发现可以使用 RandLabels 获得一些准确性，但是用 DetLabels 准确性不高。

原作者实际上可以解释这一点：直观地说，你可以通过 RandLabels 获得准确性，因为随机选择标签比选择明确错误选择标签的危害更小。对于未修改输入的随机标签，健壮特征应与准确性完全不相关。然而，有着随机标签 随后对标签的对抗性扰动，可能存在一些相关性，因为对抗性扰动可以添加“少量”的健壮特征。然而，在 DetLabels 中，标签是 错误的，因此健壮特征与真实标签负相关，虽然这可以通过对抗性扰动来减少，但它不能被逆转（否则它不会是健壮的）。

Rohin的观点：原作者对这些结果的解释非常引人注目; 对我来说，这应该是正确的。

回应：对抗性的例子是Just Bugs，Too （Preetum Nakkiran）：这种回应的要点是对抗性的例子也可能是 bug。特别是，如果构建明确不在模型之间传递的对抗性样本，然后运行具有此类对抗性扰动的 ExpWrongLabels，则生成的模型在原始测试集上执行效果不佳（因此它肯定没有学习到非健壮特征）。

它还构建了一个数据分布，其中 最优分类器的每个有用特征都被保证是健壮的，并且表明我们仍然可以使用一个典型模型获得对抗性样本，这表明它不仅仅是导致对抗性样本的非健壮特征。

在他们的回应中，作者澄清说他们并不打算声称由于“bugs”而不会出现对抗性样本，只是“bugs”不是唯一的解释。特别是，他们说其主要论点是“对抗性样本不会随着我们修复模型中的错误而消失”，这与此回应中的观点一致。

Rohin的观点： 有趣的是，我认为我对原始论文的主张比对作者本身更为乐观。毫无疑问，对抗性样本可能来自“bugs”：如果你的模型过拟合数据，那么应该期望在过拟合的决策边界上出现对抗性样本。在此回应中构建的数据集是一个特别干净的样本：最佳分类器的准确度为90％，但模型的精确度为99.9％，这意味着它必须过度拟合。

然而，我声称，对于具有神经网络的大型和多样化的数据集，我们通常不在模型过拟合数据的模式中，并且模型中“错误”的存在将减少。（你当然可以通过随机标记数据来获得神经网络“buggy”，但如果你使用真实数据进行自然任务，那么我不认为它会在很大程度上发生。）尽管如此，对抗性样本仍然存在，因为模型使用的特征不是人类使用的特征。

值得注意的是，该实验强烈支持对抗性样本迁移的假设，因为它们是推广到测试集的真实特征。

回应：对抗性示例研究人员需要扩展“健壮性”的内涵 （Justin Gilmer等人）：这一回应认为原始论文中的结果仅仅是一个普遍接受的原则的结果：“模型缺乏对分布漂移的稳健性，因为他们扼杀了数据中的表面相关性“。这不仅仅是关于 L_p 范数球的对抗性扰动：例如，最近的一篇论文表明，如果模型只能访问图像的高频特征（对人类看起来均匀灰色），它仍然可以达到 50％以上的准确度。实际上，当我们进行对抗训练以对 L_p 扰动变得健壮时，该模型会关注不同的非健壮特征，并且变得更容易受到例如低频雾化坏损。作者呼吁对抗性样本研究人员超越 L_p 扰动并思考模型变得脆弱的许多不同方式，并使它们对分布漂移更加稳健。

Rohin的观点： 我非常同意这一回应背后的世界观，尤其是他们所确定的原则。我不知道这是一个普遍接受的原则，虽然我当然不是分布健壮性方面的专家。

需要注意的一点是这里的“表面相关”是什么意思。这意味着数据集中确实存在的相关性确实存在于测试集中，但这 并不是 一般化的。一个更好的术语可能是“脆弱的相关性”。到目前为止，所有的实验都在研究分布内泛化（也就是对测试集的泛化），并且表明非健壮特征确实在分布内泛化。这种回应认为，有很多这样的非健壮特征会在分布内泛化，但不会在分布漂移下泛化，我们需要使我们的模型对所有这些特征都具有健壮性，而不仅仅是 L_p 对抗性扰动。

回应：有用的，非健壮特征的两个例子 （Gabriel Goh）：这个回应研究线性特征，因为我们可以分析地计算它们的有用性和健壮性。它将数据的奇异向量作为特征来画图，并发现这些特征既健壮又有用，或者非健壮且无用。但是，你可以通过集成或污染获得有用的非健壮特征（请参阅回应详情）。

回应：对抗性强大的神经风格转移 （Reiichiro Nakano）：原始论文表明，对抗性样本不能很好地转移到 VGG，并且 VGG 不会像 ResNet 那样学习类似的非强健特征。另外，VGG 特别适合风格转移。也许既然 VGG 也没有捕捉到非健壮特征，那么风格转移的结果对人类来说会更好看？这个回应和作者的回答更详细地调查了这个假设，并发现它似乎得到了广泛的支持，但仍有一些细节需要解决。

Rohin的观点： 这是一个有趣的经验事实。但是，我并不真正认同样式转换的理论论据，因为它不使用非健壮的特性，因为我通常会期望不使用 L_p-fragile 特征的模型会改为使用脆弱的特征或者以其他方式不健壮。

技术AI对齐

问题

人工智能的问题哲学家们可能会为此做出贡献 （Wei Dai）：正是它所说的。这个帖子很短，我不打算总结一下 – 它和原版一样长。

迭代扩增

委托开放式认知工作 （Andreas Stuhlmüller）：这是对 Ought 正在试验的方法的最新解释：因子评估（与Factored Cognition （AN＃36）相反）。使用Factored Cognition，其想法是递归分解高级任务，直到达到可以直接求解的子任务。Factored Evaluation仍然进行递归分解，但现在它的目的是评估专家的工作，与递归奖励建模（AN＃34）相同。

这种转变意味着 Ought 正在试着解决一个非常自然的问题：如何有效地将工作委托给专家，同时避免委托代理问题。特别是，我们希望设计激励措施，使激励下的不受信任的专家能够像内在驱动来起作用的专家一样有所帮助。专家可以是人类专家或先进的 ML 系统; 理想情况下，我们的激励设计对两者都有效。

目前，Ought 正在进行维基百科文章的阅读理解实验。专家可以在没有裁判的情况下访问该文章，但裁判可以检查该文章是否有特定的引用。他们希望转向专家和裁判之间存在较大差距的任务（例如允许专家使用谷歌），以及更主观的任务（例如，裁判是否应该进行 Lasik 手术）。

Rohin的观点： 从 Factored Cognition 到 Factored Evaluation 的转变很有意思。虽然它确实使其在 AI 对齐的背景下更具相关性（因为在 AI 之外的委托代理问题比比皆是），但似乎 Ought 的主要影响是 AI 对齐，我不确定那里有什么区别。在迭代放大（AN＃30）中，当分解 Factored Cognition 意义上的任务时，你将在提炼步骤中使用模仿学习，而使用 Factored Evaluation，你将使用强化学习来优化评估信号。如果你期望强化学习比模仿学习更好地工作，那么这个切换会很有用。

但是，使用 Factored Evaluation，你迭代训练的代理程序必须擅长评估任务，然后你需要另一个实际执行任务的代理程序（或者你可以训练相同的代理程序执行这两项任务）。相反，使用 Factored Cognition，你只需要一个执行任务的代理。如果执行任务所需的分解与评估任务所需的分解不同，那么 Factored Cognition 可能会有优势。

杂项（对齐）

澄清人工智能对齐中的一些关键假设 （Ben Cottier等人）：这篇文章（我参与其中）介绍了一个图表，该图表列出了 AI 对齐的重要和有争议的假设。目标是帮助研究人员识别并更有成效地讨论他们的分歧。

近期的担忧

隐私和安全

评估和测试神经网络中的意外记忆 （Nicholas Carlini等）

阅读更多： 秘密分享者：评估和测试神经网络中的意外记忆

机器伦理

设计具有同理心的深度Q学习 （Bart Bussmann等人）：本文介绍了具有同理心的DQN，它受到了黄金法则的启发：“像对待别人一样对待别人”。给定指定的奖励，具有同理心的 DQN 优化指定奖励的加权组合，以及环境中其他智能体如果是智能体的副本将获得的奖励。他们表明，这会导致资源共享（当资源回报减少时）并避免两个toy gridworld 的冲突。

Rohin的观点： 这似乎与影响正规化方法的精神相似：希望这是一个简单的规则，可以在不必解决所有人类价值的情况下防止灾难性后果。

人工智能战略和政策

AI算法需要FDA风格的药物试验 （Olaf J. Groth等）

AI的其他进展

批评（AI）

表明现有方法无法产生人类水平人工智能的证据 （Asya Bergal和Robert Long）：这篇文章简要列出了当前人工智能技术不会导致高级机器智能（HLMI）的论点，而没有对这些论点有多强有力的立场。

新闻

应该：为什么重要和帮助的方式 （Paul Christiano）：这篇文章讨论了 Ought 正在做的工作，并提出一个案例，它对于人工智能对齐很重要（参见上面的委托开放式认知工作的摘要）。读者可以通过申请他们的网络开发者角色，参与他们的实验和捐赠来帮助解决问题。

项目建议：关于人工智能研究能力和安全影响的考虑因素 （David Krueger）：这篇文章要求对人工智能安全研究人员是否应该担心他们的工作对能力的影响进行彻底和系统的评估。

AGI Watchful Guardians

AN #62 对抗性样本是由真实但难以察觉的特征引起的吗？

强调

技术AI对齐

问题

迭代扩增

杂项（对齐）

近期的担忧

隐私和安全

机器伦理

人工智能战略和政策

AI的其他进展

批评（AI）

新闻

Leave a comment Cancel reply

AN #62 对抗性样本是由真实但难以察觉的特征引起的吗？

强调

技术AI对齐

问题

迭代扩增

杂项（对齐）

近期的担忧

隐私和安全

机器伦理

人工智能战略和政策

AI的其他进展

批评（AI）

新闻

共享此文章：

Leave a comment Cancel reply