AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验

中文版

对齐周报第 104 期

对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

TABLE_OF_CONTENTS: TableOfContents

强调

不可访问的信息 (Paul Christiano)(由 Rohin 总结):思考人工智能对齐问题的一种方法是,我们只知道如何在我们可访问的信息上训练模型,但是我们希望模型利用不可访问的信息。

如果可以直接检查信息,或者在接受其他一些可访问信息训练后,ML模型是否可以成功迁移以提供信息,则可以访问信息。(后者的一个例子是,如果我们训练了一个系统来预测一天中发生的事情,并且成功地将其转换为预测一个月中发生的事情。)否则,信息将无法访问:例如,“Alice 在想什么” (至少目前)无法访问,而“爱丽丝会说什么”则可以访问。该帖子还有其他几个示例。

请注意,虽然 ML 模型可能无法直接准确地说出 Alice 的想法,但是如果我们训练它预测 Alice 的想法,它可能会具有 Alice 的想法的内部模型,因为这对于预测 Alice 的想法很有用。但是,由于无法从模型中提取此信息,因此无法访问。尽管我们可以训练模型以输出“Alice 在想什么”,但由于我们没有基本的事实答案,因此必须训练“对 Alice 在想什么的一致且合理的答案”。这可能会激励制定出我们最相信的错误策略,而不是报道事实。

风险论据如下:我们关心无法访问的信息(例如,我们关心人们实际体验的内容,而不是人们所说的体验的内容),但不能轻易使人工智能系统对其进行优化。但是,人工智能系统将能够推断和使用无法访问的信息,并且胜过那些无法访问的信息。人工智能系统将能够针对至少某些目标使用此类不可访问的信息进行规划。然后,使用无法访问的信息进行规划的人工智能系统最终可以控制大多数资源。关键语录:“不利于我们的关键不对称因素是,要想使繁荣发展,似乎需要获取特定数量的物品,而危险则需要具备访问任何物品的能力。”

然后,该帖子继续列出该问题的一些可能的攻击角度。迭代扩增可以被认为是解决我们训练的智能体与我们自己之间的速度、规模、经验、算法复杂性等方面的差距,这可以限制我们的智能体所能获得的,我们无法获得的信息。但是,放大似乎最终会遇到一些永远不会产生的不可访问的信息。结果,这可能是对齐的“核心”。

Rohin 的观点:我认为不可访问的信息这一概念很重要,但是很难推理。例如,我经常考虑通过近似“一个人长时间思考后会说些什么”来解决对齐问题;这实际上是一种主张,即在长时间反复进行时,人类的推理能力会很好地传递,并且“人们会说些什么”至少在某种程度上是可访问的。无论如何,人工智能系统似乎有可能继承我认为归因于人类推理的可转让性相同的属性,在这种情况下,风险论点适用,主要是因为人工智能系统可能将其推理应用于与我们关注的目标不同的目标,这使我们回到意图的一致性AN#33) 公式。

回应将这篇文章视为反对黑匣子优化的相当笼统的论点,在该论点中,我们仅查看输入输出行为,因为那样我们就无法使用不可访问的信息。它建议我们需要了解AI系统的工作原理,而不是依靠搜索来避免这些问题。

冠状病毒大流行可能导致AI缓慢起飞的原因 (Victoria Krakovna)(由 Rohin 总结):COVID-19 大流行就是人类面临的巨大风险的一个例子。我们可以从人工智能对齐中学到什么经验?这篇文章认为,这种大流行是我们在缓慢起飞情况下可以预期的那种情况的一个例子,因为我们有机会从经验中学习,采取警告标志并及时就存在严重问题达成共识。但是,尽管我们可以从 SARS 等先前的流行病中学到东西,但我们未能概括 SARS 的教训。尽管在 2 月份出现了大流行的警告迹象,但许多国家还是浪费了一个月的时间,原本本该可以储存 PPE 和测试能力的库存。我们对 COVID-19 是一个问题没有达成共识,直到 3 月底,文章都认为它并不比流感更糟。

所有这些问题也可能在起飞缓慢的情况下发生:我们可能无法从狭窄的人工智能系统推广到更通用的人工智能系统;我们可能不会对警告标志采取行动;并且我们可能不会相信强大的人工智能即将出现,直到为时已晚。结论是“除非通用人工智能到来时有更强大的机构到位,但我不清楚慢速起飞比快速起飞要安全得多”。

Rohin 的观点:尽管我同意 COVID 的反应比预期的要糟糕,但我认为 COVID-19 大流行与软起飞情景之间存在一些重要的异同,我在这个评论中详细说明。首先,对于 COVID,存在许多新颖的我对人工智能并不期望有的问题,。其次,我希望可以在更长的时间内做出有关人工智能对齐的决策。最后,通过人工智能对齐,我们可以选择防止出现任何问题,而对于大流行而言,这并不是真正的选择。另请参阅这篇文章

技术性人工智能对齐

问题

Steven Pinker 和 Stuart Russell 关于人工智能的基础、收益和可能存在的威胁的探讨Lucas Perry, Steven Pinker and Stuart Russell)(由 Rohin 总结):尽管他们对人工智能风险存在分歧,但 Stuart 和 Steven 还是有很多共识。他们都认为人工智能的发展取决于许多历史思想。他们都特别批评我们可以通过简单地扩展现有的深度学习模型来获得通用智能的观点,理由是需要推理、符号操作和一次性学习,而当前模型通常不这样做。他们俩都预测我们可能不会被超级智能的人工智能淘汰,至少部分是因为我们会通过广泛的测试或通过说明问题的初始故障来发现并修复任何潜在的故障。

在人工智能风险方面,尽管他们花了很多时间讨论它,但我只会谈论在我看来确实存在真正分歧的部分,并且不提及其他任何内容。Steven 反对人工智能风险的立场似乎是双重的。首先,我们不太可能很快建立超级智能的人工智能,因此我们应该关注其他明显的风险,例如气候变化。相反,Stuart 认为,到本世纪末,超级智能的人工智能很有可能出现,因此值得考虑。其次,构建专注于单个目标的超级优化器的想法非常糟糕,以至于人工智能研究人员显然不会构建这样的东西。相反,Stuart 认为目标导向系统是我们建模和构建智能系统的默认方式。

Steven 也不同意人工智能风险支持者通常使用的智能概念,他说:“追求单一目标的超级优化器显然是不智能的,而不是超级智能的”。我不能理解他的意思,但这似乎与他的观点有关。

Rohin 的观点:毫不奇怪,我同意 Stuart 的回答,但是尽管如此,我还是感到启发,特别是在说明具有简单目标的示例的缺点时。我确实感到沮丧的是,Steven 没有回应关于多个目标无济于事的观点,因为这似乎是一个主要症结,尽管他们正在讨论许多不同的方面,并且该线索可能只是偶然地被放弃了。

可解释性

稀疏性和可解释性? (Stanislav Böhm 等人)(由 Rohin 总结):如果要精确地可视化神经网络在做什么,一种方法是可视化乘法,加法和非线性的整个计算图。尽管即使在 MNIST 上这也极其复杂,但是我们可以通过使网络稀疏来简化它,因为可以从计算图中删除任何零权重。先前的工作表明,我们可以从模型中去除 95% 的权重,而又不会降低精度,因此作者这样做是为了使计算图更易于理解。

他们使用它来可视化 MLP 模型,以对 MNIST 数字进行分类,并为经过训练可以完成 Cartpole 的 DQN 智能体程序。在 MNIST 情况下,可以通过将网络的第一层可视化为 2D 图像列表来大大简化计算图,其中第 k 个激活由 2D 图像与输入图像的点积给出。这处理了神经网络中的绝大多数权重。

Rohin 的观点:这种方法具有很好的特性,它可以准确地可视化神经网络在做什么 —— 它不是在“合理化”一个解释或隐藏潜在的重要细节。可能会获得有关该模型的有趣见解:例如,数字 2 的 logit 始终为 -2.39,这意味着其他所有内容都是相对于 -2.39 计算的。查看数字 7 的图像,似乎该模型强烈相信 7 的像素必须使前几行像素为空白,这让我感到有些惊讶。(我选择任意看数字 7。)

当然,由于该技术不会丢弃有关模型的任何信息,因此它很快变得非常复杂,并且无法扩展到更大的模型。

预测

有关消除“不连续性”的更多信息 (Aryeh Englander)(由 Rohin 总结):这篇文章考虑了人工智能开发中我们可以想象的三种不同的“不连续性”。首先,进度可能会发生急剧变化,或者进度可能会与先前的趋势线相抵触(这是 AI Impacts 检查的问题AN#97)。第二,进展速度可以是缓慢的,也可以是快速的,而不管其间是否存在不连续性。最后,日历时间可以短也可以长,而不管进度如何。

然后,帖子将这些类别应用于三个问题。我们会在通用人工智能到来之前看到它吗?如果出现问题,我们能否“纠正”?一个行为者是否有可能获得决定性的战略优势?

人工智能的其他进展

元学习

无需记忆的元学习 (Mingzhang Yin等)(由 Asya 总结):元学习是一种利用先前任务中的数据来高效学习新任务的技术。本文提出了一种元学习问题的解决方案,称之为记忆问题。想象一下一个经过训练的元学习算法,该算法可以查看 3D 对象的 2D 图片并确定其相对于固定规范姿势的方向。在少量对象上进行训练后,该算法可能很容易只记住每个训练对象的规范姿势,然后从输入图像推断出方向。但是,该算法在测试时的性能会很差,因为它没有看到新颖的对象及其规范的姿势。与其记住,我们不希望元学习算法学习适应新任务的功能,只需给出一些新物体的示例图像,即可猜测确定典型姿势的规则。

在较高级别上,元学习算法在进行预测时会使用来自三个来源的信息 —— 训练数据,在对先前任务进行元训练时所学习的参数以及当前输入。为了防止记忆,我们希望该算法仅从训练数据中获取有关要解决的任务的信息,而不是通过将其存储在其他信息源中来记忆它。为了阻止这种记忆,本文提出了两种新的正则化技术,称为“元正则化”方案。一种惩罚算法在输入数据和预测标签之间的直接关系中存储的信息量(“激活时的元正则化”),

在某些情况下,激活的元正则化不能防止权重元正则化成功的记忆问题。本文假设这是因为即使输入数据和预测标签之间只有少量直接信息也足以存储正确的预测(例如,单个数字即正确的方向)。也就是说,正确的激活将具有较低的信息复杂性,因此即使激活中的信息受到严重惩罚,也很容易存储它们。另一方面,记忆预测标签所需的功能具有很高的信息复杂性,因此权衡存储该功能的权重信息成功地阻止了记忆。此处的关键见解是,记忆所有训练示例所产生的信息理论上比特定于任务的适应性更复杂,因为记忆模型是一个必须同时在所有任务上都表现良好的单一模型。

两种元正则化技术在几个实验设置中都优于非正则元学习技术,包括简单的正弦回归问题,上述姿势预测问题以及改进的 Omniglot 和 MiniImagenet 分类任务。它们也优于经过微调的模型和使用标准正则化技术进行正则化的模型。

Asya 的观点:我喜欢这篇论文,在我看来,它提出的元正则化技术似乎很自然,并且会在其他地方使用。惩罚模型的复杂性以鼓励更多的适应性学习使我想起了这样一个论点,即对压缩策略施加压力可能会导致 mesa 优化器AN#58)—— 这似乎是非常微弱的证据,证明确实如此。

新闻

OpenAI API (OpenAI)(由 Rohin 总结):OpenAI 发布了一个商业 API,该 API 允许通过GPT-3AN#102)访问自然语言完成功能,从而允许用户以英语指定任务,而 GPT-3 可以(希望如此)解决。

Rohin 的观点:这是值得注意的,因为(据我所知)这是 OpenAI 的第一个商业应用程序。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s