AN #101 为何我们需要严格度量和预测人工智能进展

中文版

对齐周报第 101 期

对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

TABLE_OF_CONTENTS: TableOfContents

强调

Danny Hernandez 在预测人工智能和人工智能驱动力方面的观点(Arden Koehler 和 Danny Hernandez)(由 Rohin 总结):该播客是对实践预测及度量人工智能及其重要性的一个不错的介绍. 我不会总结在播客中的所有内容,列出其中一部分观点.

Danny 谈到了 AI and ComputeAN #7 AI and EfficiencyAN #99里面他在 OpenAI 完成的工作. 前者展示了用于最大规模的实验的算力从 2012 年到 2018 年间提升了 300,000 倍,后者告诉我们在同一时间区间内算法已经能够以 25 倍少的算力达到类似性能(从 2012 年到 2019 年达到 44 倍).

一件我之前没有意识到的事是 25 倍或者 44 倍因子应被看作是一个松的下界:在其他领域中如语言建模,这个因子实际上更高. 但是更为重要的是,采用的这个方法论不能够给我们建模一个算法的效果来做一些之前我们不能做的事情(这个可以被解释成某些我们可以做大,但需要更多算力). 可能这个算法进展应该被看作是效率但 100 倍乃至 1000 倍但提升. 总体而言,Danny 奖算法进展和算力增加看作是预测未来人工智能发展的重要因素.

不巧的是,很难来从这些度量中为我们关心的后续事情得出强的推论 —— 基于这些结果,我们是否应该认为人工智能进展是快的或者慢的,或者线性的还是指数级的?考虑在思考这个问题时所使用的具体单位非常重要. Danny 认为人工智能的经济影响是一个重要的管道. 对他来说,神经网络在 2008 年时候没有太大的影响,但是从那时候期,他们就持续收到重视,比如 让 Google 搜索提升近 15% 效果(通过使用新的语言模型). 在他眼里,这个趋势是指数级的.

在任何情况下,Danny 认识这个严格度量和预测工作是重要的,因为这给出了具体输入可以让决策制定人来更好的决策. 这也至少是 OpenAI 沟通策略包含非常面向广阔受众群体的博客文章的一个原因:任何决策制定者可以阅读这些文章获得相应的价值(不同于研究论文那样).

这个工作是一个由 OpenAI 的 Foresight 团队(招聘研究工程师中)更为宽泛的工作的一部分:其他工作包括 Scaling Laws for Neural Language ModelsAN #87How AI Training ScalesAN #37.

Danny 认为人工智能硬件方面的工作也是很有前景的,而现在稍微被社区忽视了:看起来这会是一个特别重要的领域,因为它会驱动某些算力提升方面的进展,所以这里的影响对人工智能发展来说非常有用. 例如,大家可能会对人工智能硬件公司有个 windfall clauseAN #88的号召。

Rohin 的观点: 这个度量和预测工作看起来很不错;它限制了我们应该如何期待未来人工智能系统,并增进了我们对人工智能影响的理解,这可能有助于我们制定部署计划。

我对经济影响的推理不是很确信。 我相信神经网络的经济影响已指数级增长,但似乎我们应该分析整个机器学习(ML)的趋势,而不仅仅是神经网络,而且对我来说,在那里面看到指数增长的可能性似乎要小得多。 每当你看到现有技术的新的,更好的版本(例如与 ML 相关的神经网络)时,随着新技术的采用,你将看到指数级的趋势; 这并不意味着指数会持续增长并带来变革性影响。

技术性人工智能对齐

学习人类意图

学会与人类互补(Bryan Wilder et al)(由 Rohin 总结):很多当前的人工智能系统目标是在复杂任务(如医疗诊断)中辅助人类. 如果人工智能系统由非常不同于人类的能力范围,人们将会对人工智能检测困难样例并将其展示给人类非常感兴趣. 本文给出了一种实现该想法的端到端的方式.

作者假设他们可以访问一个增强的监督学习数据集,包含三元组 (x, y, h),其中 x 是输入,y 是标签,而 h 是人类预测. 一个传统的方法是首先训练训练一个模型在给定 x 时预测 y,然后得到一个新算法或者模型来预测何时你应该询问人类而不是去查询模型. 相对而言,他们创立一个简单模型首先确定是否查看 h(以某个固定的代价 c),然后给定 x (和 h, 如果模型选择查看 h)来做出预测. 他们有个两种版本:一个经典的判别式方法(类似于图像分类)和一个决策论方法(党模型使用几个改了模型然后计算 h 信息价值(Value of Information,VOI)来决定是否询问人类).

端到端训练给出了两个好处:

  1. 模型自动学习聚焦他们学习能力在对人类来说困难的样本上
  2. 模型忽略那些他们会询问人类的样本(而不是学习足够 50% 置信度的预测)

Robert 的观点: 这是个很棒的想法!即使你数据集只是 (x, y) 对,你可以假设 h=y,尽管你可能没有上面对好处 1,但你可能仍然能有好处 2. 如果你构造自己数据集通过常见的方法来获得一堆人类预测并定义 y 为模型预测,那么你可能自动构造 h 通过让它成为人类预测的平均值,获得上述两点好处.

使用注意力增强实现可解释的强化学习 (Alexander Mott 等)(由 Robert 总结):在本文中,作者训练了一个内置了软注意力模块的强化学习智能体。注意模块在视觉输入和选择下一个动作的网络之间形成了瓶颈,这迫使模型学习仅关注场景的重要部分。这意味着他们可以可视化模型认为重要的输入部分,因为这些部分是模型正在关注的部分。对注意力模型的查询由顶级递归网络确定,而没有来自当前图像的输入,因此可以作为“自上而下”注意力的一种形式,在这里可以想象高层控制器正在查询处理过的图像的各个位置和对象。

训练了这个智能体之后(他们在少数 ATARI 游戏上仍具有 SOTA 强化学习模型的竞争性能),他们定性评估了各种游戏上的注意力可视化。他们在注意力计划中发现了几种常见的策略,例如,智能体注意特定的点直到对象越过该点(“绊线”)。在两个常规像素以及基于傅立叶的位置编码上计算注意力。由于其体系结构的这一方面和其他方面,作者可以检查查询是否集中在像素值上(即在任何地方寻找特定的像素模式)还是位置特征(即询问在特定位置上存在哪些像素)。例如,他们发现智能体经常查询分数显示的位置,大概是因为它对于计算值函数很有用。他们还将自己的方法与基于自我注意的模型以及其他显着方法进行比较。

感受视觉效果的最佳方法是访问论文的网站并观看示例视频。

展示 vs 做:通过展示的教学(Mark K. Ho 等人)(由 Rohin 总结):本文创建和验证了 教学法(pedagogy)的模型当应用于奖励学习. 典型情况下,逆强化学习算法假设了对一个从近似最优策略创建的展示集合的访问. 然而,在实践中,当人们被要求给出一个任务的展示,他们不会给出最优轨迹;他们给出轨迹帮助学习者最佳地区别可能任务. 他们通过两步创建模型形式化了这个想法:

  1. 一个实际的或者逆强化学习机器人在展示者为 Boltzman 理性的模型下学习奖励
  2. 教学法人类按照实际机器人将会认为真实奖励是基于看到轨迹的有多少可能的比例展示轨迹

阅读更多: Literal or Pedagogic Human? Analyzing Human Model Misspecification in Objective Learning (AN #50)


通过最小化逆动力差异来从观察中模仿学习 (Chao Yang,Xiaojian Ma 等人)(由 Zach 总结):从观察中学习(LfO)聚焦于我们想要从仅有状态的展示的情形下模仿学习. 这与从展示中学习(LfD)不同,那个需要状态和行动信息. 在实践中,LfO 是更为通常的情况,因为存在大量未标注的数据,例如视频数据. 在本文中,作者展示了 LfO 和 LfD 之间的差距来自于模仿者和专家的逆动力模型之间的差距. 如果逆动力模型是完美的,那么状态转移可以被标注为行动而 LfD 可以在那个结果上执行. 然而更为常见的是很多行动可以生成同样状态转移. 他们然后给出了优化该差距的一个上界可以得到一个改进的性能,相比于其他的 LfO 方法(如 GAIfO(GAIL extended to LfO).

前置内容:GAIfORecent Advances in LfO


阅读更多:divergence minimization perspective

Zach 的观点: 本文主要的价值是 LfO 和 LfD 之间的差异通过引入逆差异的概念澄清了. 与这个分析有关的是,作者注意到 GAIf 有和逆差异模型相同的目标函数如果我们将 KL 用 JS 散度更换的话. 这让我怀疑是否存在一个一般的 LfO 散度最小化方法能关联所有的方法. 换言之,对 LfO 和 LfD 的目标可以通过 KL/JS 散度联系起来意味着有一整个类别的方法基于这个 LfO的思想. 特别是,我假设从观察中正则化逆强化学习再进行强化学习可能会等价于一个散度最小化问题.

可解释性

可解释性如何帮助对齐? (Robert Kirk 等人)(由 Rohin 总结):可解释性似乎对各种各样的人工智能对齐建议很有用。大概不同的建议需要不同的解释性。这篇文章分析了这个问题,以使研究人员可以优先进行各种类型的可解释性研究。

在较高的层次上,可解释性可以使我们当前的实验更具信息性,以帮助我们回答研究问题(例如“当我以这种特定方式进行辩论(AN#5)时,保持诚实会赢吗?”),或者可能是用作对齐技术的一部分,用于训练人工智能系统。前者只需要做一次(回答问题),因此我们可以花很多精力在它们上,而后者必须高效才能与其他人工智能算法竞争。

然后作者分析了可解释性如何适用于几种比对技术,并得出了一些初步结论。例如,他们建议,对于迭代扩增之类的递归技术,我们可能需要比较可解释性,该解释性可以解释模型之间的变化(例如,迭代扩增中提炼步骤之间)。他们还建议,通过拥有可用于其他机器学习模型的可解释性技术,我们可以规范化训练后的模型以进行对齐,而无需人工参与。

Rohin 的观点:我喜欢这种一般的思想方向,并希望人们继续追求它,特别是因为我认为内部一致性必须具有可解释性。我认为,如果将其具体化,可以更轻松地构建本文中的想法。

探索性但非解释性:用于深度强化学习的显着性图的反事实分析 (Akanksha Atrey 等人)(由 Robert 总结):本文对基于显性图的 ATARI 基于深度视觉的强化学习中的用法进行了分析。他们考虑了几种显着性方法,所有这些方法都会在输入图像上产生热图。他们显示,在深度强化学习文献中,对显着性图的所有使用(在 11 篇论文中有 46 项声明)都将其解释为代表智能体的“关注点”,有 87% 的人使用显着图来生成关于智能体的行为或推理的主张,但只有 7% 使用更多或更直接的证据来验证其主张。

他们继续提出一个框架,以将通过显着性图生成的关于智能体行为的主观和定义不足的主张转变为可伪造的主张。该框架有效地使声明更加具体,并针对游戏状态空间中的特定语义概念。使用 ATARI 环境的完全参数化版本,他们可以以保留含义的方式更改游戏状态(即新状态仍然是有效的游戏状态)。这使他们可以严格执行干预措施,并伪造其框架中提出的主张。

他们使用他们的框架,对通过显着性图支持的关于智能体行为的流行说法进行了3个实验案例研究,并表明它们全部都是错误的(或者至少比应说的更笼统)。例如,在游戏 Breakout 中,智能体倾向于通过砖头建立隧道以获得高分。显着性地图显示智能体在自然游戏中会注意这些隧道。但是,移动隧道和/或智能体的球拍和/或球的位置都会消除隧道位置上的显着性。即使垂直翻转整个屏幕(仍然会导致有效的游戏状态),也会消除隧道位置上的显着性。这表明智能体通常不了解隧道的概念,也不了解健壮的隧道。

Robert 的观点:本文介绍的框架很简单,但我喜欢将其与完全可调节的 ATARI 仿真器结合使用以进行有意义的干预的想法,这使我们能够伪造使用显着图的主张。这是一种验证我们正在使用的方法是否产生良好见解的方法。

我认为本文更多地指出了这样一个事实,我们对显着性图的解释是不正确的,这是因为我们在智能体的推理上施加了拟人化的偏见,并试图从特定的解释中推断出一般行为。我认为他们所引用的许多主张可以改写为更具体,然后可能成立(即不是“智能体了解隧道并参与并建造隧道”,而是“智能体知道始终在正确地销毁砖块”)屏幕的手侧会带来更高的奖励,因此可以在该位置弹跳球时到达该位置”。)

深度神经网络中可解释性方法的基准 (Sara Hooker等人)(由 Robert 总结):本文介绍了称为RemOve And Retrain(ROAR)的特征重要性方法(也称为显着性图)的自动基准。基准测试遵循以下步骤:

  1. 在数据集上训练图像分类器(它们在 ImageNet 上使用 ResNet-50s,并获得约 77% 的准确率)
  2. 收敛时测量测试装置的准确率
  3. 使用特征重要性方法,在数据集中找到最重要的特征,然后将其删除(通过使像素变灰)
  4. 在这个新的数据集上训练另一个模型,并测量新的测试集准确率
  5. (4)和(2)中的准确率之间的差异是衡量特征重要性方法在发现重要特征方面的有效性的量度

重新训练背后的想法是,为原始分类器图像提供许多像素变灰的效果,这显然会导致准确率降低,因为它们不在训练分布范围内。再训练解决了这个问题。

他们以基准为基准对各种功能重要性方法(梯度热图、引导反向传播、积分梯度、经典SmoothGrad、SmoothGrad^2、VarGrad)进行基准测试,并与随机基线进行比较,并使用 Sobel Edge 检测器(用于在图像中找到边缘)。只有 SmoothGrad ^ 2和VarGrad(这两种方法都结合了其他特征重要性方法)比随机方法要好。他们无法解释为什么这些方法比其他方法表现更好。他们还注意到,即使删除每个图像中 90% 的像素(即随机基线),准确率也仅从 77% 下降到 63%,这表明图像中的像素之间的相关性如何。

Robert 的观点:我赞成开发允许我们严格比较可解释性方法的方法。此基准是朝正确方向迈出的一步,但我认为它确实存在一些缺陷:

尤其是在图像中,像素之间具有高度相关性,变灰的像素与“移除”该功能不一样(在更改后的图像上训练的模型可能会学习类似“这些像素变灰(因此很重要)的信息,因此,这必须是一只鸟,否则像素将不重要”)。

基准测试无法准确衡量这些方法试图捕获的内容。这些方法试图回答“该图像的哪些部分对于进行此分类很重要?”,这与“该图像的哪些部分被移除会阻止新模型准确分类?”至少略有不同。

我很想看到将基准(或概念上类似的东西)应用于除图像以外的域(特征之间的相关性较低):我想对于某些表格数据,这些方法的性能会更好(尽管这些方法大多数被设计用于图像而不是表格数据。

杂项(对齐)

用户-智能体价值对齐 (Daniel Shapiro 等人)(由 Rohin 总结)(H / T Stuart Russell): 2002 年的这篇论文调查了在假定人类效用为前提的情况下,将人工智能体与人类主体对齐的过程函数是已知的,但是可以根据不同的特征集fA和fH计算智能体奖励和人工效用。在这种情况下,智能体奖励可能无法捕获人类关心的所有影响,从而导致错位。

他们介绍了图价值对齐的概念,其中智能体的行为可以影响 fH 的唯一方法是通过 fA。在这种情况下,我们可以通过将智能体对任何特定 fA 的奖励设置为 fH 效用的期望值(超过 fH)(在给定 fA 的情况下),建立功能价值一致性(智能体的最优政策也可以最大化人类的效用)。需要注意的是图化的标准是非常强大:它要求没有任何的智能体未观察到的效果在所有问题的人。

他们提出了两种建立比对的方法。首先,我们可以定义其他智能体特征(也许需要其他传感器),直到对 fH 的所有影响都被 fA 捕获。但是,这将是非常困难的,即使不是不可能的。第二,我们可以将所有智能体行为和观察作为智能体特征包括在内,因为智能体选择策略对 fH 的任何影响都仅取决于所做的观察和采取的行动。当然,要实现功能价值的统一,那么我们将必须对任何观察到的每个动作的预期人类效用有一个很好的理解,这也是很难的。

他们还简要讨论了对齐的智能体和有能力的智能体之间的关系:一块石头与你保持一致(按照他们的定义),但也完全没有用。一个有趣的报价:“请注意,与能力更强的智能体建立对齐关系可能会更困难,因为他们的技能为不良效果提供了更多的途径。这是一个令人不安的想法。”

Rohin的观点:有趣的是,即使您假设人类效用函数是已知的,对齐问题也会在多大程度上表现出来,但是人类和智能体使用的功能集却不同。本文缺少的唯一论点是,对于具有足够能力的智能体,由于收敛工具性子目标,该智能体实际上将对人类产生对抗性,因此可以在此框架中进行论证。

不幸的是,正如他们在论文中所承认的那样,他们两种对齐方式都无法很好地扩展。(特别是第二种方法类似于对策略进行硬编码,类似于此处的构造(AN#35)。)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s