第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

对齐周报第 98 期

对齐周报是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。

强调

LCA:用于神经网络训练的损失变化分配 (Janice Lan等人)(由 Robert 总结):本文介绍了损失变化分配(LCA)方法。该方法的目的是深入了解和理解深度神经网络的训练过程。该方法计算每次训练迭代中每个参数之间(在整个训练集上)总损失变化的分配,将其迭代优化,直到近似误差总体上小于 1%。损失变化分配可以是正数,也可以是负数;如果为负,则表示该参数在该迭代过程中对训练有帮助;如果为负,则该参数会损害训练。假定此测量是按参数和按迭代进行的,则可以将其汇总为按层 LCA,或对参数和训练迭代进行任何其他汇总。

作者使用该方法获得了对几种小型神经网络(在 MNIST 和 CIFAR-10 上进行训练)的训练过程的许多见解。

首先,他们验证学习非常嘈杂,平均每次迭代只有一半参数会有所帮助。该分布比正态分布重尾,并且相当对称。但是,参数倾向于在帮助和伤害之间交替,并且每个参数仅倾向于在大约 50% 的时间内帮助。

其次,他们查看了 LCA 汇总的每层,对整个训练过程进行了汇总,并显示出在 CIFAR ResNet模型中第一层和最后一层对总体造成了损害(即 LCA 为正)。为了纠正这种情况并理解原因,作者尝试冻结这些层,或降低其学习率。第一层无法固定(冻结使它的 LCA 为 0,但第二层的 LCA 依次增加,因此最终总损失保持不变)。但是,对于最后一层,冻结或降低学习率会提高网络的整体性能,因为最后一层的 LCA 减少的幅度大于其他所有层的 LCA 的增加幅度。他们还假设通过减少最后一层的动力,他们可以为它提供更新鲜的信息,并使其更有可能学习。他们发现这确实有效,尽管在这种设置下,先前各层的 LCA 会增加以补偿,从而使总体性能保持不变。

最后,作者表明学习似乎跨层同步;在相同的训练迭代中,各层以统计上有意义的方式获得本地 LCA 最小值。他们表明这必须是参数运动和梯度的组合,因为它们自己都不能解释这种现象。

Robert 的观点: 我真的很喜欢这篇论文。该方法简单(尽管计算量很大),并提供了新颖的见解。我认为了解深度学习训练的工作原理很重要,因为它可以帮助我们设计更好的训练过程,不仅是为了获得更好的表现,而且还希望我们希望训练过程能够激发出其他特性。我认为,通过这种方法,可以使它更有效率,然后将其应用于除视觉以外的其他领域的大型模型,因此还有很多工作要做。我也很想知道这是否可以用来了解训练集的哪些部分对训练有帮助和伤害;例如,查看在该训练迭代中,同步学习的点与迷你批处理中的数据点之间是否存在任何关联。注意:我推荐阅读此文(包含附录)来观察作者用来展示其论断的图和可视化,因为这比文字描述更加容易理解。

Rohin 的观点: 我也非常喜欢这篇论文,它具有关于神经网络如何工作的大量经验证据。我倾向于对结果进行一些不同的分析。特别是,假设在计算 LCA 时,我们进行了以下更改:

  1. 我们将损失用于训练批量数据而不是完整的训练集。
  2. 我们没有改善近似误差(即,我们只是使用训练过程中计算出的梯度的点估计)。
  3. 我们使用随机梯度下降(SGD)进行了训练(与 Adam 或 Momentum-SGD 相对)。

然后,所有 LCA 值都将为负(此注释中的解释)。因此,当论文显示 LCA 值为正的实验(即参数/层是反学习的)时,我们可以将这些影响归因于这三个因素的某种组合。

观察到学习非常嘈杂。我想这主要是因为第一点:有很多方法可以改善微小的小批量生产中的损失,但是只有极少数的捕获“实际效应”,可以改善整个大批量生产中的损失。训练数据集。在大多数情况下,更新并没有捕获到“真正的效果”,因此是否有助于弥补整个训练数据集的损失,这是一次硬币大战。抛硬币的可能性很大,而“真实效果”的可能性很小,这会使你在一半的时间里得到一点改善。该说明适用于参数、迭代和层等。

同样,他们发现学习是跨层同步的。我认为这也主要是因为第一点。我的猜测是,有些批量数据比其他批量更“规范”,最容易从中学习。在我们看到每个类都同步的情况下,这可以简单到该特定训练批量数据比其他训练批量数据具有更多该类别的示例。

我希望看到一些实验,其中我们从 LCA 版本开始,那里的一切都是负样本,并且只做了其中一项更改。这将使我们能够缩小导致特定效果的特定变化范围,类似于消融研究。

技术性人工智能对齐

迭代放大

迭代扩增如何超出人类的能力? (Issa Rice)

学习人类意图

通过 Hindsight 优化来实现共享自治 (Shervin Javdani等人)(由 Rohin 总结):本文考虑了共享自治任务,其中用户控制机器人以实现某些目标,而机器人却在不了解目标的情况下学会帮助用户。预先。他们将其形式化为 POMDP,其中状态包括用户的目标,而机器人无法观察到目标。但是,POMDP 观察模型为更好地实现目标的用户操作分配了更高的概率(标准的 Boltzmann 理性模型),这使智能体可以推断出目标必须是什么。在实践中,为了提高计算的可操作性,机器人没有使用在整体 POMDP 中选择最佳动作的方式,而是使用事后观察最优化技术选择了最佳动作。假定机器人将永远不会学习有关用户目标的更多信息

Rohin 的观点: 不确定目标的 POMDP 的制定与合作逆强化学习AN#69)的制定非常相似(并且早于它),主要区别在于只有一个参与者(机器人硬件)。

通过异策略分布匹配进行模仿学习 (Ilya Kostrikov 等)(由 Zach 总结):观察模仿学习的一种方法是作为分布匹配问题。换句话说,基于智能体可以模仿专家诱导的状态分布的程度来奖励智能体。近年来,通过对抗方法(如 GAIL)进行分布匹配已成为模仿学习的流行方法。但是,这些方法的缺点之一是它们需要策略样本,这意味着它们需要智能体与环境进行交互。在本文中,作者提出了一种用于分配匹配的异策略方法,该方法无需环境交互即可工作。他们通过在 DualDICE 的先前工作的基础上实现此目的,DualDICE 是一种与策略无关的方法,用于估计智能体与专家之间的分配比率,然后可以将其用于向智能体提供奖励。这允许直接从演示中估计最佳策略,而无需智能体交互。作者进行了一些实验,结果表明该方法的性能与异策略环境中的行为克隆和策略性环境中的对抗性方法相当。

先决条件: DualDICE

阅读更多: GAIL

Zach 的观点: 这是通过 DualDICE 进行密度估计的一个很酷的应用。尽管实验有些薄弱,但实际上存在一种异策略方法可以进行分布匹配的事实很有趣。而且,该方法似乎能够与令人感兴趣的行为克隆和 GAIL 样方法竞争。

验证

在人类监督下的海上机器人的道德任务定义和执行 (Don Brutzman等人)(由 Rohin 总结)(H / T Jon Rodriguez):尽管水下机器人可以执行人类无法执行的任务,但对他们的行为不承担责任。我们的社会要求有人对任何这样的机器人的行为负责(并要为之负责),从而导致某种形式的规范问题:我们如何对机器人进行编程,以便合理地使操作员对他们的行为负责?

本文将任务执行分为三个主要部分:执行级别(硬件控制)、战术级别(低级行为)和战略级别(机器人应该做什么)。它建议在战略层面上,我们使用形式化方法来指定机器人应该做什么。该语言应具有足够的表现力以使其有用,同时仍要保持足够的限制以进行详尽的测试。他们建议使用增加约束的状态机。约束可用于指定诸如“机器人必须距离障碍物至少 10m 的距离”之类的内容。状态机决定要执行的行为,每个这样的行为可以具有三个结果:成功、失败或异常(如果行为继续运行,则将违反约束)。

Rohin 的观点: 有趣的是,看到其他团体也旨在获得本质上的健壮性保证,但却是出于责任和责任的动机。对于我们今天拥有的贫困系统,实际的方法似乎是合理的,我们必须在其中指定我们希望系统执行的所有操作。

预测

FLI播客:超级预测 (Lucas Perry 和 Robert de Neufville)

杂项(对齐)

人工智能对齐的形式元伦理学和元语义学 (June Ku)(由 Rohin 总结):此网站详细介绍了一个过程,智能体可以通过该过程使用人脑的数据来推断单个人的效用函数(并详细说明)在此过程中需要做出什么假设),然后如何将不同人类的效用函数结合起来,以得出“完全技术道德的目标函数”。重点放在解决元伦理学和精神内容的哲学问题上。他们引用该网站的话“假设世界和其中的成年人脑都可以进行无限的计算和完整的低级因果模型”。

部署安全的人工道德智能体的方法 (Olivier Couttolenc)(由 Rohin 总结):这篇文章研究了如果将当前的道德理论编程为人工智能系统,哪种道德理论将最大程度地降低存在风险,并基于亚里士多德的美德伦理(基于功利主义和康德的绝对命令)。

近期担忧

公正与偏见

从非理想角度看算法的公平性 (Sina Fazelpour等人) (由 Rohin 总结):公平性领域旨在开发客观的公平性指标,然后可以对其进行优化以产生公正的AI系统。不幸的是,许多直观上理想的公平性指标根本上是不兼容的,除非在特殊情况下,否则无法同时实现。我们应该对公平失去一切希望吗?

本文认为,问题在于我们正在建立理想化理论,指的是理想化和非理想化理论模式的政治哲学构想。理想理论是描述一个理想的理想世界,然后通过搜索现实世界与理想世界之间的差异来识别不公的理论。这导致三个主要缺陷:

  1. 它可能导致对一些不公正现象的系统性忽视,并扭曲我们对其他不公正现象的理解。例如,尽管历史和制度上存在歧视,但适用于大学录取的公平的团体平价指标将确定东亚学生相对于白人学生而言具有特权。
  2. 它未提供有关应采取的措施的充分实践指导,有时会导致误导性的缓解策略。再次考虑大学录取。一个完全不同的学习过程中的目标是盲目的保护特性(如性别),同时仍然实现人口奇偶校验。这迫使模型惩罚与男性相关的特征。结果,我们最终奖励进入女性主导领域的女性,并惩罚进入男性主导领域的女性!大概这不是我们想要的。
  3. 尚不清楚决策者中谁负责干预以纠正特定的不公正现象。

作者建议研究团体朝着非理想的理论化模式发展,在这种模式下,应更加注重对问题有深刻的经验理解(包括各种因果因素,而不是汇总统计数据),并使用经验主义的信息方法。选择处理方式,而不是修改机器学习算法以优化数学定义的指标。

Rohin 的观点: 我真的很喜欢这篇文章,但我的总结并没有做到合理 —— 它还提出了其他几点要点。对于对齐方式,我也有类似的看法:对诸如目标导向AN#35)或安全探索AN#76)之类的概念的正式定义感到相对悲观,对那些没有假定概念的正式定义的方案感觉更好。而是向人类学习(或完全不需要)。

另一件事是超过我的思考的,他们的理论的非理想模式的描述集中一个很大的了解究竟是怎么回事,这是在(AN#81)人工智能对齐中非常相似的解释性和概念的普遍性

人工智能的其他进展

强化学习

现实世界中的机器人强化学习的要素 (Henry Zhu,Justin Yu,Abhishek Gupta 等人) (由 Rohin 总结):假设我们想训练一个机器人在现实世界中执行任务,而我们不想处理难以进行模拟到真实的迁移。通常,由于我们的所有经验都必须收集在现实世界中,因此我们需要人工将机器人重置为其初始状态。本文的关键思想是,重置的目的是确保机器人探索各种状态,从而使其学习稳健的策略。这可以通过学习摄动策略来实现其目的是将机器人声明为从未访问过的状态。然后,他们将其与表示学习相结合(以便他们可以从像素中学习),并使用将目标状态与非目标状态区分开的分类器作为奖励函数,以获得全自动的设置,一旦你开始训练机器人,它就会进行自我训练而没有任何人类的参与。

阅读更多: 论文:现实世界中机器人强化学习的要素

Rohin 的观点: 这是一个很酷的概念证明,但是学习的摄动策略只能带你走很远 —— 没有学习的摄动策略会允许你例如在物体掉落后捡起它,就像你想要的那样正在训练机器人操作魔方AN#70)。似乎很难以一种完全自动化和博学的方式解决此类问题(尽管也许你可以使用更经典的技术来制定“硬编码”但仍然是自动重置策略)。

新闻

CLR 职位空缺:研究人员和夏季研究人员(由 Rohin 总结):长期风险中心正在寻找研究人员和夏季研究人员从事与 S 风险相关的高质量研究,包括(其他领域)多智能体系统。申请截止日期为 5 月 13 日。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s