AN #56 机器学习研究人员是否应该在做出假设之前停止运行其实验?

在此处查找所有Alignment Newsletter资源。特别是,您可以注册或查看此电子表格中所有摘要中的摘要。

强调

HARK 深度学习的一面 —— 从“研究生下降法”到自动机器学习 (Oguzhan Gencoglu等):本文重点研究结果已知后的假设的负面影响(HARKing),这是研究人员  首次进行实验和观察的模式结果,一旦他们达到了可发布的标准,就会在事后解释结果后构建一个假设。它认为 HARKing 在机器学习中很常见,并且这对整个领域产生了负面影响。首先,对当前最好结果(SotA)的改进可能是有问题的,因为它们可能是由于通过“研究生下降法”的足够的超参数调整引起的,而不是在获得归因的论文中的新想法。其次,由于在会议中仅报告了积极的结果,因此存在发表偏差,这使我们无法从反面结果中学习。第三,为适合单个数据集或任务的结果而特意定制的假设不太可能推广到新的数据集或任务。第四,虽然 AutoML 系统取得了良好的效果,但我们无法弄清楚是什么让它们起作用,因为高计算要求使得消融研究更难以实现。最后,他们论述了我们需要解决 HARKing 以实现道德 AI,以人为中心的 AI,可复现的 AI 等。

Rohin 的观点:我相信  我开始考虑这个问题之后,第一次找到这篇 通用的有趣新论文  发现了这篇论文,这非常巧合。我真的很高兴作者写了这篇论文 —— 这不是他们的动机(据我所知),不过该话题似乎非常重要。

也就是说,我在一些方面不同意里面的观点。作者不承认 HARKing 的价值 ——  经常进行许多实验并看看为了发展一个好的理论会发生什么是有用的。人类不是理想的贝叶斯反叛者,他们可以同时考虑所有假设; 为了甚至假设一个理论,我们通常需要很多观察。作者指出,在其他领域,HARKing 导致不良结果,但 ML 明显不同,因为  我们可以以更高的迭代速度更快地运行实验

如果我们被迫预先注册研究,正如作者所建议的那样,迭代速度会下降一个数量级或两个数量级 ; 我严重怀疑这些好处将超过较低迭代速度的成本。研究人员可以运行实验并观察结果,制定理论,然后预先注册一个可以测试理论的实验,而不是预先注册所有实验,但在这种情况下,我希望研究人员最终“预先注册”非常相似的实验对产生该理论的实验进行了研究,结果很可能得出结论来支持该理论。

(这不需要研究人员的任何积极的恶意 —— 在你开发理论的领域中思考理论的预测是很自然的。例如,在  我们最近的论文  (AN#45)中,我们明确地设计了四个环境,我们期望我们的方法工作,一个不希望。)

另一点:我认为  HARKing 的根本原因是对 SotA 进行追逐的动机,如果我写这篇论文,我会关注这一点。例如,我认为对 SotA 追逐的偏见导致了 HARKing,而不是相反。(我不确定作者是否相信;论文在这一点上并不十分清楚。)这也是对“研究生下降法”或超参数调整引起的结果的更直接的解释; 这些论文中的 HARKing 之所以发生是因为说“我们通过“研究生下降法”得到这个结果”是不可接受的,因为这不会对该领域有所贡献。

虽然我一直在批评这篇论文,但总的来说,我发现我的信念相比“领域的信念”与作者更接近。(不是该领域研究人员的信念:我怀疑许多研究人员会认同 HARKing 有负面影响,即使这些激励迫使研究人员这样做以便发表论文。)我有兴趣进一步探讨这个话题,但是我没有足够的时间自己这样做 —— 如果你有兴趣建立研究领域的玩具模型并模拟干预对该领域的影响,回复这封电子邮件,我们可以看看它是否有意义合作。

技术 AI 对齐

问题

代理失败 AI 启示录? (罗宾汉森):这是对更现实的厄运故事的回应   (AN#50),认为根据我们对委托代理问题的了解,这篇文章中描述的情景是不现实的。在典型的委托代理问题中,委托人并不了解代理人的一切,代理人可以利用这一事实获得“代理租金”,从而获得额外的价值,或者可能存在“代理人失败”。委托人没有得到他们想要的那么多。例如,员工可能会花一半时间浏览网页,因为他们的经理无法确定他们正在做什么。我们关于委托代理问题的经济学文献表明,代理问题越来越严重,信息不对称性越强,结果噪声越大等,但智能搭理人却不然,而且无论如何我们通常看到有限的代理租金和失败。所以,人工智能的情况不太可能会有所不同,虽然让几个人密切关注这个问题是件好事,但是我们目前看到的来自面向未来的人的大量资源投入是不值得的。

Rohin 的意见: 我对这篇文章有很多复杂的想法,其中很多都是在 Paul 对帖子的评论中说的,但我会说几件事。首先,我认为如果你想在委托-代理文献的背景下观察人工智能对齐问题,思考它的自然方式是委托人的理性不如智能体。我声称,至少可以想象一个人工智能系统会让人类变得更糟,但是标准的委托-代理模型不能适应这种情况,因为它假设委托人是理性的,这意味着委托人总是至少做得好完全放弃对智能体的任何控制。更重要的是,虽然我不太熟悉委托代理文献,但我猜这些文献假定存在限制委托人和代理人的规范、法律和制度,在这种情况下,委托人可能产生的损失是有限的 —— 但这对于足够强大的人工智能系统来说并不明显。

学习人的意图

基于批量主动偏好的奖励函数学习 (ErdemBıyık等) (由Cody总结):本文建立在最近试图学习人类偏好的论文的基础上,而不是通过最佳行为的证明,而是通过人类表达对两种可能轨迹的偏好,这两种方法都具有实用优势(重新限制人类最优性)和理论上的(更好地推断奖励函数的能力)。在这里,任务被定义为:我们想要发送人类批量配对轨迹进行排名,但是哪些?批量学习优于单样本主动学习,因为在一批人类判断之后更新网络更有效,而不是在每一个之后更新。这增加了问题的复杂性,因为您不希望一批样本具有单独的高预期信息,但彼此之间存在冗余。

Cody 的观点:这是一篇优雅的论文,充分利用主动学习的工具包进行人类偏好征集,但它的批量启发法都非常依赖于拥有一组高水平轨迹特征,其中点之间的欧氏距离是有意义的相似性度量,感觉不是不可能推广,但仍然有点限制约束。

Prerequisities: 基于主动偏好的奖励函数学习  (Recon#5

训练人类模型是一个未解决的问题 (Charlie Steiner)

AI 的其他进展

强化学习

NeurIPS 2019竞赛:使用人类先验样本的高效强化学习的MineRL竞赛 (William H. Guss等人):在将于 6 月 1 日开始的挑战中,竞赛选手将尝试建立在 Minecraft 中不使用太多的环境交互而获得钻石的智能体。这是一项非常艰巨的任务:为了使这一点变得可行,竞赛也提供了大量的人类演示。他们还列出了一系列简单的任务,这些任务可能是获得钻石的先决条件,例如寻行、砍伐树木、获取铁镐和获取熟肉,他们还收集了人类游戏玩法的演示。顾名思义,作者希望竞赛能够刺激研究人员 将人类先验嵌入到通用算法中以获得样本高效的学习方法

Rohin 的观点:  我非常喜欢 Minecraft 作为一个深刻的强化学习研究环境的潜力,我很高兴最终有一个利用了 Minecraft 非常开放的世界和层级的基准/竞赛。他们定义的任务非常具有挑战性; 有些方法比 Dota 更难(没有自学课程,从像素而不是状态学习,更明确的等级)和更容易的方式(稍短的剧集,更小的动作空间,不必是基于对手的自适应)。当然,希望通过人类游戏玩法的演示,没有必要使用尽可能多的计算来  解决 Dota 问题   (AN#54)。

我也喜欢强调如何在一般学习算法中利用人类先验:我分享了作者的直觉,即人类先验可以带来样本效率的显著提高。我怀疑,至少在不久的将来,人工智能的许多最重要的应用要么涉及人类施加的硬编码结构,要么涉及利用人类先验的一般算法,而不是通过例如强化学习“从头开始”学习。

Toybox:用于深度强化学习实验评估的环境套件 (Emma Tosch等):Toybox 是三个 Atari 游戏(Breakout、Amidar和Space Invaders)的重新实现,使研究人员能够自己定制游戏,以便对智能体进行更好的实验评估。他们使用每个游戏的案例研究证明了它的实用性。例如,在 Breakout 中,我们经常听到智能体学会“穿过”砖块,以便球在屏幕顶部反弹,摧毁许多砖块。为了测试智能体是否已经学习了强大的隧道行为,他们通常会训练一个智能体,然后在测试时他们删除一列中的所有块,并查看智能体是否会快速销毁最后一块砖以创建隧道。事实证明,智能体只对中心列执行此操作,有时直接向左侧执行此操作。

Rohin 的观点:我真的很喜欢能够轻松测试智能体是否有强大的学习行为的想法。在某种程度上,所有迁移学习环境也都在这样做,例如  CoinRun  (AN#36)和  Retro Contest  (AN#1):如果学习的行为不健全,那么智能体将无法在迁移后的环境。但是对于 Toybox 来说,看起来研究人员可以运行更详细的实验来查看特定的行为。

平滑策略和安全策略梯度 (Matteo Papini等)

深度学习

稀疏变换器的生成建模 (Rewon Child等) (由 Cody 总结):我认为本文试图在卷积之间插入空间(固定的感受野,获得整个序列可见性所需的层数随序列长度而增长)和注意力(每次操作时对整个序列的可见性) ,但 n ^ 2 内存和计算与序列长度的缩放,因为每个新元素需要查询并由彼此元素查询)。这是通过创建更高效​​的操作链来完成的,并且可以以 k 步骤而不是 k = 1 步骤提供对整个序列的可见性,如同正常注意力一样。这种情况的一个例子是从最后 7 个元素中提取信息的一个注意步骤,然后是从时间上拉回每个第 7 个元素的信息的第二个注意步骤(第一个操作的“聚合点”)。

Cody 的观点:我发现这篇论文非常聪明,而且可能具有相当大的影响力,因为变换器被  如此  广泛地使用,而且本文可以在没有太多理论上的信息损失的情况下提供大幅加速。我还很高兴不得不考虑更多关于卷积、RNN 和变换器之间的权衡,以及如何在这些权衡曲线上获取不同的点。

Translatotron介绍:端到端语音到语音翻译模型 Ye Jia 等):这篇文章介绍了Translatotron,一种用一种语言表达语音(而不是文本!)并将其翻译成另一种语言的系统。这与大多数当前的“级联”系统形成对比,后者通常从语音到文本,然后翻译成另一种语言,然后从文本转回到语音。虽然 Translatotron 没有击败现有系统,但它证明了这种方法的可行性。

Rohin的观点:机器翻译过去是在多个阶段完成的(包括解析树作为中间表示),然后使用深度神经网络的端到端训练更好地完成。这看起来像是语音到语音翻译的相同过程的开始。我不确定有多少人关心语音转换,但  如果这是一个重要的问题,我希望直接的语音转语音系统能够很快超越级联方法。我特别感兴趣的是,是否可以通过使用级联方法为端到端方法生成训练数据来“bootstrap”,然后对直接语音到语音数据的端到端方法进行微调这可以进一步提高性能。

训练神经网络的方法 (Andrej Karpathy):这是一篇很好的文章,详细介绍了如何在实践中训练神经网络,而不是在最常见的数据集上训练最常见的架构。对于所有正在训练神经网络的读者,我强烈推荐这篇文章; 我没有深入总结它的原因是因为a)这将是一个非常长的总结而且 b)它与 AI 对齐没有关系。

元学习

元学习者的学习动力与学习者不同 (Neil C. Rabinowitz) (由 Cody 总结):我们在之前的工作中已经看到证据可以训练元学习模型,以便通过在内循环中训练模型并针对泛化误差进行优化来更快地学习从某个任务分布中抽取的任务。本文认为元学习不仅可以更快地学习新任务,而且可以有一种不同的有序模式来掌握任务。当“正常”学习者首先学习简单正则化任务的低频模式(想想 SGD 模式或傅里叶模式),以及后来的高频率模式时,元学习者以相同的相对速率在所有模式上取得进展。 这种元学习行为在理论上似乎与学习者如果具有“正确”先验(即实际用于生成模拟任务的那个)的新信息更新的方式相匹配。

Cody 的观点:总体而言,我喜欢本文的简单性,并专注于理解元学习系统的工作原理。我确实发现强化学习实验更难以解析并连接到线性和非线性回归实验,当然,总是存在一个问题,就像直觉是否扩展到更复杂的问题这样的简单问题一起工作。

阅读更多: Cody 更长的总结

分层RL

多任务软选项学习 (Maximilian Igl等)  (由 Cody 总结):本文是变分推断和层次强化学习的混合,在学习技能的背景下,可以跨任务重复使用。这种方法不是学习一组固定的选项(阅读:技能/子策略)和在主要任务特定的策略之间进行切换,而是学习每种技能的跨任务先验,然后使用来自任务的奖励信号学习特定任务的后验,同时朝向先验正规化。希望这将允许跨任务转移和单任务特异性之间的中介。

Cody 的观点:我发现这篇论文很有意思,但也发现它读起来有点棘手/不直观,因为它使用了不同于我习惯的强化学习框架(最小化你的轨迹分布和最佳轨迹分布的 KL 距离的想法)。总的来说,这似乎是一种合理的方法,但有点难以直观地说明这些相对简单的任务的理论优势有多强。

在此处查找所有Alignment Newsletter资源。特别是,您可以注册或查看此电子表格中所有摘要中的摘要。

强调

深度学习 HARK 的一面 —— 从学生梯度下降到自动机器学习 (Oguzhan Gencoglu等):本文重点研究结果已知后的假设的负面影响(HARKing),这是研究人员  首次进行实验和观察的模式结果,一旦他们达到了可发布的标准,就会在事后解释结果后构建一个假设。它认为 HARKing 在机器学习中很常见,并且这对整个领域产生了负面影响。首先,对当前最好结果(SotA)的改进可能是有问题的,因为它们可能是由于通过学生梯度下降的足够的超参数调整引起的,而不是在获得归因的论文中的新想法。其次,由于在会议中仅报告了积极的结果,因此存在发表偏差,这使我们无法从反面结果中学习。第三,为适合单个数据集或任务的结果而特意定制的假设不太可能推广到新的数据集或任务。第四,虽然 AutoML 系统取得了良好的效果,但我们无法弄清楚是什么让它们起作用,因为高计算要求使得消融研究更难以实现。最后,他们论述了我们需要解决 HARKing 以实现道德 AI,以人为中心的 AI,可复现的 AI 等。

Rohin 的观点:我相信  我开始考虑这个问题之后,第一次找到这篇 通用的有趣新论文  发现了这篇论文,这非常巧合。我真的很高兴作者写了这篇论文 —— 这不是他们的动机(据我所知),不过该话题似乎非常重要。

也就是说,我在一些方面不同意里面的观点。作者不承认 HARKing 的价值 ——  经常进行许多实验并看看为了发展一个好的理论会发生什么是有用的。人类不是理想的贝叶斯反叛者,他们可以同时考虑所有假设; 为了甚至假设一个理论,我们通常需要很多观察。作者指出,在其他领域,HARKing 导致不良结果,但 ML 明显不同,因为  我们可以以更高的迭代速度更快地运行实验

如果我们被迫预先注册研究,正如作者所建议的那样,迭代速度会下降一个数量级或两个数量级 ; 我严重怀疑这些好处将超过较低迭代速度的成本。研究人员可以运行实验并观察结果,制定理论,然后预先注册一个可以测试理论的实验,而不是预先注册所有实验,但在这种情况下,我希望研究人员最终“预先注册”非常相似的实验对产生该理论的实验进行了研究,结果很可能得出结论来支持该理论。

(这不需要研究人员的任何积极的恶意 —— 在你开发理论的领域中思考理论的预测是很自然的。例如,在  我们最近的论文  (AN#45)中,我们明确地设计了四个环境,我们期望我们的方法工作,一个不希望。)

另一点:我认为  HARKing 的根本原因是对 SotA 进行追逐的动机,如果我写这篇论文,我会关注这一点。例如,我认为对 SotA 追逐的偏见导致了 HARKing,而不是相反。(我不确定作者是否相信;论文在这一点上并不十分清楚。)这也是对学生梯度下降或超参数调整引起的结果的更直接的解释; 这些论文中的 HARKing 之所以发生是因为说“我们通过学生梯度下降得到这个结果”是不可接受的,因为这不会对该领域有所贡献。

虽然我一直在批评这篇论文,但总的来说,我发现我的信念相比“领域的信念”与作者更接近。(不是该领域研究人员的信念:我怀疑许多研究人员会认同 HARKing 有负面影响,即使这些激励迫使研究人员这样做以便发表论文。)我有兴趣进一步探讨这个话题,但是我没有足够的时间自己这样做 —— 如果你有兴趣建立研究领域的玩具模型并模拟干预对该领域的影响,回复这封电子邮件,我们可以看看它是否有意义合作。

技术 AI 对齐

问题

代理失败 AI 启示录? (罗宾汉森):这是对更现实的厄运故事的回应   (AN#50),认为根据我们对委托代理问题的了解,这篇文章中描述的情景是不现实的。在典型的委托代理问题中,委托人并不了解代理人的一切,代理人可以利用这一事实获得“代理租金”,从而获得额外的价值,或者可能存在“代理人失败”。委托人没有得到他们想要的那么多。例如,员工可能会花一半时间浏览网页,因为他们的经理无法确定他们正在做什么。我们关于委托代理问题的经济学文献表明,代理问题越来越严重,信息不对称性越强,结果噪声越大等,但智能搭理人却不然,而且无论如何我们通常看到有限的代理租金和失败。所以,人工智能的情况不太可能会有所不同,虽然让几个人密切关注这个问题是件好事,但是我们目前看到的来自面向未来的人的大量资源投入是不值得的。

Rohin 的意见: 我对这篇文章有很多复杂的想法,其中很多都是在 Paul 对帖子的评论中说的,但我会说几件事。首先,我认为如果你想在委托-代理文献的背景下观察人工智能对齐问题,思考它的自然方式是委托人的理性不如智能体。我声称,至少可以想象一个人工智能系统会让人类变得更糟,但是标准的委托-代理模型不能适应这种情况,因为它假设委托人是理性的,这意味着委托人总是至少做得好完全放弃对智能体的任何控制。更重要的是,虽然我不太熟悉委托代理文献,但我猜这些文献假定存在限制委托人和代理人的规范、法律和制度,在这种情况下,委托人可能产生的损失是有限的 —— 但这对于足够强大的人工智能系统来说并不明显。

学习人的意图

基于批量主动偏好的奖励函数学习 (ErdemBıyık等) (由Cody总结):本文建立在最近试图学习人类偏好的论文的基础上,而不是通过最佳行为的证明,而是通过人类表达对两种可能轨迹的偏好,这两种方法都具有实用优势(重新限制人类最优性)和理论上的(更好地推断奖励函数的能力)。在这里,任务被定义为:我们想要发送人类批量配对轨迹进行排名,但是哪些?批量学习优于单样本主动学习,因为在一批人类判断之后更新网络更有效,而不是在每一个之后更新。这增加了问题的复杂性,因为您不希望一批样本具有单独的高预期信息,但彼此之间存在冗余。

Cody 的观点:这是一篇优雅的论文,充分利用主动学习的工具包进行人类偏好征集,但它的批量启发法都非常依赖于拥有一组高水平轨迹特征,其中点之间的欧氏距离是有意义的相似性度量,感觉不是不可能推广,但仍然有点限制约束。

Prerequisities: 基于主动偏好的奖励函数学习  (Recon#5

训练人类模型是一个未解决的问题 (Charlie Steiner)

AI 的其他进展

强化学习

NeurIPS 2019竞赛:使用人类先验样本的高效强化学习的MineRL竞赛 (William H. Guss等人):在将于 6 月 1 日开始的挑战中,竞赛选手将尝试建立在 Minecraft 中不使用太多的环境交互而获得钻石的智能体。这是一项非常艰巨的任务:为了使这一点变得可行,竞赛也提供了大量的人类演示。他们还列出了一系列简单的任务,这些任务可能是获得钻石的先决条件,例如寻行、砍伐树木、获取铁镐和获取熟肉,他们还收集了人类游戏玩法的演示。顾名思义,作者希望竞赛能够刺激研究人员 将人类先验嵌入到通用算法中以获得样本高效的学习方法

Rohin 的观点:  我非常喜欢 Minecraft 作为一个深刻的强化学习研究环境的潜力,我很高兴最终有一个利用了 Minecraft 非常开放的世界和层级的基准/竞赛。他们定义的任务非常具有挑战性; 有些方法比 Dota 更难(没有自学课程,从像素而不是状态学习,更明确的等级)和更容易的方式(稍短的剧集,更小的动作空间,不必是基于对手的自适应)。当然,希望通过人类游戏玩法的演示,没有必要使用尽可能多的计算来  解决 Dota 问题   (AN#54)。

我也喜欢强调如何在一般学习算法中利用人类先验:我分享了作者的直觉,即人类先验可以带来样本效率的显著提高。我怀疑,至少在不久的将来,人工智能的许多最重要的应用要么涉及人类施加的硬编码结构,要么涉及利用人类先验的一般算法,而不是通过例如强化学习“从头开始”学习。

Toybox:用于深度强化学习实验评估的环境套件 (Emma Tosch等):Toybox 是三个 Atari 游戏(Breakout、Amidar和Space Invaders)的重新实现,使研究人员能够自己定制游戏,以便对智能体进行更好的实验评估。他们使用每个游戏的案例研究证明了它的实用性。例如,在 Breakout 中,我们经常听到智能体学会“穿过”砖块,以便球在屏幕顶部反弹,摧毁许多砖块。为了测试智能体是否已经学习了强大的隧道行为,他们通常会训练一个智能体,然后在测试时他们删除一列中的所有块,并查看智能体是否会快速销毁最后一块砖以创建隧道。事实证明,智能体只对中心列执行此操作,有时直接向左侧执行此操作。

Rohin 的观点:我真的很喜欢能够轻松测试智能体是否有强大的学习行为的想法。在某种程度上,所有迁移学习环境也都在这样做,例如  CoinRun  (AN#36)和  Retro Contest  (AN#1):如果学习的行为不健全,那么智能体将无法在迁移后的环境。但是对于 Toybox 来说,看起来研究人员可以运行更详细的实验来查看特定的行为。

平滑策略和安全策略梯度 (Matteo Papini等)

深度学习

稀疏变换器的生成建模 (Rewon Child等) (由 Cody 总结):我认为本文试图在卷积之间插入空间(固定的感受野,获得整个序列可见性所需的层数随序列长度而增长)和注意力(每次操作时对整个序列的可见性) ,但 n ^ 2 内存和计算与序列长度的缩放,因为每个新元素需要查询并由彼此元素查询)。这是通过创建更高效​​的操作链来完成的,并且可以以 k 步骤而不是 k = 1 步骤提供对整个序列的可见性,如同正常注意力一样。这种情况的一个例子是从最后 7 个元素中提取信息的一个注意步骤,然后是从时间上拉回每个第 7 个元素的信息的第二个注意步骤(第一个操作的“聚合点”)。

Cody 的观点:我发现这篇论文非常聪明,而且可能具有相当大的影响力,因为变换器被  如此  广泛地使用,而且本文可以在没有太多理论上的信息损失的情况下提供大幅加速。我还很高兴不得不考虑更多关于卷积、RNN 和变换器之间的权衡,以及如何在这些权衡曲线上获取不同的点。

Translatotron介绍:端到端语音到语音翻译模型 Ye Jia 等):这篇文章介绍了Translatotron,一种用一种语言表达语音(而不是文本!)并将其翻译成另一种语言的系统。这与大多数当前的“级联”系统形成对比,后者通常从语音到文本,然后翻译成另一种语言,然后从文本转回到语音。虽然 Translatotron 没有击败现有系统,但它证明了这种方法的可行性。

Rohin的观点:机器翻译过去是在多个阶段完成的(包括解析树作为中间表示),然后使用深度神经网络的端到端训练更好地完成。这看起来像是语音到语音翻译的相同过程的开始。我不确定有多少人关心语音转换,但  如果这是一个重要的问题,我希望直接的语音转语音系统能够很快超越级联方法。我特别感兴趣的是,是否可以通过使用级联方法为端到端方法生成训练数据来“bootstrap”,然后对直接语音到语音数据的端到端方法进行微调这可以进一步提高性能。

训练神经网络的方法 (Andrej Karpathy):这是一篇很好的文章,详细介绍了如何在实践中训练神经网络,而不是在最常见的数据集上训练最常见的架构。对于所有正在训练神经网络的读者,我强烈推荐这篇文章; 我没有深入总结它的原因是因为a)这将是一个非常长的总结而且 b)它与 AI 对齐没有关系。

元学习

元学习者的学习动力与学习者不同 (Neil C. Rabinowitz) (由 Cody 总结):我们在之前的工作中已经看到证据可以训练元学习模型,以便通过在内循环中训练模型并针对泛化误差进行优化来更快地学习从某个任务分布中抽取的任务。本文认为元学习不仅可以更快地学习新任务,而且可以有一种不同的有序模式来掌握任务。当“正常”学习者首先学习简单正则化任务的低频模式(想想 SGD 模式或傅里叶模式),以及后来的高频率模式时,元学习者以相同的相对速率在所有模式上取得进展。 这种元学习行为在理论上似乎与学习者如果具有“正确”先验(即实际用于生成模拟任务的那个)的新信息更新的方式相匹配。

Cody 的观点:总体而言,我喜欢本文的简单性,并专注于理解元学习系统的工作原理。我确实发现强化学习实验更难以解析并连接到线性和非线性回归实验,当然,总是存在一个问题,就像直觉是否扩展到更复杂的问题这样的简单问题一起工作。

阅读更多: Cody 更长的总结

分层RL

多任务软选项学习 (Maximilian Igl等)  (由 Cody 总结):本文是变分推断和层次强化学习的混合,在学习技能的背景下,可以跨任务重复使用。这种方法不是学习一组固定的选项(阅读:技能/子策略)和在主要任务特定的策略之间进行切换,而是学习每种技能的跨任务先验,然后使用来自任务的奖励信号学习特定任务的后验,同时朝向先验正规化。希望这将允许跨任务转移和单任务特异性之间的中介。

Cody 的观点:我发现这篇论文很有意思,但也发现它读起来有点棘手/不直观,因为它使用了不同于我习惯的强化学习框架(最小化你的轨迹分布和最佳轨迹分布的 KL 距离的想法)。总的来说,这似乎是一种合理的方法,但有点难以直观地说明这些相对简单的任务的理论优势有多强。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s