https://deepmind.com/blog/unsupervised-learning/Authors: Alexander Graves, Research Scientist, DeepMind; Kelly ClancyTranslator: Xiaohu Zhu, University AI 在过去十年中，机器学习在图像识别、自动驾驶汽车和围棋等复杂游戏等多个领域中取得了前所未有的进步。这些成功在很大程度上是通过使用两种学习范式 —— 监督学习和强化学习中的一种来训练深度神经网络而实现的。两种范式都要求训练信号由人设计并赋予计算机。在监督学习的情况下，这些是“目标”（例如图像的正确标签）; 在强化学习的情况下，它们是成功行为的“奖励”（例如在Atari游戏中获得高分）。因此，学习的限制是由人类训练者定义的。虽然一些科学家认为，足够包容的训练范围 —— 例如，完成各种各样任务的能力 —— 应该足以产生通用智能，但其他人认为真正的智能需要更多独立的学习策略。例如，考虑一个小孩如何学习。她的祖母可能会和她坐在一起，耐心地指出鸭子的例子（作为监督学习中的指导信号），或者用掌声来奖励她解决木版拼图（如强化学习）。但是，幼儿在绝大多数时间里都是天真地探索世界，通过好奇心，游戏和观察来理解她的周围环境。无监督学习是一种范式，旨在通过奖励智能体创建自主智能（即，计算机程序）用于了解他们在没有特定任务的情况下观察到的数据。换句话说，智能体为了学习而学习。无监督学习的一个关键动机是，虽然传递给学习算法的数据在内部结构（例如，图像、视频和文本）中非常丰富，但用于训练的目标和奖励通常非常稀疏（例如，标签’狗’指的是特别的变形物种，或者用１或０来表示游戏中的成功或失败）。这表明算法学到的大部分内容必须包括理解数据本身，而不是将这种理解应用于特定任务。解码视觉元素 2012 年是深度学习的里程碑，当 AlexNet（以其首席架构师 Alex Krizhnevsky 命名）席卷了 ImageNet分类竞赛。AlexNet 识别图像的能力是前所未有的，但更引人注目的是背后发生的事情。当研究人员分析 AlexNet 正在做什么时，他们发现它通过构建其输入的日益复杂的内部表示来解释图像。低层特征（例如纹理和边缘）在底层中表示，然后将它们组合在一起形成高级概念，例如更高层中的轮子和狗。这与在我们的大脑中处理信息的方式非常相似，其中初级感官处理区域中的简单边缘和纹理被组装成复杂对象，例如更高区域中的面部。因此，复杂场景的表示可以由视觉原语构建，其方式与构成句子的单个词出现的意义大致相同。如果没有明确的指导，AlexNet 的层已经发现了一个基本的“视觉词汇”，以解决其任务。从某种意义上说，它已经学会了扮演维特根斯坦所谓的“语言游戏”，它可以迭代地从像素转换为标签。迁移学习从一般情报的角度来看，关于 AlexNet 词汇的最有趣的事情是它可以被重用或转移到除了训练之外的视觉任务，例如识别整个场景而不是单个对象。迁移在不断变化的世界中是必不可少的，人类擅长于此：我们能够迅速调整我们从我们的经验（我们的“世界模式”）中收集的技能和理解，以及任何手头的情况。例如，经过专业训练的钢琴家可以相对轻松地弹起爵士钢琴。理论上，构成世界正确内部表征的人工智能体应该能够做同样的事情。尽管如此，AlexNet 等分类器所学到的表示具有局限性。特别是，由于网络只用单一类别（猫，狗，汽车，火山）标记图像训练，所以不需要推断标签的任何信息 —— 无论它对其他任务有多大用处 —— 都可能是忽略。例如，如果标签总是指向前景，则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号，例如描述图像的详细标题：不只是“狗”，而是“柯基犬在阳光明媚的公园里捕捉飞盘。”然而，这些目标很难提供，特别是在大规模情况下，并且仍然可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是学习丰富，可广泛迁移的表示的最佳方式是尝试学习可以学习的关于数据的所有内容。如果通过表示学习迁移的概念看起来过于抽象，那么请考虑一个学会吸引人们作为简笔画的孩子。她发现了人体形态的高度紧凑和快速适应性。通过增加每个棒图的具体细节，她可以为她的所有同学创作肖像：她最好的朋友的眼镜，她最喜欢的红色T恤的同桌。而且她发展这项技能不是为了完成一项特定任务或获得奖励，而是为了回应她反映她周围世界的基本要求。通过创造学习：生成模型也许无监督学习的最简单目标是训练算法以生成其自己的数据实例。所谓的生成模型不应该简单地再现他们所训练的数据（一种无趣的记忆行为），而是建立一个从中抽取数据的基础类的模型：不是特定的马或彩虹照片，但是马和彩虹的所有照片集; 不是来自特定发言者的特定话语，而是说出话语的一般分布。生成模型的指导原则是，能够构建一个令人信服的数据示例是理解它的最有力证据：正如 Richard Feynman所说，“若是我不能创造出来，那么我并不明白。” 对于图像，迄今为止最成功的生成模型是生成对抗网络（简称GAN），其中两个网络 —— 一个生成器和一个判别器 ——…

Written by

Xiaohu Zhu

—

April 11, 2019

未分类

AGI, DeepMind, UL

无监督学习：好奇的学生

https://deepmind.com/blog/unsupervised-learning/
Authors: Alexander Graves, Research Scientist, DeepMind; Kelly Clancy
Translator: Xiaohu Zhu, University AI

在过去十年中，机器学习在图像识别、自动驾驶汽车和围棋等复杂游戏等多个领域中取得了前所未有的进步。这些成功在很大程度上是通过使用两种学习范式 —— 监督学习和强化学习中的一种来训练深度神经网络而实现的。两种范式都要求训练信号由人设计并赋予计算机。在监督学习的情况下，这些是“目标”（例如图像的正确标签）; 在强化学习的情况下，它们是成功行为的“奖励”（例如在Atari游戏中获得高分）。因此，学习的限制是由人类训练者定义的。

虽然一些科学家认为，足够包容的训练范围 —— 例如，完成各种各样任务的能力 —— 应该足以产生通用智能，但其他人认为真正的智能需要更多独立的学习策略。例如，考虑一个小孩如何学习。她的祖母可能会和她坐在一起，耐心地指出鸭子的例子（作为监督学习中的指导信号），或者用掌声来奖励她解决木版拼图（如强化学习）。但是，幼儿在绝大多数时间里都是天真地探索世界，通过好奇心，游戏和观察来理解她的周围环境。无监督学习是一种范式，旨在通过奖励智能体创建自主智能（即，计算机程序）用于了解他们在没有特定任务的情况下观察到的数据。换句话说，智能体为了学习而学习。

无监督学习的一个关键动机是，虽然传递给学习算法的数据在内部结构（例如，图像、视频和文本）中非常丰富，但用于训练的目标和奖励通常非常稀疏（例如，标签’狗’指的是特别的变形物种，或者用１或０来表示游戏中的成功或失败）。这表明算法学到的大部分内容必须包括理解数据本身，而不是将这种理解应用于特定任务。

解码视觉元素

2012 年是深度学习的里程碑，当 AlexNet（以其首席架构师 Alex Krizhnevsky 命名）席卷了 ImageNet分类竞赛。AlexNet 识别图像的能力是前所未有的，但更引人注目的是背后发生的事情。当研究人员分析 AlexNet 正在做什么时，他们发现它通过构建其输入的日益复杂的内部表示来解释图像。低层特征（例如纹理和边缘）在底层中表示，然后将它们组合在一起形成高级概念，例如更高层中的轮子和狗。

这与在我们的大脑中处理信息的方式非常相似，其中初级感官处理区域中的简单边缘和纹理被组装成复杂对象，例如更高区域中的面部。因此，复杂场景的表示可以由视觉原语构建，其方式与构成句子的单个词出现的意义大致相同。如果没有明确的指导，AlexNet 的层已经发现了一个基本的“视觉词汇”，以解决其任务。从某种意义上说，它已经学会了扮演维特根斯坦所谓的“语言游戏”，它可以迭代地从像素转换为标签。

卷积神经网络的视觉词汇。对于网络的每一层，生成最大程度地激活特定神经元的图像。然后，这些神经元对其他图像的响应可以被解释为不存在视觉“单词”：纹理，书架，狗鼻子，鸟类。**From Feature Visualization, Olah et al. (2017).**

迁移学习

从一般情报的角度来看，关于 AlexNet 词汇的最有趣的事情是它可以被重用或转移到除了训练之外的视觉任务，例如识别整个场景而不是单个对象。迁移在不断变化的世界中是必不可少的，人类擅长于此：我们能够迅速调整我们从我们的经验（我们的“世界模式”）中收集的技能和理解，以及任何手头的情况。例如，经过专业训练的钢琴家可以相对轻松地弹起爵士钢琴。理论上，构成世界正确内部表征的人工智能体应该能够做同样的事情。

尽管如此，AlexNet 等分类器所学到的表示具有局限性。特别是，由于网络只用单一类别（猫，狗，汽车，火山）标记图像训练，所以不需要推断标签的任何信息 —— 无论它对其他任务有多大用处 —— 都可能是忽略。例如，如果标签总是指向前景，则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号，例如描述图像的详细标题：不只是“狗”，而是“柯基犬在阳光明媚的公园里捕捉飞盘。”然而，这些目标很难提供，特别是在大规模情况下，并且仍然可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是学习丰富，可广泛迁移的表示的最佳方式是尝试学习可以学习的关于数据的所有内容。

如果通过表示学习迁移的概念看起来过于抽象，那么请考虑一个学会吸引人们作为简笔画的孩子。她发现了人体形态的高度紧凑和快速适应性。通过增加每个棒图的具体细节，她可以为她的所有同学创作肖像：她最好的朋友的眼镜，她最喜欢的红色T恤的同桌。而且她发展这项技能不是为了完成一项特定任务或获得奖励，而是为了回应她反映她周围世界的基本要求。

通过创造学习：生成模型

也许无监督学习的最简单目标是训练算法以生成其自己的数据实例。所谓的生成模型不应该简单地再现他们所训练的数据（一种无趣的记忆行为），而是建立一个从中抽取数据的基础类的模型：不是特定的马或彩虹照片，但是马和彩虹的所有照片集; 不是来自特定发言者的特定话语，而是说出话语的一般分布。生成模型的指导原则是，能够构建一个令人信服的数据示例是理解它的最有力证据：正如 Richard Feynman所说，“若是我不能创造出来，那么我并不明白。”

对于图像，迄今为止最成功的生成模型是生成对抗网络（简称GAN），其中两个网络 —— 一个生成器和一个判别器 —— 参与类似于艺术伪造者和侦探的识别竞赛。生成器产生图像的目的是诱使判别器相信它们是真实的; 同时，判别器因发现假货而获得奖励。所生成的图像，首先是杂乱的和随机的，在许多次迭代中被细化，并且网络之间的持续动态导致更加逼真的图像，在许多情况下，这些图像与真实照片无法区分。生成式对抗网络还可以梦想由用户粗略草图定义的景观细节。

瞥一眼下面的图像足以让我们相信，网络已经学会了代表他们所训练的照片的许多关键特征，例如动物身体的结构，草的纹理，以及光的细节效果。阴影（即使通过肥皂泡折射）。仔细检查发现了一些轻微的异常现象，例如白狗的明显额外腿和喷泉中其中一个喷嘴的奇怪的直角流动。虽然生成模型的创建者努力避免这种不完美，但它们的可见性凸显了重建熟悉数据（如图像）的好处之一：通过检查样本，研究人员可以推断出模型具有和未学习的内容。

BigGAN想象的场景和生物（Brock，Donahue和Simonyan，2018）。

通过预测创建

无监督学习中另一个值得注意的家族是自回归模型，其中数据被分成一小部分，每个小部分依次预测。这些模型可以通过连续猜测接下来会发生什么来作为输入并再次猜测来生成数据。语言模型，其中每个单词都是从它之前的单词预测出来的，也许是最着名的例子：这些模型支持在某些电子邮件和消息应用程序中弹出的文本预测。语言建模的最新进展使得能够生成显着合理的段落，例如OpenAI的GPT-2中所示的段落。

文本中一个有趣的不一致之处是独角兽被描述为“四角”：再次，探讨网络理解的局限性是非常有趣的。

通过控制用于调节输出预测的输入序列，自回归模型也可用于将一个序列转换为另一个序列。该演示使用条件自回归模型将文本转换为逼真的手写。WaveNet将文本转换为自然的发声语音，现在用于为Google 智能助理生成语音。调节和自回归生成的类似过程可用于从一种语言翻译成另一种语言。

自回归模型通过尝试以特定顺序预测数据来了解数据。可以通过预测来自任何其他数据的任何数据部分来构建更一般的无监督学习算法类。例如，这可能意味着从句子中删除一个单词，并尝试从剩余的任何内容中预测它。通过学习进行大量的局部预测，系统被迫从整体上了解数据。

关于生成模型的一个问题是它们可能被滥用。虽然通过照片、视频和音频编辑操纵证据已经有很长一段时间了，但生成模型可以更容易地编辑具有恶意意图的媒体。我们已经看到了所谓的“深度伪造”的示范 —— 例如，奥巴马总统的这段捏造的视频片段。令人鼓舞的是，已经开展了几项应对这些挑战的重大努力，包括利用统计技术帮助检测合成媒体和验证真实媒体，提高公众意识，以及围绕限制训练有素的生成模型的可用性的讨论。此外，生成模型本身可用于检测合成媒体和异常数据 —— 例如，在检测虚假语音或识别支付异常以保护客户免受欺诈时。研究人员需要研究生成模型，以便更好地理解它们并降低下游风险。

重新想象智能

生成模型本身就很吸引人，但我们在 DeepMind 中对它们的主要兴趣是作为通用智能的踏脚石。赋予智能体生成数据的能力是一种赋予其想象力的方式，因此能够规划和推理未来。即使没有明确的生成，我们的研究表明，学习预测环境的不同方面可以丰富智能体的世界模型，从而提高其解决问题的能力。

这些结果与我们对人类思维的直觉产生共鸣。我们在没有明确监督的情况下了解世界的能力是我们所认为的智力的基础。在乘坐火车时，我们可能会无精打采地凝视着窗户，将手指拖过座位的天鹅绒，看着坐在我们对面的乘客。我们在这些研究中没有任何议程：我们几乎无法收集信息，我们的大脑不断努力了解我们周围的世界，以及我们在其中的位置。

AGI Watchful Guardians