AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。

强调

为什么要在Minecraft中建立一个助手? (Arthur Szlam等人):这份立场文件提出了人工智能研究的新挑战:建立一个可以在Minecraft  (创造性模式)中提供帮助的机器人。相关的论文 给出了对这样的智能体的一个初始设置。

这里的主要目标是促进自然语言理解、意图推理和指导跟随。因此,没有像奖励函数那样的形式化规格 —— 用他们的话说,“机器人的最终目标是成为人类玩家制定和评估的各种任务的有用和有趣的助手”。他们特别选择了 Minecraft,部分原因是它具有非常丰富的任务空间 ,即使执行任何给定的任务相对简单。他们编写许多低级策略脚本以自动执行此操作,使学习更容易(例如,他们有导航到某个位置或构建指定结构的策略),并将学习挑战集中在确定用户想要什么上。

当前版本的机器人从用户那里获取对话并使用神经模型将其解析为 动作词典  ,明确指定智能体应该做什么 —— 我认为这个神经模型是要学习的主要内容。关于其余模块如何工作的细节很多。他们还发布了三个数据集:将指令与动作词典相关联的语义解析数据集,具有人类构建房屋的轨迹的房屋数据集,以及标记房屋各个部分的语义分割数据集。

Rohin的观点:  我很高兴看到一个项目非常直接地定位在推断复杂环境中的最终用户意图。这似乎是该领域走向的一个伟大方向。我认为Minecraft也可以作为一个测试平台,研究人员或工程师  (而不是最终用户)试图让智能体做某事:我们可以在这里承担更多的专家经验和知识。理想情况下,这将使我们能够解决比最终用户使用自然语言更复杂的任务。我个人计划沿着这些方向与Minecraft合作。

虽然这个项目确实需要推断意图,但它可能不需要例如Cooperative IRL所显示的那种务实的理解。甚至了解人类在Minecraft中真正要求的东西目前也还超出了我们的能力范围。

阅读更多: CraftAssist:支持对话的交互式智能体的框架

技术AI对齐

学习人的意图

免排名的基于排名的奖励外推 (Daniel S. Brown等)  (由Cody总结):不久前,这些作者发表了  T-REX论文  (AN#54)),他们表明,提供排名的轨迹集,而不是一个单一的最佳轨迹,让你学习更准确的奖励,可以胜过展示者。这种超越展示者的能力植根于能够在证明的点之外推断预测的奖励,并且推断的能力来自于排名轨迹提供关于相对奖励值的更多信息的事实。本文是对该文章的一个相当简单的扩展,并且问:我们是否可以获得类似的好处,而不需要人类实际对轨迹排名?作者认为,他们可以通过简单地学习一个(可能是次优的)展示者的行为克隆策略来复制T-REX超越展示者的能力,并通过增加噪音使该策略逐渐恶化。该模型称为D-REX,用于基于扰动的奖励EXtrapolation。然后,他们假设策略中的更多噪声对应于较少的奖励,并将其用作排序方案以投入现有的T-REX算法。

Cody的观点:总的来说,我认为这可能是一个直截了当的聪明技巧,可以让你的模仿学习者提供更多信息量的数据来学习。我有两个主要问题。首先,我很高兴看到D-REX直接与T-REX进行比较,以了解你从这个近似的排名策略中失去了多少,而不是一个更为基本的真相。其次,我更赞赏他们更多地证明他们的假设,即嘈杂的行为会以捕获奖励信息的方式持续导致更糟糕的政策。这对我来说似乎并不是不真实的,我只是更喜欢直觉,为什么我们可以通过添加噪音来获得有关潜在奖励的额外信息。

SQIL:通过规范化行为克隆进行模仿学习 (Siddharth Reddy等) (Cody总结):行为克隆是模仿学习的最直接形式之一:它学会预测专家在世界某个特定国家所采取的行动。这种方法的一个明显弱点是,如果克隆模型只接受来自专家策略分布的一对(状态,专家行动)的训练,那意味着该模型不受约束,因此可能对本来的状态有很高的误差。看不见或只是极不可能被专家访问。这种弱点意味着行为克隆系统中的错误可能会复合:如果系统采取不正确的行动导致其从未见过专家的状态,那么将很难知道该做什么。

本文的主要贡献是建议通过学习Q函数来表示专家行为来修复这个弱点,并通过惩罚模型处于Q函数的时间差异误差的状态(也称为Bellman误差) ) 高。直觉上,希望损失面这个术语,也可以被视为对专家更频繁地看到的状态的奖励(相当于模型具有更多训练经验的状态)将向外传播,并使模型具有损失表面将其拉回到其预测更有信心的状态。

Cody的观点:我仍然觉得,行为克隆在概念框架上过于脆弱,无法构建真正强大的模仿智能体,但这似乎是一种聪明且相对干净的方式来构建对高信任状态的偏见。我自己想搞清楚,在高-模型-错误状态下惩罚的一般概念是否可以更广泛地应用于其他免策略环境中的一种正则器,其中探索可能存在风险。

研究议程v0.9:将人类的偏好综合到效用函数中 (Stuart Armstrong):人工智能对齐的一种方法是学习可以优化的人类价值规范。这个议程建议我们学会充分的价值观(即  没有 雄心勃勃的价值学习  (AN#31))。我们首先从符号已经充分接地的人类心智模型中获得部分偏好和相关权重。称这些“偏好”是一种规范性假设,以避免价值学习中的  不可能性结果  (AN#31):希望AI可以纠正错误的人类信仰。然后将首选项扩展到所有可能的状态,并将其标准化以使它们彼此相当,然后合成为AI可以优化的效用函数。

部分偏好分为几个类别:个人偏好,关于世界其他地方的偏好和元偏好,其中一些可以是关于综合过程本身。希望通过综合程序处理更多类别的优惠; 这些类别似乎是最重要的,或者无法以任何其他方式获得。

Rohin的观点:  见下一个条目。

关于斯图尔特阿姆斯特朗的“研究议程v0.9”的一些评论 Charlie Steiner):这篇文章对前一篇文章中的研究议程提出了两个主要批评。首先,研究议程涉及许多人为设计的特性和模块,但是 苦涩的课程  (AN#49)是机器学习倾向于使用高度抽象的大型模型,可以利用大量的计算。其次,议程的符号基础部分要求人工智能系统开发与人类使用的表现形式相匹配的世界表征,我们不知道如何做到这一点,甚至在人工智能比人类更聪明时,不知道“匹配人类表现形式”是什么意思。该帖还包括一些更具体的评论,我在这里不做总结。

Rohin的观点:我同意这两个批评,尤其是关于痛苦教训的批评。看起来斯图尔特的方法强加了一个特定的结构或算法来合成效用函数; 我一般对这种方法持怀疑态度。此外,正如你可能已经知道的那样,我认为人工智能对齐既没有必要也没有足够的空间来找到AI可以安全优化的效用函数或“目标”。由于这有望成为一个非常困难的企业(第0.2节说明它的目的是“解决哲学中至少5个主要的开放性问题,达到我们可以在代码中指定它们足够严格的水平”),我更愿意研究其他似乎更容易处理的方法。

我认为激发议程各个方面的问题对于思考是很重要和有用的,我很高兴他们都被列入这篇文章。我喜欢这样一个事实,即研究议程直接针对人工智能对齐的完整解决方案。

一般环境中的IRL  (Michael Cohen)

预测

关于累积文化进化和人工智能的思考 (calebo)最近的一篇论文发展了一个概念模型,它反映了人类的社会学习。他们假设不合群学习允许你适应当前环境,而社会学习允许你复制其他智能体学习的适应性。两者都可以通过制造更大的大脑来增加,但代价是增加了资源需求。什么条件导致非常好的社会学习?

首先,我们需要高传输保真度,以便社会学习是有效的。其次,我们需要一些不合群学习,以便自提升 —— 如果你模仿的人一开始没有学到任何东西,模仿就无济于事。第三,为了激励更大的大脑,环境需要足够丰富,以至于额外的知识实际上是有用的。最后,我们需要低生殖偏斜,即更适应环境的个体应该比那些适应性较差的个体略有优势。(对于高度不合群学习,高生殖偏斜会选择太强烈。)这预示着成对结合而不是一夫多妻的交配结构。

这个故事削弱了Will AI See Sudden Progress的观点和  起飞速度:似乎进化“偶然发现”了高度的不合群学习和社会学习,并使物种的生殖适应性不连续。我们也应该期待AI开发的不连续性。

我们还可以根据这个故事预测人工智能的未来。也许我们需要关注人工智能的不合群学习技术与社会学习技术的完美结合,一旦这些组件到位,人工智能智能将迅速而自主地发展。

Rohin的观点:正如帖子所指出的那样,重要的是要记住,这是人类成功的许多可信的说法之一,但我发现它相当引人注目。它使我更接近“人工智能发展可能存在不连续性”的阵营,但还不够多。

我对基于此模型可以制作的人工智能开发的预测更感兴趣。我实际上并不认为这表明人工智能开发需要不合群和社会学习:在我看来,在这个模型中,社会学习的需要是由于对大脑规模的限制和有限的生命周期而产生的。这些限制都不适用于AI —— 成本与“大脑大小”(模型容量,也许也是训练时间)线性增长,而不是人类大脑的超线性,并且AI不需要衰老和死亡。因此,对于AI,我希望仅针对不合群学习进行优化会更好,因为你不需要模拟人类所需的生命周期内的传输。

人工智能时间线骗局 (Jessica Taylor):这篇文章认为人工智能研究人员和人工智能组织有动力预测AGI将很快到来,因为这会导致更多的资金,因此我们应该期望时间线估计系统性地太短。除了概念论证之外,我们还可以在该领域对批评者的反应中看到这一点:无论是在历史上还是现在,批评经常会遇到基于“风格”的反驳,而不是与批评的技术内容相结合。

Rohin的观点:我同意这个概念论证,我认为它确实在实践中非常强烈。我并不认为该领域对批评者的回应意味着他们偏向于短时间线 —— 请参阅  这些 评论。尽管如此,我将完全按照这篇文章的评论进行评论,并说我给短时间线赋予很大的概率,但没有解释我的理由(因为它们很复杂,我认为我不能传达它们,当然可以用少量的话来传达它们。

Jeff Hwakin 关于 20年内神经形态AGI 的观点(steve2152)

人工智能战略和政策

欧洲对人工智能治理的 重要性(Stefan Torges)

AI的其他进展

无监督学习

大规模对抗表征学习 (Jeff Donahue等) (由Cody总结):去年 9 月发表的 BigGAN 论文使用​​了更大的模型(以及一些优化技巧来促进训练),以实现生成图像质量的巨大飞跃。然而,从早期的论文中不清楚这种生成质量的提高是否也与模型作为图像的无监督语义表示的来源的有用性的增加有关。本文的目的是通过采用现有技术来学习 GAN 表示技术(称为BiGAN)并将其与 BigGan 架构相结合来回答这个问题,BigGan 架构是 BiGAN 最初发布时尚未提供的。BiGAN 是双向 GAN 的缩写,通过学习潜空间到图像变换,以及从图像空间到潜空间的编码器,然后强制执行来自这两个分布的(潜空间,图像)对彼此无法区分。他们通过测量使用编码器学习的潜在向量作为输入训练的线性模型的性能来评估学习表示的质量,并且确实发现使用BigGAN 架构训练的 BiGAN 比使用较小架构训练的 BiGAN 表现更好。

Cody 的意见: 我真的很喜欢这篇论文; 它写得很干净,在概念上很简单,并且做了一个普遍有用的科学服务,检查一个领域的进展是否会改变我们对先前结果的看法。我特别喜欢通过运行编码器然后生成器来查看他们获得的“重建”图像:比我记得从基于VAE 像素的重建器看到的任何东西更多,这个模型似乎将图像视为彼此的有效重建,如果他们即使颜色和低级细节不同,也是同一类(即两个比萨饼)。如果你认为那两个比萨可能在潜空间附近,那么这是合理的意义,因此每一个都是对彼此潜在空间编码的合理重建,但看到具体证明它仍然很酷。

新闻

加入我们快速发展的研究团队 (Tanya Singh):人类未来研究所正在招聘研究人员,涉及广泛的主题,包括人工智能安全和战略。申请截止日期为8月16日中午。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s