AN #74 将向善的人工智能分解为能力、对齐和应对影响

此处的音频版本   (可能尚未启用)。

强调

人工智能对齐概貌 (Paul Christiano)  (由 Rohin 总结):这篇文章介绍了如何使AI顺利进行的以下分解:

[ 链接到下图]

Rohin 的观点:以下是关于分解的一些要点,这些点对我来说尤其突出或有趣。

首先,在最高层,问题被分解为人工智能对齐,人工智能能力和应对人工智能的影响。“统一税”(安全方面的额外技术成本)仅适用于对齐,而不适用于能力。尽管“应付”部分中没有税,但我希望这仅仅是由于空间不足;我希望这可能需要更多的工作,尽管这可能不是技术性的。我大体上同意这种观点:在我看来,差异化地  提高长期安全性的主要技术问题是弄清楚如何获得功能强大的人工智能系统来 尝试 做我们想要的事情,即它们具有正确的  动机  (AN#33)。此类人工智能系统有望确保在采取异常的不可逆动作之前先与我们核对,从而使健壮性和可靠性变得不那么重要。请注意,  可能仍需要诸如验证,透明度和对抗训练  (AN#43)之类的技术,以确保  比对  本身是可靠且可靠的(请参阅内部比对框);声称就是人工智能功能的健壮性和可靠性   不那么重要。

其次,此处的策略和政策工作分为两类:提高我们的技术税支付能力(为使人工智能系统更好而需要做的额外工作),以及提高我们处理人工智能影响的能力。通常,一般而言,改善可以对这两个类别都有帮助:例如,有关GPT-2  (AN#46)的  发布问题使研究人员能够开发合成文本检测(第一类)以及协调何时不发布模型。 (第二类)。

第三,分类与我们开发的人工智能系统的细节相对不可知 —— 这些仅显示在第 4 级中,其中 Paul 指出他主要考虑的是学习方式的对齐,而不是规划和演绎。如果考虑其他类型的人工智能系统,我尚不清楚分解的高的层面在多大程度上有意义:如果我认为分解不如强大的演绎算法带来的风险那么好,我不会感到惊讶这将取决于演绎算法如何变得如此强大的细节。看到更多的工作提出了更强大的通用人工智能系统的更具体的模型,并对这些模型中的风险进行推理,我会感到特别兴奋,就像《学习型优化的风险》  (AN#58)中所做的那样。

以前的新闻通讯

人工智能和计算的附录 (Girish Sastry等人)  (由 Rohin 总结):上周,我说过该附录表明,随着时间的推移,我们看不到人工智能冬天的影响。的确如此,这是令人误解的:该文章正在测量用于训练  模型的计算,这在过去的AI研究中不那么重要(例如,它不包括Deep Blue),因此我们看不到人工智能寒冬的影响也就不足为奇了。

技术性人工智能对齐

 

mesa 优化

透明度会有助于捕捉欺骗吗?也许不是 Matthew Barnett  (由 Rohin 总结):  近期  (AN#70)  文章  (AN#72)已经关于使用透明度工具来检测欺骗行为表示乐观。本文认为我们可能不希望使用 透明工具,因为欺骗性模型可以简单地适应从而愚弄透明工具。取而代之的是,我们需要像端对端受过训练的欺骗检查器这样的工具,它要和欺骗模型一样聪明,以使欺骗模型无法欺骗它。

Rohin 的观点:评论中,Evan Hubinger 提出了一个我同意的观点:透明度工具不需要能够检测所有欺骗行为;他们只需要防止模型发展出欺骗性。如果欺骗被缓慢添加(即模型不会“突然”变得完全具有欺骗性),那么这比检测任意模型中的欺骗要容易得多,并且可以通过工具来完成。

先决条件: 轻松的对抗训练,以进行内部对齐  (AN#70

伪对齐的更多变体 (Evan Hubinger)  (由 Nicholas 总结):这篇文章指出了“ 学习型优化的风险”  (AN#58)中未提及的两种其他类型的伪对齐。 可校正伪对齐 是可校正对齐的新子类型。在可校正对齐中,mesa 优化器对基本目标进行建模并对其进行优化。当基本目标的模型是真实基本目标的非健壮代理时,就会发生可校正伪校正。 次优欺骗性比对 欺骗何时可以帮助 mesa 优化器实现其目标,但尚未实现。这尤其令人担忧,因为即使人工智能开发人员在训练过程中检查并防止欺骗,智能体程序在部署后也可能具有欺骗性。

Nicholas 的观点:记住这两种伪对齐方式很有用,我乐观地认为,对 mesa 优化(以及更广泛的AI)风险进行分类将使它们更易于理解和解决。

防止不良行为

车辆自动化报告 (NTSB) (由 Zach 总结):上周,NTSB 发布了有关击中 Elaine Herzberg 的 Uber 自动驾驶系统(ADS)的报告。行人正骑着自行车穿过一条两车道的街道。但是,这辆车在撞击前并没有减速。此外,即使在黑暗的环境中,该车仍配备了 LIDAR 传感器,这意味着该车能够完全观察到发生碰撞的可能性。该报告仔细研究了 Uber 如何设置他们的 ADS,并指出,除了不考虑行人穿越道的可能性外,“ …如果感知系统改变了被检测物体的分类,则该物体的跟踪历史生成新轨迹时不再考虑对象”。此外,在导致撞车的最后几秒钟内,车辆进入动作抑制,描述为“一秒钟的时间,在此期间 ADS 抑制计划的制动,同时(1)系统验证检测到的危险的性质并计算替代路径,或者(2)车辆驾驶员控制车辆”。引用此操作的原因是担心错误警报,这可能导致车辆进行不必要的极端操纵。撞车事件发生后,Uber 暂停了其 ADS 运营并进行了一些更改。现在,他们使用了沃尔沃系统的车载安全功能,这些功能以前已关闭,不再执行动作抑制,并且在对象分类更改时保留了路径预测。

Zach 的看法:尽管在有关 Uber ADS 运作方式的细节方面有很多细微差别,但确实似乎在部署 ADS 方面存在相当多的无能。 关闭沃尔沃系统的故障保险装置,不考虑人行横道,并且轨迹重置似乎是明确的  错误。很多人似乎也对 Uber 从事压制行动感到沮丧。但是,考虑到在其他车辆在场的情况下随机进行极端机动会  间接地导致  事故,因此我对为什么首先存在这种功能表示了同情。当然,该功能已被删除,值得注意的是“没有意外的后果 —— 错误警报的数量增加了”。

阅读更多:Jeff Kaufman写了一篇 文章,  总结了原始事件和报告。维基百科对事实信息的报告也相当透彻。最后,《自动驾驶车辆的规划和决策》  概述了该领域的最新趋势,并为对安全问题感兴趣的人们提供了很好的参考。

可解释性

可解释性(explicability)?易读性?可预测性?透明度?隐私?安全?  可解释的智能体行为的新兴前景(Tathagata Chakraborti等人)(由 Flo 总结):本文回顾并讨论了可解释行为的概念定义。第一个概念是可解释性(explicability),用于 衡量智能体行为与观察者期望之间的接近程度。只要其行为有充分的理由,只要目标没有直截了当的行为人转弯,只要观察者的模型中未包含这些理由,它就不会明确地表现出这种定义。 可预测 行为减少了观察者对智能体未来行为的不确定性。例如,任务负责在房间中等待的座席如果暂时关闭自己的行为,则比在房间里走动时更具可预测性。最后,  易读性  或 透明度  降低了观察者对智能体目标的不确定性。这可以通过优先采取无助于其他目标的行动来实现。例如,负责收集苹果的智能体可以通过积极避开梨子来提高其可读性,即使它无需花费任何额外费用即可收集梨子。

这些定义并不总是假定观察者模型的正确性。特别是,智能体可以在实际尝试执行其他操作的同时,在特定上下文中明确地和可预测地完成观察者的任务。此外,这些属性是动态的。如果观察者的模型是不完善的,并且是从观察智能体演变而来的,则随着智能体计​​划的展开,以前无法解释的行为可能变得很明显。

Flo 的观点:对这些概念的概念清晰性对于更细微的讨论似乎很有用,我喜欢强调观察者模型对可解释性的重要性。但是,似乎与可解释性有关的,不依赖于智能体实际行为(或明确计划)的概念将更为重要。许多最先进的强化学习智能体不会执行明确的计划,理想情况下,我们希望在将它们部署到新颖的环境中之前了解一些有关其行为的信息。

人工智能战略与政策

欧盟的AI政策职业 (Lauro Langosco)

人工智能的其他进展

强化学习

适用于多人扑克的超越人类水平的人工智能  (Noam Brown等) (由 Matthew 总结):7月,本文提出了第一款能够比专业玩家更好地玩六人德州无限德州扑克的AI。它不是使用深度学习,而是通过使用蒙特卡洛线性反事实悔值最小化(一种迭代的自演算法)的新颖变体来预先计算蓝图策略来工作。为了遍历巨大的游戏树,AI存储桶通过提取游戏中的信息来移动。在比赛过程中,AI通过根据对手的比赛方式修改抽象并通过在游戏树中进行实时搜索来调整其策略。它使用相当于 144 美元的云计算来计算蓝图策略和两个服务器级CPU,这比以前的AI游戏里程碑所需的硬件少得多。

Matthew 的观点:据我所知,扑克的许多困难在于小心不要泄露信息。几十年来,计算机在保持静音、计算概率和选择不可预测的策略方面一直占据上风,这使我对花了这么长时间达成现在的成功感到惊讶。但是,我发现有趣的是,完成超越人类水平的游戏能力所需的计算量真的可以很少。

阅读更多: 让我们阅读:适用于多人扑克的超人AI

元学习

元世界:多任务和元强化学习的基准和评估 (Tianhe Yu,Deirdre Quillen,Zhanpeng He等)  (由 Asya 总结):“元学习”或“学习学习 learning to learn”指的是从一组任务中转移见识和技能,以便能够快速地对新任务执行出色的工作。例如,你可能想要一种在一组平台游戏上训练的算法,以掌握可用于快速学习新平台游戏的常规技能。

本文介绍了一个用于评估元学习算法的新基准“Meta World”。该基准测试包含 50 个模拟的机器人操纵任务,这些任务需要机械臂来完成触及、推动和抓握的组合。该基准测试了算法学习以下各项的能力:学会很好地完成一项任务,学习一项多任务策略,该策略一次可以在多个任务上训练和执行良好,以及在训练了许多其他任务之后可以适应新任务。该论文认为,与以前的元学习评估不同,该基准测试中的任务分布非常广泛,同时仍具有足够的共享结构,可以进行元学习。

本文在此新基准上评估了现有的多任务学习和元学习算法。在元学习中,它发现不同的算法会根据获得的训练数据的多少而做得更好。在多任务学习中,它发现执行效果最好的算法使用多个“头”或神经网络的末端,每个任务一个。它还发现,“异策略”算法(估计网络当前计划采取的行动以外的行动的价值)比“同策略”算法在多任务学习中表现更好。

Asya 的观点:我真的很喜欢为评估元学习算法建立标准化基准的想法。在基准测试任务中,性能还有很大的提高空间,如果这种激励性算法开发会很酷。与任何基准测试一样,我担心它太狭窄了,无法捕捉到潜在算法的所有细微差别。如果某些元学习算法在这里表现不佳,但在其他领域却表现出色,我不会感到惊讶。

新闻

CHAI 2020 实习机会  (由 Rohin 总结):CHAI(我工作的实验室)目前正在接受2020实习计划的申请。申请截止日期为  12月15日

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s