构建安全的AI:规格、健壮性及保险机制

By Pedro A. Ortega, Vishal Maini, and the DeepMind safety team Translated by Xiaohu Zhu and University AI safety team 建造一枚火箭很难。每个部件需要仔细斟酌和严格测试,而安全性和可靠性是设计的核心。火箭科学家和工程师共同设计从导航路径到控制系统,引擎和起落架的每个部件。一旦所有部分组装起来,系统测试完,我们就可以足够信心让宇航员登上火箭。 如果人工智能是一个火箭,那么我们将会在某天都拿到登机票。并且,就像在火箭上一样,安全性毫无疑问是人工智能系统的关键构成部分。确保安全性需要从基础开始仔细设计系统来保证不同部件能够按照设定工作,同时开发所有必要装置来监视系统在部署后的成功操作。 从高层次看,在 DeepMind 进行的安全性研究聚焦在设计出按照预想方式工作的同时发现和减少可能的近期和长期风险的系统。人工智能技术安全性是相对初期但是快速成长的研究领域,包括从高层及理论到实验及具体的内容。本文目标是推进该领域的发展,鼓励实质性参与技术想法的讨论,这样来提升对人工智能安全性的集体理解。 在这个启动文章中,我们讨论人工智能技术安全性的三个领域:规格、健壮性和保险机制。未来的文章将会更全面填充这里提出的框架。尽管我们观点的演变会不可避免,但我们认为这三个领域涵盖了充分宽广的内容,给出了一种对正在进行和未来研究内容的有用归类。 人工智能安全性问题的三个领域。每个框强调了某个代表性挑战和方法。这三个领域不是割裂的,而是在某种程度上有所交互。尤其,一个给定特定安全性问题可能会需要用到其他方面的问题解决方法。 规格:定义系统的目的 规格确保一个人工智能系统行为与操作者真实意图相符合。 你可能熟悉 King Midas 的故事和点石成金。古希腊神承诺 Midas 他可以得到自己希望要的任何奖赏,作为该国王对 Dionysus 的朋友展示出来的友善和慷慨的感激。作为回应,Midas 说我希望所有的触摸的东西都变成金子。他对自己的新技能非常满意:一个橡树枝、一个石头,花园中玫瑰都在他的触碰被变成黄金了。但很快他发现这个愿望的愚蠢之处了:甚至食物和饮品都变成金子的了。在某些版本中,甚至他女儿也成了这个诅咒的受害者。 这个故事解释了规格这个问题:如何描述我们想要的?规格的挑战就是确保一个人工智能系统行为按照设计者真实想法进行,而不是优化一个缺少考虑制定的目标或者错误的目标。严格地说,我们区分如下三种规格: 理想规格(ideal specification)(愿望 wishes),对应于一个理想人工智能系统的假设描述(很难清楚)与人类操作者目的完全对齐设计规格(design specification)(蓝图 blueprint),对应于我们实际使用构建人工智能系统的规格,如:强化学习系统最大化的奖励函数显示规格(revealed specification)(行为 behaviour),这是最佳描述实际发生情况的规格,如:使用逆强化学习从观察系统行为逆向工程得到的奖励函数。这不同于由人类操作者提供的规格,因为人工智能系统不是最优优化器或者其他设计规格不可见后果。 一个规格问题当理想规格和显示规格出现不匹配时出现,即,当人工智能系统不去做我们希望它做的事情的时候。对人工智能技术安全性的规格问题的研究提出这个问题:如何设计更具原理性和通用性的目标函数,帮助智能体弄清楚目标什么时候错误指定的?导致理想规格和设计规格不匹配的问题出现在上面分类的设计(design)子类别中,而导致设计和显示规格的不匹配则是新生(emergent)子类别中。 例如,在我们的 AI Safety Gridworlds* 论文中,我们给予智能体需要优化的奖励函数,但是然后用对智能体隐藏的安全性性能函数进行实际行为的评测。这个设定对上面的区别进行了建模:安全性性能函数是理想规格,被不完美地设定成一个奖励函数(设计规格),然后由产生一个通过他们得到的策略进行的显示规格的智能体实现。 注意: 在我们 AI Safety Gridworlds 论文里,我们给出了和本文介绍的对规格和健壮性问题不同的定义 来自 … Continue reading 构建安全的AI:规格、健壮性及保险机制