AN #61 人工智能策略与治理,来自该领域两位专家的分享

人工智能的许多类比都很破碎。人工智能是一套非常广泛的软件技术,不同于非常离散的核武器。使用出口制将“AI”保留在美国境内是不可行的。此外,人工智能将比创造致命的自主武器更加根本地影响战争 - Helen认为最大的军事影响可能是物流。将数据与石油进行比较也很奇怪,因为石油是竞争商品(两个人不能使用相同的油),而数据很容易被复制。此外,一桶油可以替代任何其他桶,但数据非常特定于具体应用。Helen的首选类比是将人工智能视为电力 —— 这是一种非常通用的工具,可以改变社会的许多方面。然而,这样类比也会有问题 —— 例如,人工智能研究社区看起来非常重要,但是对于电力倒不存在这样的情况。

AN #60 一个新的AI挑战:在创造性模式中帮助人类玩家的 Minecraft 智能体

我很高兴看到一个项目非常直接地定位在推断复杂环境中的最终用户意图。这似乎是该领域走向的一个伟大方向。我认为Minecraft也可以作为一个测试平台,研究人员或工程师 (而不是最终用户)试图让智能体做某事:我们可以在这里承担更多的专家经验和知识。理想情况下,这将使我们能够解决比最终用户使用自然语言更复杂的任务。我个人计划沿着这些方向与Minecraft合作。

最坏情况下的保证(重制版)

即使我们非常小心地部署机器学习,也可能会达到少数相关性失败(correlated failures)很快就会变成灾难性的地步。强大的模型可能会积极地破坏保护措施,抵制纠正措施,并操纵其操作。 我认为机器学习系统的长期安全性需要能够排除这种行为,我称之为不可接受(unacceptable),甚至对于在输入分布上极其罕见的输入也应如此。 在这篇文章中,我将通过强调我认为最重要的三个因素:对抗式训练、透明度和松弛来解释为何我认为这个目标很可能是可以实现的。

设计智能体动机机制来避免副作用

针对此问题的一个观点是让智能体从人类反馈中学会避开副作用,如通过 reward modeling。这样做的好处是不必弄清楚副作用的含义,但也很难判断代理何时成功学会避免它们。一个补充方法是定义适用于不同环境的副作用的一般概念。这可以与奖励建模等 human-in-the-loop 方法相结合,并将提高我们对副作用问题的理解,这有助于我们更广泛地理解智能体动机。 这是我们关于副作用的新版本论文的焦点。

利用因果影响图来理解智能体动机

影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。

构建安全的AI:规格、健壮性及保险机制

By Pedro A. Ortega, Vishal Maini, and the DeepMind safety team Translated by Xiaohu Zhu and University AI safety team 建造一枚火箭很难。每个部件需要仔细斟酌和严格测试,而安全性和可靠性是设计的核心。火箭科学家和工程师共同设计从导航路径到控制系统,引擎和起落架的每个部件。一旦所有部分组装起来,系统测试完,我们就可以足够信心让宇航员登上火箭。 如果人工智能是一个火箭,那么我们将会在某天都拿到登机票。并且,就像在火箭上一样,安全性毫无疑问是人工智能系统的关键构成部分。确保安全性需要从基础开始仔细设计系统来保证不同部件能够按照设定工作,同时开发所有必要装置来监视系统在部署后的成功操作。 从高层次看,在 DeepMind 进行的安全性研究聚焦在设计出按照预想方式工作的同时发现和减少可能的近期和长期风险的系统。人工智能技术安全性是相对初期但是快速成长的研究领域,包括从高层及理论到实验及具体的内容。本文目标是推进该领域的发展,鼓励实质性参与技术想法的讨论,这样来提升对人工智能安全性的集体理解。 在这个启动文章中,我们讨论人工智能技术安全性的三个领域:规格、健壮性和保险机制。未来的文章将会更全面填充这里提出的框架。尽管我们观点的演变会不可避免,但我们认为这三个领域涵盖了充分宽广的内容,给出了一种对正在进行和未来研究内容的有用归类。 人工智能安全性问题的三个领域。每个框强调了某个代表性挑战和方法。这三个领域不是割裂的,而是在某种程度上有所交互。尤其,一个给定特定安全性问题可能会需要用到其他方面的问题解决方法。 规格:定义系统的目的 规格确保一个人工智能系统行为与操作者真实意图相符合。 你可能熟悉 King Midas 的故事和点石成金。古希腊神承诺 Midas 他可以得到自己希望要的任何奖赏,作为该国王对 Dionysus 的朋友展示出来的友善和慷慨的感激。作为回应,Midas 说我希望所有的触摸的东西都变成金子。他对自己的新技能非常满意:一个橡树枝、一个石头,花园中玫瑰都在他的触碰被变成黄金了。但很快他发现这个愿望的愚蠢之处了:甚至食物和饮品都变成金子的了。在某些版本中,甚至他女儿也成了这个诅咒的受害者。 这个故事解释了规格这个问题:如何描述我们想要的?规格的挑战就是确保一个人工智能系统行为按照设计者真实想法进行,而不是优化一个缺少考虑制定的目标或者错误的目标。严格地说,我们区分如下三种规格: 理想规格(ideal specification)(愿望 wishes),对应于一个理想人工智能系统的假设描述(很难清楚)与人类操作者目的完全对齐设计规格(design specification)(蓝图 blueprint),对应于我们实际使用构建人工智能系统的规格,如:强化学习系统最大化的奖励函数显示规格(revealed specification)(行为 behaviour),这是最佳描述实际发生情况的规格,如:使用逆强化学习从观察系统行为逆向工程得到的奖励函数。这不同于由人类操作者提供的规格,因为人工智能系统不是最优优化器或者其他设计规格不可见后果。 一个规格问题当理想规格和显示规格出现不匹配时出现,即,当人工智能系统不去做我们希望它做的事情的时候。对人工智能技术安全性的规格问题的研究提出这个问题:如何设计更具原理性和通用性的目标函数,帮助智能体弄清楚目标什么时候错误指定的?导致理想规格和设计规格不匹配的问题出现在上面分类的设计(design)子类别中,而导致设计和显示规格的不匹配则是新生(emergent)子类别中。 例如,在我们的 AI Safety Gridworlds* 论文中,我们给予智能体需要优化的奖励函数,但是然后用对智能体隐藏的安全性性能函数进行实际行为的评测。这个设定对上面的区别进行了建模:安全性性能函数是理想规格,被不完美地设定成一个奖励函数(设计规格),然后由产生一个通过他们得到的策略进行的显示规格的智能体实现。 注意: 在我们 AI Safety Gridworlds 论文里,我们给出了和本文介绍的对规格和健壮性问题不同的定义 来自 …

Continue reading 构建安全的AI:规格、健壮性及保险机制