AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型?

在此处找到所有Alignment Newsletter资源。特别是,你可以注册或浏览此电子表格,查看其中的所有摘要。我总是很高兴听到反馈。你可以通过回复此电子邮件将其发送给我。

这是额外的一份简讯,总结了 Stuart Russell 的新书,以及一些最相关的论文的摘要。它完全由 Rohin 编写,因此删除了通常的“ summary by”标签。

我们还正在更改发布时间表:到目前为止,我们的目标是每个星期一发送新闻稿。我们现在的目标是每个星期三发送新闻通讯。

此处的音频版本   (可能尚未启用)。

人类合拍性:人工智能与控制问题 (Stuart Russell):  由于本摘要的目标读者是已经熟悉人工智能安全的人群,因此我的摘要在本书中进行了实质上的重新组织,并跳过了我期望的大部分内容对于该受众群体将没有太大用处。如果你不熟悉人工智能安全,请注意,我跳过了本书中针对你的许多论点和反论点我在后面会用 HC 来指称此书。

在我们深入探讨对人工智能安全问题的影响和解决方案之前,重要的是要有一个人工智能开发将如何发生的模型。通过算出运行人类大脑所需的计算量,并计算出到达我们的大脑需要多长时间才能做出许多估算。HC 不同意这些。书中认为人工智能的瓶颈在于算法而不是硬件。我们将需要一些概念上的突破,例如在语言或常识理解,累积学习(人类文化积累的模拟),发现层次化机制和管理心理活动(即,优先考虑下一步需要的元认知)方面 。目前尚不清楚这些将需要多长时间,以及在这些出现之后是否需要更多突破,

如果我们获得有益的超级智能的人工智能会发生什么?虽然我们可以在这里做很多科幻猜测,但作为一个较低的下限,它至少应该能够自动消除几乎所有现有的人工劳动。基本上所有的成本最终都归结为人工(甚至材料的成本最终也来自必须开采矿石,经营金属提炼工厂的人类等),因此一切都应该变得非常便宜:超级智能的人工智能将是能够提供一切即服务。如果我们假设这可以使每个人的生活水平提高到 88% 的美国人的生活水平,那将导致世界 GDP 每年增长近 十倍。假设每年有 5% 的折扣率,这相当于13.5 万亿美元净现值。鉴于如此巨大的奖励,争夺它没有任何意义。这有点像争夺报纸的数字副本:当基本上可以随意制作任意数量的报纸时,这毫无意义。

当然,这并不意味着没有任何问题,即使人工智能能够实现其所有者想要的功能。根据谁可以使用强大的人工智能系统,我们可以看到自动化监视,致命自动武器,自动化勒索,虚假新闻和行为操纵的兴起。我们可以通过确保“精神安全”的权利来缓解其中的一些问题:即生活在一个人们所遇到的信息大部分是真实的环境中。可能出现的另一个问题是,一旦人工智能在所有任务上都优于人类,我们可能最终会将一切委托给人工智能,并失去自主权,导致 人类的衰败

所有这些都假定我们能够控制人工智能。但是,我们应该对这种努力保持谨慎 —— 如果没有别的事情,我们应该谨慎地创建比我们更聪明的实体。毕竟,大猩猩对它们的栖息地,幸福和存在取决于我们的心情和异想天开的事实可能不太满意。由于这个原因,HC 将其称为 大猩猩问题:特别是,“人类是否能够在包括智能程度更高的机器的世界中维持其至高无上和自主权的问题”。当然,我们与大猩猩的位置不同:我们可以 设计 更聪明的“物种”。但是我们可能应该有一些很好的论据来解释为什么我们的设计不会遭遇大猩猩问题。这在快速智能爆炸或硬起飞的情况下尤其重要,因为在这种情况下,我们没有任何时间做出反应并解决出现的任何问题。

我们现在有这样的论点吗?并非如此,实际上有一个论点是我们 受迫于大猩猩问题。人工智能和相关领域的绝大多数研究都假设 必须确定一些明确的已知 规格目标。在强化学习中,我们优化了 奖励函数;在搜索中,我们寻找与目标条件匹配的状态;在统计中,我们将 期望 损失降到最低;在控制论中,我们最小化 成本函数(通常偏离某些期望行为);在经济学中,我们设计的机制和政策,以最大限度地发挥 效用 的个体,福利 或群体的 利润  。这使 HC 提出了以下机器智能标准模型:机器是智能的,可以预期其动作可以实现其目标。 但是,如果我们设定了错误的目标,那么机器将无情地追求目标,从而导致我们所不希望的结果。

例如,考虑一下社交媒体使用的内容选择算法,通常可以最大程度地提高参与度,例如点击率。尽管它们缺乏智能,但是这种算法最终改变了用户的偏好,因此变得更可预测,因为可以为可预测的用户提供他们更有可能单击的项目。实际上,这意味着用户被迫变得持有更加极端的政治观点。可以说,这些算法已经对世界造成了很大的破坏。

因此,问题在于我们不知道如何将我们的目标放入人工智能系统中,以便当它优化目标时,结果对我们来说是好的。Stuart 将其称为“Midas 国王”问题:传说中,Midas 国王希望他所触摸的一切都可以变成黄金,而不是意识到其中包括他的女儿和他的食物,这是很差的目标指定的经典案例。从某种意义上说,我们很早就从 Midas 国王的故事以及关于精灵的故事中知道了这个问题,在这些故事中,角色不可避免地想要消除他们的愿望。

你可能会认为我们可以简单地关闭人工智能的电源,但是那是行不通的,因为对于几乎任何明确的目标,人工智能都有动力保持运转,因为这对于实现其目标是必要的。这可能是 Stuart 最著名的一句话:“如果你死了,你就拿不到咖啡。”

什么地方出了错?问题是我们评估机器智能的方式,没有考虑到机器对我们有用的事实。HC 提出:  机器在可以预期它们的动作可以实现 我们的 目标这个意义上是 有益。当然,现在,我们仍然不知道我们的目标是什么。但这一定义,而不是我们的人工智能系统优化确定的,错误的目标,他们将 成为不确定的目标。HC 通过提出人工智能系统设计的三项原则对此进行了扩展,我将在此处完整引用:

1.  机器的唯一目的是最大程度地实现人们的偏好。

2.  机器最初不确定这些偏好是什么。

3.  关于人类偏好的信息的最终来源是人类行为。

合作逆向强化学习  提供了展示这些原理的辅助博弈的形式化模型。你可能会担心不确定其目标的人工智能系统不会像了解目标的系统那样有用,但实际上这种不确定性是一种功能,而不是错误:它导致人工智能系统具有对人尊敬的特点,他会去澄清信息,并尝试学习人类的喜好。 Off-Switch游戏  显示,由于人工智能无法确定奖励,因此它会自行关闭。这些文章将在本新闻通讯的后面进行讨论。

这就是建议的解决方案。为什么它不起作用?一个明显的担忧是,该解决方案需要改变我们进行人工智能的整个方式:这并非一项艰巨的任务。即使仅因为更多的人在从事人工智能工作,标准人工智能吧模型就能带来更多结果怎么办?在这里,HC 很乐观:标准模型的主要问题是它不能很好地学习我们的偏好,而且学习偏好存在巨大的经济压力。例如,我会花很多钱购买一个人工智能助手,它可以准确地了解我的会议时间偏好,并完全自主地安排时间。

另一个问题是如何将原则 3 实际付诸实践:这要求我们将人类行为与人类偏好联系起来。 世界现状  (AN#45)中隐含的逆向奖励设计  和 偏好是解决此问题的示例论文。但是, 在这方面有 很多微妙之处。我们需要对语言使用  Gricean语义:当我们说 X 时,我们并不是指 X 的字面意思:智能体还必须考虑到我们不愿意说 X 而不说 Y 的事实。例如,我只是如果我认为附近有可以购买价格合理的咖啡的地方,将要求智能体购买一杯咖啡。如果这些信念碰巧是错误的,那么智能体应该要求澄清,而不是跋涉数百英里或付出数百美元来确保我得到一杯咖啡。

从行为推断偏好的另一个问题是,人类几乎总是处于某种深层嵌套的计划中,而许多行为甚至都不会发生在我们身上。现在,我正在写此摘要,而不考虑是否应该当消防员。我之所以写这篇摘要,并不是因为我只是进行了计算,表明这将最能实现我的喜好,我之所以这样做,是因为这是编写此额外通讯的总体计划的一部分,而后者本身就是其他计划的一部分。与我的偏好的联系非常遥远。我们如何处理这个事实?

“偏好”本身的概念也许还有更根本的挑战。例如,我们的 经历性自我  和 记忆性自我  可能具有不同的偏好 —— 如果是这样,那么我们的智能体应该针对哪个进行优化?此外,我们的偏好通常会随着时间而变化:我们的智能体是否应该针对我们当前的偏好进行优化,即使它知道将来会发生可预见的变化?可以通过学习元偏好来解决这一问题,该元偏好指示可接受哪种类型的偏好更改过程。

所有这些问题表明,我们需要跨多个领域(例如人工智能、认知科学、心理学和神经科学)开展工作,以逆向工程人类的认知,以便我们可以将原则 3 付诸实践并创建一个模型来展示人类行为源自人类的喜好。

到目前为止,我们一直在谈论一个人的情况。但是,当然会有几个人:我们该如何处理?作为基准,我们可以想象每个人都有自己的智能体,可以根据自己的偏好进行优化。但是,这将使那些不在乎他人福利的人受益匪浅,因为他们的智能体可以访问许多潜在计划,而这些计划对于关心他人的人而言是智能体无法获得的。

如果我们有阻止人工智能系统以这种反社会方式行事的法律怎么办?有一个原因,我们现在不这样做,而是依靠人类的一般常识来避免“小”反社会行为,例如线切割:很难制定具体的法律来在绝大多数情况下做正确的事情。

如果我们使人工智能系统成为实用工具(假定我们找到了一种可以接受的跨人比较实用工具的方法)该怎么办?然后我们得到“索马里问题”:智能体最终将前往索马里帮助那里的贫困人口,因此没有人会购买这样的智能体。

总体而言,我们如何处理从一个人到多个人的过渡还不清楚。 虽然 HC 专注于针对单人/单人案例的潜在解决方案,但要说明人工智能对全人类的影响,还有很多事情要做。 引用 HC 中的话说:“在当今世界,我们与未来的有益智能机器之间的关系确实没有类似之处。还有待观察最终结果如何。”

Rohin 的意见:我很喜欢读这本书;我通常不会阅读到单独一个人对人工智能状态、它如何产生社会影响、对人工智能风险的争论、潜在的解决方案以及对人工智能治理的需求的总体高级看法。很高兴看到我考虑的所有这些方面都绑在一起形成一个统一的视图。虽然我同意本书的大部分内容,尤其是从智能机器的标准模型到 Stuart 的有益机器模型的概念上的转变,但我将重点关注这种观点上的分歧。

首先,这本书对人工智能研究的未来有一个暗示的立场,我对此并不认同:我可以想象到,强大的AI系统最终可以通过单独学习而无需 Stuart 概述的概念性突破而创建出来。 这已经在例如 AI-GA(AN#63)),似乎是推动 OpenAI 和 DeepMind 研究议程的暗含的信念。 这导致了风险分析和解决方案的差异:例如,内部对齐问题(AN#58)仅适用于由学习算法引起的主体,我怀疑这不适用于 Stuart 的人工智能发展观点。

该书还给人留下了这样的印象,即要解决人工智能安全问题,我们仅需确保人工智能系统正在优化正确的目标,至少在只有一个人和一个机器人的情况下。 同样,取决于未来人工智能系统的工作方式,这可能是正确的,但我希望还会有其他问题需要解决。 我已经提到了内部对齐; CHAI 的其他研究生从事例如健壮性和透明度研究。

对齐人工智能的提议要求我们建立一个模型,将人类的偏好与人类的行为联系起来。听起来很难做到完全正确。当然,我们可能不需要一个完全正确的模型:由于奖励的不确定性使智能体可被关闭,因此在出现错误时我们可以纠正模型中的错误似乎是合理的。但这对我来说并不明显。

关于多人的部分更具投机性,我在那儿有更多分歧,但是我希望那仅仅是因为我们尚未进行足够的研究。例如,HC 担心我们将无法使用法律来阻止人工智能从事技术上合法的事情,但仍然是反社会的事情,以造福一个人。如果您想象一个人突然可以访问超级智能的人工智能,那么这似乎是正确的,但是当每个人都拥有超级智能的人工智能时,当前系统中人们会因违反社会规范而在社交上互相惩罚。总体效果取决于人工智能是否更容易违反社会规范,或者更容易发现和惩罚违反社会规范的行为。

阅读更多: Max Tegmark的摘要,  Alex Turner的想法

人工智能对齐播客:与人类的合拍性:人工智能和控制问题 (Lucas Perry 和 Stuart Russell):该播客涵盖了本书中的一些主要思想,在本摘要中我将忽略它们。它还谈到了这本书的动机。Stuart 内心有三类听众。他想向外行人解释什么是人工智能及其重要性。他想说服人工智能研究人员,他们应该使用针对我们的目标进行优化的有益人工智能的新模型,而不是针对目标进行优化的人工智能的标准模型。最后,他想招募其他领域的学者,以帮助将人类行为与人类偏好联系起来(原则 3),并弄清楚如何与多个人类打交道。

Stuart 还指出他的书与 Superintelligence 和 Life 3.0 有两个主要区别:首先,他的书解释了现有的人工智能技术是如何工作的(特别是它解释了标准模型),其次,它提出了解决该问题的技术方案(这三个原则)。

协同逆向强化学习 (Dylan Hadfield-Menell等):本文提供了本书中这三个原则的形式化描述,其中存在单个人类 H 和单个机器人 R。他们都在尝试优化同样的奖励函数。由于 H 和 R 是在环境中表示的,因此它可能是 人类的  奖励:也就是说,可以奖励人类喝咖啡的状态,而无需奖励机器人喝咖啡的状态。这符合第一个原则:机器应该优化  我们的  目标。第二个原则,即机器最初应该不确定我们的目标,是通过假设只有 H 知道奖励而引入进来的,同时要求 R 对奖励保存对应的信念。最后,对于第三个原则,R 需要从 H 的行为中获取有关奖励的信息,因此 R 假设 H 将选择最能优化奖励的动作(考虑到 R 不知道奖励的事实)。

这定义了一个两人博弈,最初称为 CIRL 博弈,但现在称为 辅助博弈。我们可以计算出 H 和 R 的最佳联合策略。由于这是一个 交互 过程,因此 H 可以做得比仅仅以最优的方式忽略 R 更好(IRL 中通常假设):H 可以  告诉  R 奖励是什么。另外,R 不仅是被动地听从指挥然后行动,而是大多数地交织学习和行动,因此必须管理探索-开发的权衡。

另请参阅  学习进行交互式学习和协助  (AN#64),这受本文启发,对深度强化学习也有类似的处理。

阅读更多: BAIR博客文章:合作学习人类价值观

Off Switch 博弈(Dylan Hadfield-Menell等人):本文从理论上研究了不确定性对奖励的影响对 R 围绕潜在偏离开关的动机的影响。它提出了作者期望导致可推广结果的最简单模型。R 和 H 在辅助博弈中,R 排名第一。R 可以采取行动 a,获得实用程序 u,或者关闭自身,获得效用 0。在两种情况下,游戏都立即结束。或者,R可以选择等待,在这种情况下,H 可以关闭 R,获得效用 0,或者允许 R 继续执行操作a,获得效用 u。

如果 H 是完全合理的,那么等待始终是 R 的最佳选择,因为 H 将确保团队获得 max(u, 0) 效用。可能还有其他最佳动作:如果 R 确保 u >= 0,则采取动作 a 也是最佳的;类似地,如果 R 确保 u <= 0,则关闭也是最佳的。但是,如果 H 不合理,并且有时无法采取效用最大化的行动(R 无法预测的方式),那么事情就会变得更加模糊。如果 R 确定 u 的值,那么等待永远不是最佳选择,最好只是执行操作 a(如果 u >= 0)或关闭(如果u < 0)而不是让 H 拧紧它。如果 R 非常有信心 u 是正数,它可能仍会决定采取行动 a,而不是冒着 H 做出错误决定的风险。但是,如果 R 对 u 的符号非常不确定,则等待将再次变为最佳。

Rohin 的观点:尽管我同意本文的广泛观点,但我确实有一个选择:在 H 选择是否关闭 R 之后,博弈立即结束。实际上,如果 R 不关闭,则辅助博弈将继续,这改变了动机。如果 R 对某个 动作的效用(例如什么都不做)可以相对有 把握,那么可能更好的计划是禁用关闭按钮,然后采取该动作并同时观察 H 来学习奖励。然后,在了解了有关奖励的更多信息并弄清为什么 H 想要关闭它之后,它可以很好地发挥作用并获得效用(而不是被关闭时被零效用所困)。虽然这看起来不太好,但显然不是不好:R最终什么也没做,直到它能弄清楚如何真正发挥作用,才算是灾难性的结果。真正糟糕的结果只有到 R 由于某种错误指定而最终对错误的奖励变得自信时才会出现,正如CIRL框架的“不可纠正性”中所建议的那样,其摘要如下。

CIRL框架 (Ryan Carey)中的不可纠正性:本文证明了,如果智能体对人的奖励函数有错误的信念,那么你将不再获得智能体遵守服从关闭指令的好处。它认为,由于关闭按钮的目的是作为最后的安全措施(当所有其他措施均失败时),因此它不应基于智能体对奖励的信念正确的假设。

Rohin 的意见:我当然同意,如果智能体对奖励的看法是错误的,那么很可能不会遵守关闭命令。例如,在关掉游戏中,如果智能体错误地确定 u 为正,那么即使人类想要关闭它,它也会采取行动 a。另请参阅  这些  (AN#32)  帖子  (AN#32)有关模型规格不正确和逆强化学习的信息。有关总体评论有多严重的讨论,请参阅我对下一篇文章的看法。

完全更新的尊敬问题 (Eliezer Yudkowsky):本文指出,即使你的智能体对奖励函数具有不确定性,它也会获取信息并降低其对奖励的不确定性,直到最终不再减少不确定性为止,然后可以简单地优化结果分布的期望,这等效于优化已知目标,并且存在相同的问题(例如禁用关闭按钮)。

Rohin 的观点:  与上一篇论文一样,只有当智能体对奖励函数的信念是错误的时,该论点才是真正的问题:如果正确,那么在没有更多信息要获取的时候,智能体应该已经知道人类不喜欢被杀,喜欢快乐等,直接优化该函数应该会带来良好的结果。当你甚至不能将合理的先验放在奖励函数上时,这和以前的评论都令人担忧,这是一个有力的观点。

HC 的回应是,智能体切勿为任何假设分配零概率。 它表明你可以有一个可扩展的分层先验,其中最初存在相对简单的假设,但是随着假设在解释数据时变得更糟,你将“扩展”假设集,最终在(可能是)普遍先验下达到最低点。 我认为这种方法原则上可行,实践中存在两个挑战。 首先,这样做可能在计算上不可行。 其次,尚不清楚这种方法如何处理人类偏好随时间变化的事实。 (HC 确实希望对这两者进行更多研究。)

如果智能体使用的观察模型不正确,而不是先前的观察模型,则完全更新的引用也可能会成为问题。 我不确定这是否是论点的一部分。

反向奖励设计 (Dylan Hadfield-Menell等人):通常,在RL中,奖励函数被视为 最佳行为的  定义,但这与第三条原则相冲突,第三条原则认为人类行为是关于人类偏好的最终信息来源。但是,奖励函数显然具有一些有关我们的偏好的信息:我们如何使其与第三原则兼容?我们需要以某种方式将奖励函数与人类行为联系起来。

本文提出了一个简单的答案:由于奖励设计者通常通过反复试验的过程来构建奖励函数,在此过程中,他们会测试其奖励函数并查看其激励方式,因此奖励函数可以  告诉我们有关训练  环境中最佳行为的信息。作者使用 Boltzmann 理性模型对此进行形式化,其中奖励设计者 在 训练环境中  给出更高的真实奖励时更有可能选择  智能体奖励。(但是,在某些测试环境中,智能体的奖励是否与真实的奖励脱钩并不重要)。通过将人类行为(即智能体奖励函数)与人类偏好(即真实奖励函数)联系起来的假设,他们便可以执行贝叶斯推断,以获得真实  奖励函数的后验分布  。

他们证明,通过针对该后验分布使用风险规避计划,该智能体可以避免以前从未见过且没有任何信息的负面副作用。例如,如果对智能体进行了训练,使其能够在充满泥土和草的环境中进行采金,然后在带有熔岩的环境中对其进行测试,则智能体将知道,即使指定的奖励对熔岩无动于衷,这并不意味着因为 在熔岩上施加任何重量都会在训练环境中导致相同的行为。由于避险,它保守地认为熔岩是坏的,因此成功地避免了熔岩。

另请参见 基于此工作的主动逆向奖励设计  (AN#24)。

Rohin 的意见:我真的很喜欢本文作为如何应用第三条原则的示例。这是使我开始思考我们应该如何思考事物中假定信息与实际信息内容的论文(在这里,关键的见解是强化学习通常假设奖励函数所传递的信息要比实际多得多)。这可能是世界上隐性偏好设置  (AN#45)背后的因果关系,这也是第三条原则和这种基于信息的观点的一个例子,因为它认为世界状态是由人类行为引起,因此包含有关人类偏好的信息。

值得注意的是,在本文中,避免熔岩是由于对真实奖励的信念 以及对风险的厌恶。如果智能体从未在训练环境中看到过金子,他还将避免在测试环境中放金子。税务局只会给你关于真实报酬的正确不确定性;它并没有告诉你如何利用这种不确定性。如果要减少不确定性,你仍然需要安全的探索或其他一些信息来源。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s