在此处查找所有 Alignment Newsletter 资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。
强调
对于 AI 风险争论的转移 (Tom Sittler)由早期争论为 AI 安全焦点上存在风险的原因: 有着在AI能力上的尖锐的不连续跳跃的对齐失败。为了争论一个危险的转折,需要不连续性假设,例如:没有不连续性,我们可能会看到能力较弱的 AI 系统无法隐藏他们的错误对齐目标,或者试图欺骗我们而没有成功。同样,为了使 AI 系统获得决定性的战略优势,它需要比已经存在的所有其他 AI 系统更强大,这需要某种不连续性。
现在,还有其他一些关于人工智能风险的争论,尽管其中没有一个是非常详细的,并且分散在几篇博客文章中。这篇文章分析了其中几个,并指出了一些未解决的问题。
首先,即使没有不连续性,对齐失败也可能导致前景不佳:由于 AI 拥有更多的权力和智能,他们的价值观将决定未来会发生什么,而不是我们的。(这里重要的是AI和人类之间的区别,而对于决定性的战略优势,最重要的是最聪明的智能体和下一个最聪明的智能体之间的区别。)参见 更真实的厄运故事 (AN#50)和 机器智能的三个影响。然而,目前尚不清楚为什么我们无法在人工智能系统不太强大的早期阶段修复错误对齐。
即使我们不理会对齐失败,也还存在其他 AI 风险的争论。特别是,因为 AI 将成为一种强大的技术,它可以被恶意行为者使用; 它可以帮助确保强大的极权主义政权; 它可能会增加大国战争的可能性,并可能导致更大的 侵蚀价值的竞争压力。有了所有这些论点,我们不清楚为什么它们特别针对AI,而不是任何其余重要的技术,并且没有详细勾勒出风险论点。
该帖最后向人工智能安全研究人员劝告澄清哪些风险来源激励他们,因为它将影响哪些安全工作最重要,它将有助于确定需要确定分配给 AI 风险的资金的优先级工作,以及它有助于避免与对 AI 风险持怀疑态度的人产生误解。
Rohin的观点:我很高兴看到更多这种形式的工作; 更清楚地了解我们真正关心的风险似乎特别重要,因为它强烈影响我们应该做的工作。在没有不连续性的对齐失败的特定情况下,我对解决方案“我们可以尽早解决错误对齐”并不满意,因为早期即使错位很明显,我们也很难解决这个问题。并且错误对齐的 AI 系统仍然可能有用,因为它“足够对齐”,至少在这种低水平的能力下。
就个人而言,最能激励我的论点是“人工智能将会非常有影响力,并且值得去努力确保这种影响是积极的”。我认为涉及没有不连续性的对齐失败的场景是这个论点的一个特别重要的子类别:虽然我确实期望如果问题出现,我们能够处理它,这主要是因为处理问题的人类的元-层信念。我们目前对于为什么问题 不会 发生,或者为什么它会在它确实发生的时候得到解决,并没有一个好的对象层面的故事,而且事实上为了确信 AI 会有这样的故事会很好对人类有益。
我对不对齐风险知之甚少,而我的工作并没有真正解决任何问题。它们似乎值得更多调查; 目前我对它们的感觉是“是的,那些可能是风险,但我不知道风险有多大”。
技术AI对齐
学习人的意图
同时学习偏见和奖励 (Rohin Shah等人):通常,逆强化学习假设示范者是最优的,或者他们所犯的任何错误都是由随机噪声引起的。如果没有示范者如何 犯错误的模型 ,我们应该期望 IRL无法胜过示威者 (AN#31)。因此,出现了一个自然的问题:我们能否从数据中了解示范者所犯的系统性错误?虽然这里有一个 不可能的结果 (AN#31),但我们可能希望它只是理论上的问题,而不是实践中的问题。
在本文中,我的合作者和我建议通过学习他们的规划算法来学习示范者的认知偏差。我们希望认知偏差编码于学得的规划算法。然后,我们可以通过找到奖励函数来执行偏差注意的逆强化学习(IRL),该函数被传递到规划算法时会得到观察到的策略。我们有两种算法可以做到这一点,一种假设我们知道某些任务的真实奖励,另一种试图让学得的规划器“接近”最优规划器。在具有模拟人类偏差的简单环境中,算法的性能优于完美最优性或玻尔兹曼理性的标准IRL假设 —— 但是通过使用不完美的可微分规划器来学习规划算法,它们会失去很多性能。
Rohin的观点: 虽然这只是最近发表的,但这是我一年多前做的工作。我不再对雄心勃勃的价值学习 (AN#31)非常乐观 ,所以我现在对它对AI对齐的影响不那么兴奋了。特别是,我似乎不太可能完全推断所有人类价值,没有任何边缘情况或不确定性,我们会尽可能地优化。我想要建立人工智能系统,从充分理解人类偏好开始,然后随着时间的推移学习更多,同时优化他们所了解的偏好。然而,本文更多地沿着前一项工作,至少对于长期的人工智能调整。
我确实认为这是对逆强化学习领域的贡献 —— 它表明通过使用适当的归纳偏差,你可以对数据集中的(认知)偏差变得更加健壮。目前尚不清楚这将在多大程度上泛化,因为它是在简单环境下的模拟偏差上进行测试的,但我预计它会产生至少一个小的影响。但在实践中,我希望通过提供更多信息来获得更好的结果,如 T-REX (AN#54)。
阅读更多: 关于学习而不是假设人类对奖励推理的偏见的可行性研究
用于预测人类决策的认知模型先验 (David D. Bourgin,Joshua C. Peterson等) (Cody总结):众所周知,人类决策难以预测,是期望价值计算和可能未充分列举的认知偏差的组合。通常我们可以使用具有大量数据的神经网络很好地预测,但是关于人类决策的数据是昂贵且稀缺的。本文提出我们在人类决策理论模型模拟的大量数据上预训练神经网络,然后对小的真实数据集进行调优。实际上,我们使用理论模型作为一种先验,它为神经网络提供了强大的归纳偏差。该方法实现了比现有理论或经验方法更好的性能,无需现有数据集和通过Mechanical Turk收集的新的更大数据集的特征工程。
Cody的观点: 我对本文的重要性做出了强烈的陈述,我有点谨慎,因为我在认知科学方面没有像机器学习那样多的领域知识,但总的来说这“对待你的理论模型就像一个生成模型和来自它的样本“想法似乎是一种优雅且可信的可更广泛地扩展的方式,将理论先验与实际数据结合在一起。
杂项(对齐)
自我确认的预言和简化的Oracle设计 (Stuart Armstrong):这篇文章提供了一个玩具环境来模拟自我确认的预言,并展示了运行一个迷惑的oracle(没有意识到它的预测影响世界)的结果一个低带宽的oracle(必须从一小组可能的答案中选择),一个高带宽的oracle(可以从一大堆答案中选择)和一个反事实的oracle(选择正确的答案, 条件 是我们没有看到答案)。
阅读更多: 神谕,序列预测因子和自我确认预测 (AN#55)以及 AI 神谕的良好和安全使用
存在风险:哲学分析 (Phil Torres):“存在风险”这个短语经常以不同的方式使用。本文考虑了五种不同定义的优缺点。
Rohin的观点: 虽然这并未明确提及 AI,但我认为无论如何都要阅读,因为你使用的五个概念中的哪一个通常会影响你认为的重要风险。
人工智能战略和政策
AGI将大幅增加规模经济 (Wei Dai):规模经济通常意味着公司将继续发展壮大。对于员工而言,协调成本超线性增长,最终限制了公司的发展规模。但是,随着 AGI 的出现,许多协调成本将被删除。如果我们可以将 AGI 与特定人类联系起来,那么由 AGI 运营的公司与单个人保持一致将至少避免委托代理成本。因此,规模经济将占主导地位,公司将变得更大,从而导致更加集中化。
Rohin的观点: 在人类水平 AGI 系统的假设下,这个论点对我来说非常引人注目。请注意,尽管 AGI 系统的开发消除了委托代理问题,但它并未消除由于不同代理具有不同(非价值相关)信息而产生的问题。
这个论点可能不适用于 CAIS (AN#40),其中每个 AI 服务都针对特定任务进行了优化,因为服务之间会存在委托代理问题。
似乎这个论点应该主要让我们更加担心稳定的专制政权:基于这一论点的主要影响是 AGI 监督者手中的权力集中。这种情况不太可能发生在公司身上,因为我们有机构阻止公司获得太多权力,尽管国家之间的竞争可能会削弱这些机构。这可能发生在政府身上,但如果长期的政府权力仍然由人民通过民主而存在,那似乎没问题。所以风险似乎是政府获得权力的时候,人民不再对政府有效控制。(这将包括例如政府有足够好的人工智能推动宣传他们总是赢得选举的情景,不管他们的统治实际上是否是好的)
人们在哪里思考和讨论人工智能安全的全球协调? (Wei Dai)
AI的其他进展
强化学习
Atari的无监督状态表示学习 (Ankesh Anand,Evan Racah,Sherjil Ozair等) (由Cody总结):本文有两个主要贡献:以无监督的方式学习表示的实际技术,以及用于访问游戏的基本概念状态的Atari特定界面(例如,智能体的位置,小对象的位置,当前剩余的生命等)通过解析与每个状态相关联的RAM。由于无监督表示学习的名义目标通常是找到能够捕获状态的概念上重要特征而无需直接访问它们的表示,因此该监督系统通过询问概念特征的预测程度,可以对现有方法进行更有意义的评估。学习表示向量。本文的对象级方法围绕学习表示来捕获有关时态动态的信息,这些信息通过最大化相邻时间步长之间的表示之间的互信息来实现。更具体地说,它们都有本地版本,其中图像的给定 1/16 补丁具有优化的表示,以预测相同的补丁下一个时间步表示,以及本地全局版本,其中全局表示被优化以预测每个补丁的表示。他们认为这种补丁级预测使他们的方法更好地学习附加到小物体的概念,而实证结果似乎确实支持这种解释。更具体地说,它们都有本地版本,其中图像的给定 1/16 补丁具有优化的表示,以预测相同的补丁下一个时间步表示,以及本地全局版本,其中全局表示被优化以预测每个补丁的表示。他们认为这种补丁级预测使他们的方法更好地学习附加到小物体的概念,而实证结果似乎确实支持这种解释。更具体地说,它们都有本地版本,其中图像的给定 1/16 补丁具有优化的表示,以预测相同的补丁下一个时间步表示,以及本地全局版本,其中全局表示被优化以预测每个补丁的表示。他们认为这种补丁级预测使他们的方法更好地学习附加到小物体的概念,而实证结果似乎确实支持这种解释。
Cody的意见: 具体的方法是对以前的对比度预测编码工作的一个有趣的修改,但我发现这篇论文最令人印象深刻的是通过阅读反汇编源代码的评论将元数据监督信号从游戏中拉出来的工程工作元数据如何存储在 RAM 中。这似乎有可能成为 Atari 表示学习的有用基准(尽管 Atari 游戏在概念上相当直接)。
深度学习
XLNet:用于语言理解的广义自回归预训练 (Zhilin Yang,Zihang Dai等):XLNet 在许多 NLP 任务中设置了显着改进的最佳分数,击败了 BERT。这可能是由于预训练了更多的数据,尽管也有架构方面的改进。
新闻
与人工智能政策相关的学习和培训资金职业:开放慈善项目已启动人工智能政策奖学金计划; 第一轮的截止日期是10月15日。
研究学者项目协调员 (Rose Hadshar):FHI 希望聘请研究学者计划的协调员。申请截止日期为 7 月 10 日。
比赛:1000美元可以向Oracle AI提出好问题 (Stuart Armstrong)
Leave a Reply