在此处查找所有Alignment Newsletter资源。特别是，你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。

强调

新的 30 人研究小组在 DC 调查新兴技术如何影响国家安全 （Rob Wiblin 和 Helen Toner）：这个与 Helen Toner 一起播放的 80,000 小时播客详细介绍了人工智能政策，中国和新的安全和新兴技术中心（CSET）。我只是总结了我发现最相关的部分。

人工智能的许多类比都很破碎。人工智能是一套非常广泛的软件技术，不同于非常离散的核武器。使用出口制将“AI”保留在美国境内是不可行的。此外，人工智能将比创造致命的自主武器更加根本地影响战争 – Helen认为最大的军事影响可能是物流。将数据与石油进行比较也很奇怪，因为石油是竞争商品（两个人不能使用相同的油），而数据很容易被复制。此外，一桶油可以替代任何其他桶，但数据非常特定于具体应用。Helen的首选类比是将人工智能视为电力 —— 这是一种非常通用的工具，可以改变社会的许多方面。然而，这样类比也会有问题 —— 例如，人工智能研究社区看起来非常重要，但是对于电力倒不存在这样的情况。

现在有几个随机点，没有特别的顺序。中国每年“出口”大约 5 万名发明人（专利持有人），而美国进口 19 万，远远超过任何其他国家，这表明美国是全球人才中心。人工智能很难定义，因为它的许多属性都是连续的 —— 例如，地雷是一种致命的自治武器？影响政策的方法是对拟议政策进行小规模，有针对性的改变，以便政府做出稍微好一些的决策 —— 要实施一项宏伟的计划来让政府做一些大事，实在太难了。与政府就技术问题进行交流的主要技能：能够向科学家和官僚讲话，并能够在DC环境中进退自如 —— 了解人们在做什么，他们的激励是什么，

Rohin的观点： 我很喜欢关于有关人工智能的类比出问题的部分 —— 我通常不会对它们想太多，但是他们总是觉得有点不对劲，Helen 非常清楚问题是什么。同样有趣的是看到人工智能的观点与我们对 AGI 事故风险的看法有很大不同 —— 我们经常考虑单一的，通常是智能的 AGI 系统，而 Helen 则强调如何在许多特定应用中轻松部署当前技术上下文。尽管 Helen 提到当前系统的数据非常特定于应用程序，但如果你认为无监督的学习故事数据可能更适用于 AGI 系统。

AI Alignment播客：关于AI的治理 （Lucas Perry和Jade Leung）：Jade在这个播客中提出了很多观点，其中一些我在这里没有特别说明。

GovAI研究许多研究课题，包括分析人工智能的输入，理解竞争的历史案例，研究公司与政府之间的关系，以及理解公众舆论。

治理尤其困难，因为在当前的竞争环境中，很难实施任何形式的“理想”治理; 我们只能对边缘进行修改。因此，如果我们能够进入一个我们可能需要很长时间来思考理想治理会是什么样的状态而不必担心竞争压力的状态可能会更好。

政府面临的最大风险是他们会采取仓促，不明智的监管措施。然而，鉴于我们有多么不确定，现在很难推荐任何具体行动 —— 但无论如何都会发生治理; 它不会等待更多的研究。我们可以采取的一项有用措施是纠正或增加不准确的模因和信息的细微差别，例如美国和中国之间的“竞争”，或性能安全权衡。可能我们应该更多地与政府接触 —— 我们可能偏向于与私人组织合作，因为他们对我们更敏捷和熟悉。

我们应该考虑赌注，而不是考虑短期和长期。一些问题，例如隐私或失业，可以被认为是“短期的”，但从长远来看，它们的利益可能会扩大到很大。这些都是值得思考的好地方。

Rohin的观点： 我对这些主题没有任何特别的想法，但我很高兴这个和之前的播客，它更多地提供了人工智能治理领域的鸟瞰图，这很难从任一论文中获得。

技术AI对齐

技术议程和优先次序

关于决策理论研究的目的 （Wei Dai）：在这篇文章中，Wei Dai 阐明他认为决策理论研究很重要，因为它可以帮助我们了解理性，哲学和元哲学的本质; 它使我们能够理解潜在的人工智能故障模式; 我们可以更好地理解关于智力的谜题，如自由意志，逻辑不确定性，反事实等等; 它可以改善人类的理性。它 并不是 要找到“正确”的决策理论来编程成AI，也不是要创建安全论证来证明人工智能系统没有“决策理论”的缺陷。

防止不良行为

结合 Hamilton-Jacobi 雅可比安全分析和强化学习 （Jaime F. Fisac，Neil F. Lugovoy等人）：强化学习在强制执行任何时候都存在的约束方面并不是很好，因为如果它会导致代理人违反约束条件以后更高的奖励。在健壮最优控制理论中，我们随着时间的推移最大化约束奖励的最小值来避免这种情况。我们可以在 Bellman 方程中通过在当前奖励和估计的未来值（而不是求和）之间取最小值来做到这一点，但这并不是唯一定义一个固定点。正如在常规强化学习中一样，我们可以使用折扣来避免问题：特别是，如果我们将折扣解释为事件继续发生的概率，我们可以得出一个安全 Bellman 方程，其中 Q 学习保证收敛。他们在经典控制环境和 Half-cheetah 中演示了他们的方法，包括一系列强化学习算法，包括软行动-评判家算法（SAC）。

Rohin的观点：我真的很喜欢这里的变动有多么简单 —— 它应该会成为许多深度RL算法的单行更改。以前，我们必须在高维问题的无约束智能体或低维问题的约束智能体之间进行选择 —— 我喜欢这项工作在高维问题的约束智能体上取得进展，类似于约束策略优化。虽然此工作不涉及性能奖励，但你可以使用生成的安全策略来指导安全探索过程，以学习安全优化性能指标的策略。当然，这都是假设满足约束的规范。

杂项（对齐）

使用因果影响图建模AGI安全框架 （Tom Everitt，Ramana Kumar，Victoria Krakovna等）：本文使用因果影响图语言（AN＃49）描述了几个AI安全框架，以便于比较和对比他们。例如，图表清楚地表明，虽然 Cooperative IRL 和奖励建模（AN＃34）非常相似，但存在显着差异：在合作 IRL 中，奖励直接来自潜在的人类偏好，而在奖励建模中，奖励来自依赖于人类反馈的奖励模型，其本身取决于潜在的人类偏好。

Rohin的观点：我喜欢这些图表，以此来演示各种AI安全框架中发生的事情的基础知识。有时，图表还可以显示框架安全功能的差异。例如，在奖励建模中，智能体具有影响人类反馈的动机，以便直接影响奖励模型。（想象一下让人类迷上海洛因，以便未来的反馈能够使奖励模型奖励海洛因，这可能很容易产生。）另一方面，在合作的IRL中，智能体只想影响人类行为，因为行为影响状态，这是一种正常或允许的激励。（想象一下，智能体让人们提前离开他们的房子，以便他们准时到达他们的会议。）

人工智能战略和政策

GCR减少的信息安全职业 （Claire Zabel 和 Luke Muehlhauser）：这篇文章表明信息安全对于那些希望减少全球灾难性风险（GCR）的人来说可能是一条很好的职业道路。特别是对于人工智能，这些专家可以帮助减轻恶意或不谨慎的行为者攻击与人工智能相关的知识产权的攻击。它还降低了不稳定人工智能技术竞赛的风险。另外，这些专家可以考虑人工智能对网络攻击和防御的潜在变革影响，开发或建议可靠的承诺技术（参见例如模型治理（AN＃38）），或更广泛地应用安全思维。

Ben Garfinkel访谈 录（Joshua Monrad，MojmírStehlík 和 Ben Garfinkel）：人工智能似乎有望成为一个非常大的事件，可能是通过AGI的发展，并且很难预测接下来会发生什么。然而，纵观历史，我们可以看到一些非常大的轨迹变化，例如农业革命和工业革命，其中一切都发生了根本性的变化。我们不应该认为这种改变必须变得更好。尽管很难预测会发生什么，但无论具体的长期风险如何，我们仍然可以做一些看起来非常好的工作。例如，Ben对于避免投资于人工智能的不同群体之间的对抗动态，研究群体如何做出可信的承诺以及更好的预测等方面的研究持乐观态度。然而，可信的承诺对人工智能而言可能不如核武器或生物武器易处理，因为人工智能系统不会拥有物理足记，能够轻易记录，也没有清晰的类别能被轻易定义。

AI的其他进展

探索

通过分歧进行自我监督的探索 （Deepak Pathak，Dhiraj Gandhi等） （由 Cody 总结）：对于想要建立一个可以学习探索环境却没有明确奖励的强化学习系统的研究人员来说，一种常见的方法是让智能体学习世界模型，并激励它探索世界的地方。模型具有最高的误差，理论上这些代表了需要更多地交互以收集更多数据并改进其世界模型的地方。然而，这种方法在环境具有固有随机性的情况下受到影响，因为在随机环境中（想想：坐在静态电视前面并试图预测下一帧），预测误差永远不会归零，并且对于智能体，即使它的世界模型已经收集到足够的数据以尽可能多地收敛，它也会保持相互作用。本文提出了另一种技术：学习一组自举的下一状态预测模型，而不是响应预测误差进行探索，并探索模型之间的差异或不一致。这有几个不错的属性。一个是，在固有随机性的情况下，所有模型最终会收敛到预测随机分布的均值，因此即使它们没有将误差降低到零，模型之间的方差也会很低，并且会正确地激励我们的智能体不会花更多的时间来学习。另一个好处是，由于奖励纯粹是智能体模型的一个功能，它可以作为智能体选择的函数进行分析表达，并通过直接反向传播而不是“黑盒奖励”强化学习进行训练，使其更有效率。

Cody的观点： 我发现这种方法非常优雅和聪明，可以解决好奇文学中的“静态电视”问题。我很想看到更多的工作，在集成模型（不同的架构，甚至更多不同的数据集）中引入更强大的激励机制，以确定是否会放大模型分歧的情况。

深度学习

权重不可知的神经网络 （Adam Gaier等） （由Cody总结）：受到动物在出生时执行某些任务的能力的启发，在了解世界之前，本文试图找到在各种可能的模型参数上表现良好的网络架构。这里的想法是，如果一个体系结构在不同的采样权重下运行良好，并且没有经过培训来更新这些权重，那么体系结构本身就是编码解决方案的责任，而不是任何特定的权重配置。作者通过使用NEAT来寻找分类和强化学习问题的这种架构，NEAT是神经架构搜索的一种演化算法，能够在可能的节点连接和激活空间内搜索性能最佳的拓扑结构。作者发现他们能够不显式地训练权重构造架构在测试集上比随机方法更好。

Cody 的意见： 我理解本文的前提，并且总体上对那些深入了解现代神经网络性能可归因于（离散）结构体系结构与连续权重参数的特定设置有多少的论文持积极态度，我认为本文以聪明的方式通过基本上边缘化不同的权重值。该框架隐含地将没有进行权重训练的网络与具有先天能力的动物进行比较，确实让我想知道架构与权重类比进化与学习是否合理。因为虽然本文中权重没有明确地通过梯度下降进行训练，但网络仍然根据任务性能执行优化，只是一组离散参数而不是连续参数。在这种情况下，以一种我认为类比会暗示的方式来考虑所得到的架构“未经训练”似乎并不正确。我很想看到更多的这方面工作融合了元学习的想法，并试图找到在多个任务上表现良好的架构，而不仅仅是一个。

分层RL

强化学习中用于迁移的决策状态的无监督发现 （Nirbhay Modhe等）

杂项（AI）

可解释的人工智能，稀疏表示和信号：到目前为止，我们已经构建了人工智能系统，可以符号地 或以 分布式方式存储知识（神经网络为代表）。虽然分布式形式允许我们自动学习知识和规则，但理解和解释比符号的知识更难。这篇文章认为，主要区别在于 稀疏性 的习得知识。当然，随着更多“稀疏”的知识，我们应该更容易理解人工智能系统的内部工作，因为我们可以忽略修剪后的连接。然而，作者还认为，稀疏的知识将有助于“指导搜索可以说是”学习“而且”理性“的模型和智能体。考虑到AGI可能涉及为世界找到良好的表示（在无监督学习的意义上），那么稀疏学习可以被认为是为世界模型找到更好的基础的偏向，更有可能在概念上更清洁，更为符合奥卡姆剃刀。

在后记中，作者考虑了人工智能风险的论点。值得注意的是，没有考虑目标导向性或对齐失败; 担心的是我们将开始将超人类人工智能系统应用于超人任务，我们不知道如何处理这些情况。

Rohin的意见： 稀疏性似乎是一个很好的目标，以确保可解释性。我不太相信代表性学习是值得的：我怀疑人类有任何“稀疏学习”偏见; 我认为知识的稀疏性是必须了解一个非常小的大脑的非常复杂的世界的自然结果。（目前的ML系统只需了解更简单的环境。）

新闻

微软投资并与 OpenAI 合作，支持我们建立有益的 AGI （Greg Brockman）：在转向盈利性投资模式（AN＃52）之后，微软已经向 OpenAI 投资了 10 亿美元。这使得 OpenAI 可以继续专注于开发和共享有益的 AGI：他们可以通过微软许可他们的 AGI前技术，而无需创建产品来支付成本。

人工智能及其相关风险范式研究助理 （José Hernández-Orallo）：CSER 正在招聘一名博士后研究助理，通过研究现有和可能的规划来告知 AGI 安全议程; 截止日期是 8 月 26 日。

AGI Watchful Guardians

AN #61 人工智能策略与治理，来自该领域两位专家的分享

强调

技术AI对齐

技术议程和优先次序

防止不良行为

杂项（对齐）

人工智能战略和政策

AI的其他进展

探索

深度学习

分层RL

杂项（AI）

新闻

Leave a comment Cancel reply

AN #61 人工智能策略与治理，来自该领域两位专家的分享

强调

技术AI对齐

技术议程和优先次序

防止不良行为

杂项（对齐）

人工智能战略和政策

AI的其他进展

探索

深度学习

分层RL

杂项（AI）

新闻

共享此文章：

Leave a comment Cancel reply