在此处查找所有Alignment Newsletter资源。特别是,您可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 您可以通过回复此电子邮件将其发送给我。
音频版本 在这里 (可能还没有)。
强调
AI-GAs:AI生成算法,一种生成通用人工智能的替代范例 (Jeff Clune) (由 Yuxi Liu 和 Rohin 总结):历史上, 痛苦的教训 (AN#49)告诉我们是那种增加用于学习的算力的方法优于那些积累了大量知识的方法。目前对 AGI 的理念似乎是我们将提出一系列构建模块(例如卷积、变换器、信任区间、GAN、主动学习和课程表法),我们将以某种方式手动组合成一个复杂的强大的 AI 系统。不再需要这种手动方法,而是可以再次应用学习,提供 AI 生成算法或 AI-GA 的范例。
AI-GA 有三大支柱。第一个是 学习架构:这类似于超级动力神经架构搜索,可以在没有任何硬编码的情况下发现卷积、循环和注意力机制。第二是 学习学习算法,即元学习。第三个也是研究得最不充分的支柱是学会 创造复杂多样的环境 来训练我们的智能体。这是元学习的自然延伸:通过元学习,您必须指定智能体应该执行的任务分发; 简单地说 AI-GA 是要学习这种分发。 POET (AN#41)是该领域最近工作的一个例子。
我对 AI-GA 范式持乐观态度的一个强烈理由是它模仿人类产生的方式:自然选择是一种非常简单的算法,具有 大量 计算和非常复杂多样的环境能够产生通用智能:人类。由于它需要更少的构建块(因为它旨在学习所有东西),它可以比手动方法更快地成功,至少如果所需的计算量不是太高。它也比“手动”方法更容易被忽视。
但是,这里存在安全问题。任何来自 AI-GA 的强人工智能都将难以理解,因为它是通过这种大量计算产生的,所有东西都是习得的,因此很难获得符合我们价值观的 AI。此外,通过这样一个过程,强大的人工智能系统似乎更有可能“让我们感到惊讶” —— 在某些时候及其罕见的情况出现,然后巨大算力得到一个好的随机选择,突然它一下输出一个非常强大和采样高效的学习算法(又称 AGI,至少也需通过一些定义)。还有道德问题,因为我们最终会模仿进化,我们可能会意外地实例化大量可能受到影响的模拟生物(特别是如果环境具有竞争性,就会如同进化的情形那样)。
Rohin 的观点:特别是考虑到算力的 增长 (AN#7),这个议程似乎是追求获得 AGI 的自然选择。不幸的是,它也非常密切地反映了Mesa 优化现象 (AN#58),唯一的区别 在于该方法旨在产生强大的内部优化器。正如该论文所承认的,这引入了一些风险,因此需要与人工智能安全研究人员深入接触(但遗憾的是,它没有提出如何降低风险的想法)。
由于数据需求庞大,大多数环境都必须进行模拟。我怀疑这会使议程比初看起来更难 —— 我认为现实世界的复杂性非常重要,模拟达到适当复杂程度的环境将是一项非常艰巨的任务。(我的直觉是像神经MMO (AN#48)这样的东西还远不够复杂。)
技术AI对齐
问题
“承诺竞赛”问题 (Daniel Kokotajlo) (由 Rohin 总结):当两个智能体处于竞争性游戏中时,通常每个智能体的优势在于能够在另一个智能体之前快速做出可靠的承诺。例如,在“鸡”这个游戏(两个玩家直接驾驶汽车朝向另一个,第一个转向偏离失败的方式),智能体可以撕掉他们的方向盘,从而可靠地承诺直接驾驶。这样做的第一个智能体可能会赢得比赛。因此,智能体有动机在竞争对手自己做出承诺之前尽快做出承诺。这与谨慎考虑承诺的动机相冲突,并可能导致任意不良后果。
迭代扩增
对机械性理解 可接受性(Evan Hubinger) (由 Rohin 总结):对齐 AI 的一种通用方法是训练 和验证 AI系统对所有输入的可接受性。然而,我们不能通过简单地尝试所有输入来做到这一点,因此对于验证,我们需要具有可接受性标准,该标准是计算的“结构”的函数,而不仅仅是输入-输出行为。这篇文章研究了如果可接受性标准对于通过扩增训练的 AI 具有一定的可接受性,可能会出现什么样的情况。
智能体基础理论
巨魔桥 (Abram Demski) (由Rohin总结):这是对决策理论中巨魔桥问题的特别清晰的阐述。在这个问题中,一个智能体正在决定是否越过由巨魔守卫的桥梁,如果其推理不一致将会炸毁智能体。事实证明,具有一致推理的智能体可以证明如果它穿过,它将被检测为不一致和被炸毁,因此它决定不交叉。这是关于反事实的相当奇怪的推理 —— 我们可能期望智能体不确定其推理是否一致。
两种意义上的“优化器” (Joar Skalse)(由 Rohin 总结):第一种“优化器”是一种优化算法,给定一些正式指定的问题计算该问题的解决方案,例如 SAT 求解器或线性程序求解器。第二种感觉是一种根据其环境来改变它的算法。Joar 认为,人们经常将这两者纳入 AI 安全性。
Rohin 的观点: 我同意这是一个值得记住的重要区别。在我看来,区别在于优化器是否具有环境知识:在第一种优化器的规范示例中,它并没有。如果我们以某种方式将世界的动态编码为 SAT 公式,并要求超级强大的 SAT 求解器来解决实现某个目标的动作,那么它看起来就像是第二种优化器。
对抗性的例子
测试对不可预见的对手的健壮性 (Daniel Kang等) (由 Cody 总结):本文证明,对一种类型或一族对抗性扭曲的对抗性训练无法提供针对不同类型的可能扭曲的一般健壮性。特别是,他们表明针对 Lp 范数球失真的对抗训练相当好地转移到其他 Lp 规范球攻击,但提供的价值很小,实际上可以降低健壮性,当评估其他攻击的类型时,例如对抗选择的 Gabor 噪声,“雪”噪音,或 JPEG 压缩。除了提出超出典型 Lp 范数球的这些新的扰动类型之外,本文还提供了一个“校准表”,其 epsilon 大小被判断为在攻击类型之间具有可比性,通过根据它们在防御或不设防模型上降低精确度的程度来评估它们。(因为攻击在方法上是如此不同,epsilon 的给定数值将不会对应于跨方法的相同“攻击强度”)
Cody 的观点:鉴于过去攻击和防御之间存在的混淆模式表明防御往往在其范围内受到限制,并且没有赋予一般的健壮性,我个人并不觉得这篇论文非常令人惊讶。也就是说,我理解作者如何集中将这种缺乏转移作为一个问题,以及他们为产生新的攻击类型和校准它们所付出的努力,以便将它们与现有的 Lp 范数球进行有意义的比较。
Rohin的观点:我认为这篇文章呼吁对抗性的例子研究人员停止关注 Lp 范数球,这与 其中一个回复 (AN#62)到最后一个时事通讯的重点, 对抗性例子不是错误,它们是特征 (AN#62)。
阅读更多: 测试对不可预见的敌人的健壮性
稳健性
正则化方法的健壮性和不确定性的实证评价(Sanghyuk Chun 等)(Dan H 总结):有一些小技巧可以改善分类性能,如标签平滑,类似丢失正则化,混合等。然而,本文表明,这些技术中的许多技术对健壮性和不确定性估计的各种概念具有混合且往往是负面影响。
批评(对齐)
与Ernie Davis(Robert Long 和 Ernie Davis)的对话
杂项(对齐)
距离函数很难 (Grue_Slinky) (由Rohin总结):AI 对齐中的许多想法需要某种距离函数。例如,在 功能决策理论中,我们想知道两个算法是如何“相似”的(它们可以影响我们是否认为我们对它们具有“逻辑控制”)。这篇文章认为定义这样的距离函数很难,因为它们依赖于不容易形式化的人类概念,而直观的数学形式化通常也有一些缺陷。
Rohin的观点: 我当然同意 定义 “概念”距离函数很难。它有类似的问题说“写下捕捉人类价值的效用函数” —— 这在理论上是可能的,但在实践中我们不会考虑所有边缘情况。但是,似乎可以学习距离函数而不是定义它们; 这已经在感知和状态估计中完成。
AI Alignment Podcast:意识,质量和意义 (Lucas Perry,Mike Johnson和Andrés Gómez Emilsson)
人工智能战略和政策
软起飞仍然可以带来决定性的战略优势 (Daniel Kokotajlo) (由 Rohin 总结):由于这篇文章很快会有改进版本,我将在那里总结一下。
FLI播客:超越军备竞赛叙事:AI和中国 (Ariel Conn,Helen Toner和Elsa Kania)
减少合成媒体研究的恶意使用:机器学习的注意事项和潜在发布实践 (Aviv Ovadya等)
AI的其他进展
强化学习
深度策略梯度算法是否真的是策略梯度算法? (Andrew Ilyas等人) (由 Cody 总结)(H / T Lawrence Chan):本文研究了共同策略梯度算法所述的概念理由是否以及在多大程度上实际上是推动其成功的因素。本文有两个主要的实证研究。
首先,他们研究了策略梯度方法中一些更为严格理论化的方面:学习价值函数作为优势计算的基线,智能体奖励和“信任区域”的执行,其中旧策略和更新策略之间的 KL 差异是某种程度上来说有界的。对于价值函数和智能体奖励,作者发现这两种近似值都很弱,并且相对于真值函数和奖励格局分别表现不佳。
基本上,事实证明,通过在这种情况下近似,我们失去了很多。当涉及到强制执行信任区间时,他们表明 TRPO 能够强制执行平均 KL 的界限,但它比最大 KL 上的(在理论上更合理的)界限更宽松,这将是理想的但很难计算。PPO 甚至更奇怪:他们发现它强制执行平均 KL 绑定,但只有当规范实现中存在优化但不存在算法的核心定义时才会存在。这些优化包括:自定义权重初始化方案,对 Adam 的学习率退火,以及根据滚动总和归一化的奖励值。除了显然是 PPO 如何维护其信任区间的核心之外,所有这些优化都有助于在基本算法上实现非平凡的性能提升。
Cody的观点:本文似乎会让 RL 研究人员感到有些不舒服,指出我们的实现的复杂性意味着只有一个关于算法性能的理论故事和对提高性能的经验验证实际上不足以确认理论实际上是推动性能的因素。我认为作者在某些方面有点过于批评:我认为在 RL 工作的任何人都不会期望学习值函数是完美的,或者渐变更新是没有噪声的。但是,这是一个很好的提醒,说“值函数作为基线减少方差”这样的事情应该建立在对它们有多好的实证检验的基础上。而不是就是理论上论断。
学习使用概率任务嵌入学习 (Kate Rakelly,Aurick Zhou等) (由 Cody 总结):本文提出了一种解决非策略元强化学习的方法,这是一个吸引人的问题,因为策略上的 RL 是如此样本密集型,并且 meta-RL 甚至更糟,因为它需要解决 RL 问题的分布。作者的方法将问题分为两个子问题:推断给定上下文的当前任务的嵌入 z 并学习以该任务嵌入为条件的最优策略 Q 函数。在每个任务开始时,z 从(高斯)先验中采样,并且当智能体获得该特定任务的更多样本时,它会更新其后面的 z,这可以被认为是改进其猜测它是哪个任务这个时候已经掉线了。这里的诀窍是,这个问题的细分允许它主要是在免策略的,因为你只需要对任务推理组件使用 on-policy 学习(预测给定的当前任务转换),并且可以学习使用 off-policy 数据以 z 为条件的 Actor-Critic 模型。该方法通过在这两种学习模式之间交替来工作。
科迪的意见: 我很喜欢这个; 这是一篇写得很好的论文,它使用了一些核心有趣的想法(在任务分布上进行后验抽样,将任务分布表示为传入条件 Q 函数的嵌入向量的分布),并构建它们以制作实现的方法一些令人印象深刻的实证结果。
阅读更多: 通过概率上下文变量实现高效的免策略元RL
Leave a Reply