机器学习理论之狂欢 COLT2020

机器学习理论之狂欢 COLT 2020 The 33rd Annual Conference on Learning Theory (COLT 2020) Country: Austria City: Graz 线上举办 Abstr. due: 31.01.2020 Dates: 09.07.20 — 12.07.20 Area Of Sciences: Pedagogy; Organizing comittee e-mail: TBA here: http://learningtheory.org/colt2020/. Organizers: Association for Computational Learning The 33rd Annual Conference on Learning Theory (COLT 2020) will take place in Graz, Austria online … Continue reading 机器学习理论之狂欢 COLT2020

AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验

中文版 对齐周报第 104 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 不可访问的信息 (Paul Christiano)(由 Rohin 总结):思考人工智能对齐问题的一种方法是,我们只知道如何在我们可访问的信息上训练模型,但是我们希望模型利用不可访问的信息。 如果可以直接检查信息,或者在接受其他一些可访问信息训练后,ML模型是否可以成功迁移以提供信息,则可以访问信息。(后者的一个例子是,如果我们训练了一个系统来预测一天中发生的事情,并且成功地将其转换为预测一个月中发生的事情。)否则,信息将无法访问:例如,“Alice 在想什么” (至少目前)无法访问,而“爱丽丝会说什么”则可以访问。该帖子还有其他几个示例。 请注意,虽然 ML 模型可能无法直接准确地说出 Alice 的想法,但是如果我们训练它预测 Alice 的想法,它可能会具有 Alice 的想法的内部模型,因为这对于预测 Alice 的想法很有用。但是,由于无法从模型中提取此信息,因此无法访问。尽管我们可以训练模型以输出“Alice 在想什么”,但由于我们没有基本的事实答案,因此必须训练“对 Alice 在想什么的一致且合理的答案”。这可能会激励制定出我们最相信的错误策略,而不是报道事实。 风险论据如下:我们关心无法访问的信息(例如,我们关心人们实际体验的内容,而不是人们所说的体验的内容),但不能轻易使人工智能系统对其进行优化。但是,人工智能系统将能够推断和使用无法访问的信息,并且胜过那些无法访问的信息。人工智能系统将能够针对至少某些目标使用此类不可访问的信息进行规划。然后,使用无法访问的信息进行规划的人工智能系统最终可以控制大多数资源。关键语录:“不利于我们的关键不对称因素是,要想使繁荣发展,似乎需要获取特定数量的物品,而危险则需要具备访问任何物品的能力。” 然后,该帖子继续列出该问题的一些可能的攻击角度。迭代扩增可以被认为是解决我们训练的智能体与我们自己之间的速度、规模、经验、算法复杂性等方面的差距,这可以限制我们的智能体所能获得的,我们无法获得的信息。但是,放大似乎最终会遇到一些永远不会产生的不可访问的信息。结果,这可能是对齐的“核心”。 Rohin 的观点:我认为不可访问的信息这一概念很重要,但是很难推理。例如,我经常考虑通过近似“一个人长时间思考后会说些什么”来解决对齐问题;这实际上是一种主张,即在长时间反复进行时,人类的推理能力会很好地传递,并且“人们会说些什么”至少在某种程度上是可访问的。无论如何,人工智能系统似乎有可能继承我认为归因于人类推理的可转让性相同的属性,在这种情况下,风险论点适用,主要是因为人工智能系统可能将其推理应用于与我们关注的目标不同的目标,这使我们回到意图的一致性(AN#33) 公式。 此回应将这篇文章视为反对黑匣子优化的相当笼统的论点,在该论点中,我们仅查看输入输出行为,因为那样我们就无法使用不可访问的信息。它建议我们需要了解AI系统的工作原理,而不是依靠搜索来避免这些问题。 冠状病毒大流行可能导致AI缓慢起飞的原因 (Victoria Krakovna)(由 Rohin 总结):COVID-19 大流行就是人类面临的巨大风险的一个例子。我们可以从人工智能对齐中学到什么经验?这篇文章认为,这种大流行是我们在缓慢起飞情况下可以预期的那种情况的一个例子,因为我们有机会从经验中学习,采取警告标志并及时就存在严重问题达成共识。但是,尽管我们可以从 SARS 等先前的流行病中学到东西,但我们未能概括 SARS 的教训。尽管在 2 月份出现了大流行的警告迹象,但许多国家还是浪费了一个月的时间,原本本该可以储存 PPE 和测试能力的库存。我们对 COVID-19 是一个问题没有达成共识,直到 3 月底,文章都认为它并不比流感更糟。 … Continue reading AN #104 无法访问的信息带来的危险,以及我们可以从 COVID 了解到的有关人工智能对齐的经验

AN #100 智能体在执行时学习奖励函数 可能会出问题

中文版 对齐周报第 100 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 在线学习奖励函数的陷阱 (Stuart Armstrong 等人)(由 Rohin 总结):学习要尝试优化的指标可能很危险:如果未正确设置,可能会激励智能体以在度量学习中“朝特定方向更新”,以便将来进行优化(先前在朝着交互式逆向强化学习中提出的观点)。本文分析了当智能体同时学习奖励函数时可能出现的问题,并对该奖励函数进行优化。 智能体可能有动机来“操纵”奖励学习过程,从而找到易于优化的奖励函数。例如,假设有一个学生 Sandra,她必须从 Trisha 老师那里弄清楚项目的截止日期和评估标准。Sandra 希望如果她问 Trisha 截止日期是什么时候,她会说截止日期是本周晚些时候。因此,Sandra 可能会巧妙地问:“该项目是下周还是再下周?”,Trisha 可能会在“下周”做出回应。这样,Sandra 可以操纵截止日期学习过程,以便获得更有利的截止日期。 更糟糕的是,在这种情况下,严格控制学习过程可能会破坏你正在考虑的每个奖励函数的值。例如,让我们假设,如果无法操纵 Trisha,那么 Sandra 的最佳策略将是立即开始该项目,而不管实际的截止日期是什么时候。但是,鉴于 Trisha 可以被操纵,Sandra 今天将花费其操纵 Trisha 设置一个较晚的截止日期 —— 从任何固定截止日期的角度来看,该行动显然都不理想。该论文将其描述为确定的奖励牺牲。 为避免这种情况,我们需要严格的学习过程,即始终期望的最终学习奖励(截止日期)独立于智能体(Sandra 的)策略。这种不可固定性(unriggability)几乎等同于不可影响性(uninfluencability),在该属性中,我们必须能够在环境中放置一些背景变量,以便可以说学习过程是在“学习”这些变量。从技术上讲,不可固定的过程虽然通常是必需的,但也不一定是不可影响的(有关详细信息,请参见论文)。 但是,这些属性仅约束对最终奖励分布环境的期望:它不会阻止智能体以某种方式改组奖励函数以与合适的环境匹配。例如,在不知道哪些项目是容易或困难的情况下,Sandra 可以操纵 Trisha 来为容易的项目提供早期截止日期,并为困难的项目给出较晚的截止日期,从而保留早期和晚期截止日期的分布方式。这将满足不可固定性(并且可能还会影响不可影响性,具体取决于确切的形式化)。 作者在一个简单的 gridworld 示例中演示了这些问题。他们还指出,有一种简单的方法可以使任何学习过程都不受影响:选择一个特定的策略π,该策略收集有关奖励的信息,然后将新的学习过程定义为“如果执行 π,则原始学习过程已经说的话”。 阅读更多: 博客文章:学习和运用学习 Rohin 的观点: 我对本文的观点与本文的解释方式有所不同。考虑一个人工智能系统,我们在其中构建对奖励和更新规则的先验,然后将其付诸实践。在轨迹的末端,根据推断的奖励后验下的轨迹的期望奖励来奖励它。然后,激励人工智能系统选择易于使所得后验最大化的动作。 这不需要奖励函数是模棱两可的。它只要求更新规则不完美。例如,假设 Alice 有着喜欢苹果甚于香蕉的偏好,并且你使用更新规则“如果 Alice … Continue reading AN #100 智能体在执行时学习奖励函数 可能会出问题

AN #106 评价学到的奖励模型的泛化能力

中文版 对齐周报第 106 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 量化奖励功能的差异 (Adam Gleave 等人)(由 Rohin 总结):当前的奖励学习工作通常通过训练策略以优化学到的奖励,并查看该策略根据真实奖励的执行情况来评估学习的奖励模型。但是,这仅测试奖励在你所测试的特定环境中的运行情况,而不能告诉你奖励将推广到何种程度。例如,假设用户喜欢杏子、李子,但是讨厌榴莲。具有杏子 > 榴莲 > 李子的奖励效果很好 —— 直到商店卖完杏子为止,在这种情况下,它会购买用户讨厌的榴莲。 因此,似乎我们应该直接评估奖励函数,而不是查看其最佳策略。本文提出了等价策略不变比对(EPIC),它可以比较两个奖励函数,而忽略任何不影响最优策略的潜在成形。 EPIC 通过状态和动作 DS 和 DA 的分布以及转换(s,a,s')上的分布 DT 进行参数化。第一步是找到要比较的两个奖励的规范版本,以使它们对 DS 和 DA 的期望奖励为零,并消除所有可能的成形。然后,我们查看这些奖励将分配给 DT 中的转换的奖励,并计算其 Pearson 相关性。将其规范化到 [0,1] 范围,得到 EPIC 距离。 作者证明 EPIC 是伪度量,也就是说,它的行为类似于距离函数,只是即使 R1 和 R2 不同,EPIC(R1, R2) 也可能为零。这是合乎需要的,因为如果 R1 和 R2 由于潜在的成形函数不同,则无论转换动态如何,都可以保证它们的最佳策略相同,因此我们应将它们之间的“距离”报告为零。 … Continue reading AN #106 评价学到的奖励模型的泛化能力

AN #105 人类的经济轨迹和优化可能的“真正”含义

中文版 对齐周报第 105 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 建模人类轨迹 (David Roodman)(由 Nicholas 总结):这篇文章分析了从公元前 10,000 年到现在的人类轨迹,并考虑了其对未来的影响。用于此的度量标准是世界生产总值(GWP),即一年中世界上生产的商品和服务的总和。 我们可以从这段很长的历史过程的世界生产总值中得出一些有趣的结论。首先,直到 1800 年,大多数人都生活在基本生活水平附近。这意味着全球升温潜能值的增长主要由人口增长驱动。从那时起,人口增长放缓,人均 GWP 增加,导致我们今天的生活质量大大提高。其次,指数函数根本无法很好地拟合数据。在指数函数中,GWP 翻倍的时间将是恒定的。取而代之的是,世界生产总值似乎快了一倍,这更符合幂律关系。但是,推断这种关系向前发展的结论是,经济增长非常快,随着 2047 年临近,世界生产总值接近无限。 接下来,Roodman 创建一个随机模型,以便不仅分析模态预测,还获得关于特定结果可能性的完整分布。通过仅对过去的数据进行拟合,他分析了全球升温潜能值每个时期的惊人程度。结果发现,工业革命及其后的时期超过了模型分布的 90%,这与令人惊讶的快速经济增长相对应。类似地,在过去 30 年中,增长异常反常,下降了 25 个百分点。这表明该模型的随机性不能适当地反映现实世界 —— 虽然一个好的模型肯定可以在一个时期内被高增长或低增长所“惊讶”,但可能不应该像在这里那样始终朝着同一方向感到惊讶。 除了凭经验查看数据外,他还提供了一个理论模型,说明如何通过归纳标准经济模型来实现这种加速增长。通常,经济模型假定技术是固定的投入或具有固定的增长率,并且不允许将生产再投资于技术改进。一旦将再投资纳入模型,经济增长率便会像历史数据一样加速。 Nicholas 的观点:我发现这篇论文非常有趣,并对结果感到惊讶。也就是说,我对应该从中得出什么结论感到困惑。幂律趋势似乎确实非常适合历史数据,但是过去的 70 年非常适合指数趋势。对于我来说,哪一个与预测未来有关(如果有的话)。 提出的理论模型对我来说更有意义。如果技术负责增长率,那么将生产再投资于技术将导致增长率更快。我很想知道有关将 GWP 的哪一部分重新投资于改进技术以及如何与其他趋势保持一致的数据。 Rohin 的观点:我喜欢这篇文章;它使我对带有噪声的双曲模型的外观有一种内在的感觉(有关此信息,请参阅博客文章,摘要未提到它)。总的来说,我认为我的收获是,尽管最初听起来很疯狂,但用于人工智能爆炸性增长风险的图片实际上是合理的。当然,它实际上并不会发散到无穷大 —— 我们最终将达到某种增长极限,即使是“指数”增长也是如此 —— 但是这个极限可能远远超过我们迄今为止所达到的极限。另请参阅此相关文章。 优化的基础 (Alex Flint)(由 Rohin 总结):关于人工智能风险的许多争论都取决于“优化”的概念,但是到目前为止,它还没有一个很好的定义。一种自然的方法是说,优化器根据一些合理的效用函数使世界具有更高的值,但这似乎不足,因为瓶盖将成为用于将水保持在瓶中的优化器(AN#22)。 这篇文章提供了优化的新定义,方法是从嵌入式代理(AN#31)中提取一页内容并分析整个系统,而不是将代理和环境分开。一个优化系统是从任何地方开始时在一些较大的一组配置(称为吸引盆)即使系统被扰动的一个趋向于朝向的一些专门配置(称为演进目标配置集)。 例如,在梯度下降中,我们从对参数 θ … Continue reading AN #105 人类的经济轨迹和优化可能的“真正”含义

Comments|Quantifying Differences in Reward Functions

本文工作的原始动因: 对很多任务,奖励函数太复杂以至于难以过程化指定,并且必须从用户数据中学到。以往工作已经通过检查从一个针对学到的奖励优化的策略产生的展开评价了奖励函数。 问题之所在: 这个方法不能区分学到的无法反应用户偏好奖励函数和无法优化学到的奖励的强化学习算法。而且,展开方法对用来评价学到奖励的环境细节极其敏感,这常常在部署环境中有差异。 解决思路: 引入了等价策略不变量比对(Equivalent-Policy Invariant Comparison,EPIC)距离来直接量化不同奖励函数的差距,而不需要训练一个策略。 结果总结: 证明了 EPIC 在一个总是规约到同样的最优策略的奖励函数的等价类上是不变的发现 EPIC 可以被准确地近似并且访问分布的选择比基线更为健壮发现学到的奖励函数到真实奖励 EPIC 距离对预测训练一个策略对成功有效,甚至在不同的转换动力系统中。 文章链接:https://arxiv.org/abs/2006.13900

Logician|Boris Trakhtenbrot

I read several articles about mathematical logic these days. Finally, I just found some work done by Boris. Record the intro here. Boris (Boaz) Avraamovich Trakhtenbrot (Russian: Борис Авраамович Трахтенброт; 19 February 1921 – 19 September 2016), or Boaz (Boris) Trakhtenbrot (Hebrew: בועז טרכטנברוט‎) was an Israeli and Russian mathematician in mathematical logic, algorithms, theory of computation, and cybernetics. Trakhtenbrot was born in Brichevo, northern Bessarabia.[1][2] He worked at Akademgorodok, Novosibirsk during … Continue reading Logician|Boris Trakhtenbrot

第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

对齐周报第 98 期 对齐周报是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 强调 LCA:用于神经网络训练的损失变化分配 (Janice Lan等人)(由 Robert 总结):本文介绍了损失变化分配(LCA)方法。该方法的目的是深入了解和理解深度神经网络的训练过程。该方法计算每次训练迭代中每个参数之间(在整个训练集上)总损失变化的分配,将其迭代优化,直到近似误差总体上小于 1%。损失变化分配可以是正数,也可以是负数;如果为负,则表示该参数在该迭代过程中对训练有帮助;如果为负,则该参数会损害训练。假定此测量是按参数和按迭代进行的,则可以将其汇总为按层 LCA,或对参数和训练迭代进行任何其他汇总。 作者使用该方法获得了对几种小型神经网络(在 MNIST 和 CIFAR-10 上进行训练)的训练过程的许多见解。 首先,他们验证学习非常嘈杂,平均每次迭代只有一半参数会有所帮助。该分布比正态分布重尾,并且相当对称。但是,参数倾向于在帮助和伤害之间交替,并且每个参数仅倾向于在大约 50% 的时间内帮助。 其次,他们查看了 LCA 汇总的每层,对整个训练过程进行了汇总,并显示出在 CIFAR ResNet模型中第一层和最后一层对总体造成了损害(即 LCA 为正)。为了纠正这种情况并理解原因,作者尝试冻结这些层,或降低其学习率。第一层无法固定(冻结使它的 LCA 为 0,但第二层的 LCA 依次增加,因此最终总损失保持不变)。但是,对于最后一层,冻结或降低学习率会提高网络的整体性能,因为最后一层的 LCA 减少的幅度大于其他所有层的 LCA 的增加幅度。他们还假设通过减少最后一层的动力,他们可以为它提供更新鲜的信息,并使其更有可能学习。他们发现这确实有效,尽管在这种设置下,先前各层的 LCA 会增加以补偿,从而使总体性能保持不变。 最后,作者表明学习似乎跨层同步;在相同的训练迭代中,各层以统计上有意义的方式获得本地 LCA 最小值。他们表明这必须是参数运动和梯度的组合,因为它们自己都不能解释这种现象。 Robert 的观点: 我真的很喜欢这篇论文。该方法简单(尽管计算量很大),并提供了新颖的见解。我认为了解深度学习训练的工作原理很重要,因为它可以帮助我们设计更好的训练过程,不仅是为了获得更好的表现,而且还希望我们希望训练过程能够激发出其他特性。我认为,通过这种方法,可以使它更有效率,然后将其应用于除视觉以外的其他领域的大型模型,因此还有很多工作要做。我也很想知道这是否可以用来了解训练集的哪些部分对训练有帮助和伤害;例如,查看在该训练迭代中,同步学习的点与迷你批处理中的数据点之间是否存在任何关联。注意:我推荐阅读此文(包含附录)来观察作者用来展示其论断的图和可视化,因为这比文字描述更加容易理解。 Rohin 的观点: 我也非常喜欢这篇论文,它具有关于神经网络如何工作的大量经验证据。我倾向于对结果进行一些不同的分析。特别是,假设在计算 LCA 时,我们进行了以下更改: 我们将损失用于训练批量数据而不是完整的训练集。我们没有改善近似误差(即,我们只是使用训练过程中计算出的梯度的点估计)。我们使用随机梯度下降(SGD)进行了训练(与 Adam 或 Momentum-SGD 相对)。 … Continue reading 第 98 期对齐周报 通过查看哪些梯度有用来了解神经网络训练

第 99 期对齐周报 算法效率的增倍时间

Alignment Newsletter 是每周出版的出版物,其最新内容与全球AI对准有关。在此处 找到所有Alignment Newsletter 资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 强调 人工智能和效率 (Danny Hernandez 等人)(由Flo总结):考虑到指数增长(AN#7)在用于机器学习的最新结果的计算中,人们可能会认为算法的进步很小。本文为反对该假设提供了有力的证据。通过跟踪实现特定性能基准所需的计算量,我们可以大致衡量算法的进度。这样做会使 ImageNet 的效率提高大约 16 个月(相当于相同性能只需要初始计算的一半的时间)的两倍(比摩尔定律更快)。诸如翻译以及下围棋和玩 Dota 2 之类的其他任务在短时间内显示出更快的翻倍时间。与提高解决已可行任务的效率相比,使任务首次可行可以说在算法上有更多进步,实际进度可能比这些数字所暗示的还要快。但是,数据点的数量非常有限,目前尚不清楚这些趋势是否会持续以及它们是否会推广到其他领域。仍然,作者推测对于获得大量投资并且在性能上获得实质性收益的任务,可以观察到类似的趋势。 将这些结果与随时间增加的可用计算相结合,作者估计,相对于2012年,可用于大型AI实验的有效训练计算资源在 2018 年增加了 750万倍(!)。 专注于效率而不是顶级性能,可让计算量有限的参与者做出贡献。此外,迅速达到特定基准的模型似乎是扩大规模的强大候选者。这样,更有效的算法可以充当进一步发展的催化剂。有一个公共git存储库,可以更好地跟踪算法效率。 > Flo的观点: 尽管以我确实不会将其标记为算法进步的方式(例如,通过使研究人员尝试更多不同的超参数),确实可以提高计算效率,但聚合总数似乎令人惊讶地高。这表明我要么没有正确地了解这些天AI能够解决哪些问题,要么低估了解决这些问题的难度。观察深度强化学习的样本效率是否有类似的改进将是非常有趣的,因为我希望在缺乏用于现实世界决策的精确模拟器的情况下,这将成为代理型人工智能应用的主要瓶颈。 技术性人工智能对齐 健壮性 BERT 真的很健壮吗?自然语言攻击文本分类和蕴含的强大基准 (Di Jin,Zhijing Jin 等)(由 Asya 总结):本文介绍了 TextFooler,这是一种仅通过黑盒访问模型即可为自然语言任务生成对抗性文本的算法。TextFooler 尝试生成与原始输入句子在语法和语义上相似但产生错误标签的句子。它通过识别原始句子中的一小部分最重要的单词,为这些单词生成候选同义词,然后通过测试哪些同义词导致模型错误预测或报告最低置信度得分,来逐步替换句子中的重要单词。 TextFooler 已在三种最新的 NLP 模型(WordCNN,WordLSTM 和 BERT)上进行了测试,所有模型都经过训练,其测试精度约为 80-90%。在各种文本分类数据集上,TextFooler 会将准确率降低到〜15%以下,只有不到 20% 的单词受到干扰。评估生成的句子的人说,它们在语法上与原始句子大致相同,在大约 90% 的情况下与原始句子具有相同的标签,并且与原始句子的相似度得分(以 0 到 1 表示)为 0.9。本文发现,通常,具有较高原始精度的模型具有较高的攻击后准确性。 作者使用 TextFooler 生成的数据从头开始重新训练 … Continue reading 第 99 期对齐周报 算法效率的增倍时间

近似KL散度

作者:John Schulman(OpenAI) 译者:Xiaohu Zhu(CSAGI) 原文链接:http://joschu.net/blog/kl-approx.html 本文讨论 KL 散度的 Monte-Carlo 近似: $latex \text{KL}[q,p] = \sum_{x}q(x)\log \frac{q(x)}{p(x)} = E_{x\sim q}[\log \frac{q(x)}{p(x)}]$ 这解释了之前使用了一个技巧,针对来自 $latex q$ 中的样本 $latex x$ 以 $latex \frac{1}{2}(\log p(x)-\log q(x))^2$ 样本平均来近似 $latex \text{KL}[q,p]$,而不是更加标准的 $latex \log \frac{q(x)}{p(x)}$. 本文谈谈为何该表达是一个 KL 散度的好的估计(尽管有偏 biased),以及如何让其变得无偏(unbiased)保证其低方差。 我们计算 KL 的选择取决于对 $latex p$ 和 $latex q$ 的访问方式。这里,我们假设能够对任意 $latex x$ 计算概率(或者概率密度)$latex p(x)$ 和 $latex … Continue reading 近似KL散度