Compositional game theory reading list

Jules Hedges

The best starting point, for a reader who knows a little about both game theory and category theory, is the paper Compositional game theory.

Additional background and motivation is provided by the blog post A first look at open games and the preprint Compositionality and string diagrams for game theory.

By far the most complete exposition is my PhD thesis Towards compositional game theory. It is fully self-contained for readers who know category theory but not game theory.

If you don’t have background in category theory, my current recommendation is Seven sketches in compositionality by Brendan Fong and David Spivak.

View original post

本体论冲突与欧洲人民的故事

走向政治本体论的对话 本体论冲突(涉及关于“存在什么”的不同假设的冲突)正在获得前所未有的可见度,因为现代本体论假设的支配权(hegemony)正在经历一场危机。这种危机为政治本体论提供了背景和理由,这是一个从本土研究(indigenous studies)、科学技术研究(STS)、后人类主义(posthumanism)和政治生态学(political ecology)的融合中出现的“项目”,将本体论冲突作为一个政治概念(一个词,politicoconceptual) 问题。为什么?首先,因为为了将本体论冲突视为一种可能性,人们必须质疑社会科学中一些最根深蒂固的假设,例如,我们都是现代人的假设,以及存在的文化观点之间存在差异的假设。一个单一的现实“在那里”。这排除了多个本体的可能性以及什么是正确的本体冲突(即不同现实之间的冲突)。第二,因为本体论 冲突带来了挑战,即如何在不重复(reiterating)和重新制定(reenacting)描述“外面”现实的本体论假设的情况下解释它们。为了解决这个政治概念(politicoconceptual)问题,本文讨论了包罗万象的现代性及其影响的概念,展示了政治本体项目,并提供了一个关于该项目有意义的当前时刻的故事。 Ontological Conflicts and the Stories of Peoples in Spite of Europe - Toward a Conversation on Political Ontology

读论文:本体危机

Good in a crisis: the ontological institutionalism of social constructivism Colin Hay Sciences Po, Paris, France 摘要 本文试图恢复和建立独特的(和明显的)制度主义社会本体论,它支持作为政治经济分析方法的社会建构主义。它将社会建构主义视为一种深刻的规范性政治探究模式,旨在辨别、询问和阐明社会、政治和经济变革的偶然性——将政治(广义上的)恢复到通常被视为不可避免、必要和不可谈判的过程和实践。或许更具争议性的是,在伯格[Berger]、勒克曼[Luckmann]和塞尔[Searle]之后,它也将社会建构主义视为本体论的制度主义。有人认为,社会建构主义起源于试图将制度的本体论独特性确立为“社会”(不同于自然或“野蛮”)事实的尝试。这导致它对行为者与他们发现自己的环境(自然和社会)之间的关系有一个独特的理解 以及它对这种关系的观念中介的特征强调。这反过来又导致了它对政治经济现实的一种特殊类型的分析购买,反映在它对解释的模糊性、政治和经济命令的社会建构以及对不平衡的独特强调上。通过阐明这种社会建构主义对分析我们现在承认自己正在经历的危机时期的影响,这一论点得到了进一步的说明和发展。 Keywords: institutionalist, social ontology, social constructivism, political economic analysis, political inquiry, discern, interrogate, elucidate, contingency, social, political, economic change https://www.tandfonline.com/doi/full/10.1080/13563467.2016.1158800 建构主义,正如 Checkel ( 2004 : 229) 所指出的,是“时髦的”——今天它的时髦程度丝毫不亚于十多年前这些词首次发表时。而且,也许部分是因为,它仍然充满争议,而且从他们的回应语气来看,它的批评者非常沮丧(有关这种明显愤怒的最新例子,例如,Bell 2011、2012、Marsh 2009)。这不应该让我们感到惊讶。因为建构主义以某种深刻的方式挑战了传统的方法,但与此同时,它也出了名的狡猾且难以准确确定。它对不同的作者意味着不同的东西(有时,似乎对同一作者,甚至在单个贡献的页面中),它涵盖了许多不同的(有时看似不相称的)立场,甚至在被认为是它的定义文本,往往缺乏一套明确陈述的核心主张。它也被它的拥护者、崇拜者和反对者都视为一种规范理论、一种本体论、一种认识论和(如果更少的话)一种方法论。 在接下来的内容中,我的目标是试图为这种混乱注入一些清晰度。然而,这项任务雄心勃勃且充满危险。建构主义很难准确地说明,因为最终它确实对不同的人有不同的含义——而且,为了使问题更加复杂,这些含义的内容本身随着时间的推移而发生了变化。无法逃避这一点;它也没有任何本质上的错误——事情就是这样。因此,不可避免地,一些自称为建构主义者的人会比其他人更密切地理解我在此提供的建构主义说明。这也许使得解释我如何以尽可能清晰和富有同情心的方式澄清和阐明我在此概述并最终寻求捍卫的建构主义立场的任务变得很重要。 作为本体论的建构主义 所采用的方法很简单:我认为,成为一名社会建构主义者就是强调(理想情况下,系统地反映)社会建构的过程。因此,社会建构主义的起源和定义分析特征原则上应该可以追溯到社会建构的本体论,并且可以从其内部识别,它的名字至少表明它表面上是基于该本体论的。 因此,我从 Berger 和 Luckmann 对这种本体论的经典陈述《现实的社会建构》( The Social Construction of … Continue reading 读论文:本体危机

因果影响图的进展

作者:Tom Everitt、Ryan Carey、Lewis Hammond、James Fox、Eric Langlois 和 Shane Legg  译者:Xiaohu Zhu 大约2年前,我们发布了最初 几篇 论文上使用因果影响图来理解智能体的激励机制。这篇博文将总结自那时以来取得的进展。 什么是因果影响图? 人工智能对齐领域内的一个关键问题是理解智能体的激励机制。有人担心智能体可能会被激励去避免纠正、操纵用户或不当影响他们的学习。这尤其令人担忧,因为训练模式通常以微妙和令人惊讶的方式塑造激励措施。出于这些原因,我们正在开发基于因果影响图 (CID) 的形式化激励理论。 下面是一个用于一步马尔可夫决策过程 (MDP) 的 CID 示例。随机变量 S₁ 表示时间 1 的状态,A₁ 表示智能体的动作,S₂ 表示时间 2 的状态,R₂ 表示智能体的奖励。 动作 A₁ 用决策节点(方形)建模,奖励 R₂ 用效用节点(菱形)建模,而状态是正常机会节点(圆形边缘)。因果联系表明 S₁ 和 A₁ 影响 S₂,而 S₂ 决定 R₂。信息链接 S₁ → A₁ 指定智能体在选择其动作 A₁ 时知道初始状态 S₁。 一般来说,可以选择随机变量来表示智能体决策点、目标和环境的其他相关方面。 简而言之,CID 指定: 智能体决策智能体目标环境中的因果关系智能体信息约束 在试图找出智能体的激励时,这些信息通常是必不可少的:如何实现目标取决于它与环境中其他(可影响的)方面的因果关系,智能体的优化受其拥有访问权限的信息的约束。在许多情况下,由(非参数化)CID … Continue reading 因果影响图的进展

为什么降低训练神经网络的成本仍然是一个挑战

本文是我们对AI研究论文的评论的一部分,  AI研究论文是一系列探讨人工智能最新发现的文章。 近年来,深度学习已被证明是解决许多人工智能难题的有效解决方案。但是深度学习也变得越来越昂贵。运行深度神经网络需要大量的计算资源,甚至需要更多的训练。 深度学习的成本给人工智能界带来了一些挑战,包括大量的碳足迹和AI研究的商业化。随着人们对云服务器和“边缘设备”上的AI功能的需求不断增加,对具有成本效益的神经网络的需求也在不断增长。 尽管AI研究人员在降低运行深度学习模型的成本方面取得了进步,但降低深度神经网络训练成本的更大问题仍未解决。 麻省理工学院计算机科学与人工智能实验室(MIT CSAIL),多伦多大学矢量研究所和Element AI的AI研究人员最近的工作探索了该领域的进展。在题为“在初始化时修剪神经网络:为什么我们会遗漏标记”的论文中,研究人员讨论了为什么当前最先进的方法无法在不对其性能产生重大影响的情况下降低神经网络训练的成本。他们还提出了未来研究的方向。 训练后修剪深度神经网络 最近的十年表明,一般而言,大型神经网络可提供更好的结果。但是大型的深度学习模型要付出巨大的代价。例如,要训练具有1,750亿个参数的OpenAI的GPT-3,您将需要访问具有非常强大的图形卡的大型服务器群集,成本可能高达数百万美元。此外,您需要数百GB的VRAM和强大的服务器来运行该模型。 有大量的工作证明神经网络可以被“修剪”。这意味着在给定非常大的神经网络的情况下,存在一个较小的子集,可以提供与原始AI模型相同的准确性,而不会对其性能造成重大损失。例如,今年早些时候,一对AI研究人员表明,尽管大型的深度学习模型可以学习预测约翰·康威(John Conway)的《生命游戏》中的未来步骤,但几乎总是存在一个较小的神经网络,可以训练该神经网络执行相同的操作精确完成任务。 培训后修剪已取得很大进展。在深度学习模型遍历整个训练过程之后,您可以放弃许多参数,有时将其缩小到原始大小的10%。您可以根据参数的权重对网络最终值的影响来对参数进行评分,以实现此目的。 许多科技公司已经在使用这种方法来压缩其AI模型,并将其安装在智能手机,笔记本电脑和智能家居设备上。除了大幅降低推理成本外,这还提供了许多好处,例如,无需将用户数据发送到云服务器并提供实时推理。在许多领域,小型神经网络使得在由太阳能电池或纽扣电池供电的设备上进行深度学习成为可能。 尽早修剪神经网络 图片来源:Depositphotos 训练后修剪神经网络的问题在于,它不会削减调整所有多余参数的成本。即使您可以将经过训练的神经网络压缩到原始大小的一小部分,您仍然需要支付训练它的全部费用。 问题是,您是否可以在不训练整个神经网络的情况下找到最佳子网? 麻省理工学院CSAIL的两位AI研究人员,该论文的合著者Jonathan Frankle和Michael Carbin于2018年发表了一篇题为“彩票假说”的论文,该论文证明了在许多深度学习模型中,存在着一些小的子集可以训练到完全准确。https://www.youtube.com/embed/s7DqRZVvRiQ?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=en-US&autohide=2&wmode=transparent 找到这些子网可以大大减少训练深度学习模型的时间和成本。彩票假说的发布引发了对在初始化或训练初期修剪神经网络的方法的研究。 AI研究人员在他们的新论文中研究了一些更广为人知的早期修剪方法:单次网络修剪(SNIP),在ICLR 2019上展示; 在ICLR 2020上展示的梯度信号保存(GraSP)和迭代突触流修剪(SynFlow)。 SNIP的目标是减少对损失最不重要的砝码。GraSP旨在修剪对梯度流有害或影响最小的砝码。作者写道:“ SynFlow反复修剪权重,目的是避免层崩溃,因为修剪会集中在网络的某些层上,过早地降低性能。” 早期神经网络修剪如何执行? 几种新技术可以在初始化阶段修剪深度神经网络。尽管它们的性能优于随机修剪,但仍未达到pos训练基准。 AI研究人员在他们的工作中将早期修剪方法的性能与两个基准进行了比较:训练后的幅度修剪和彩票倒带(LTR)。幅度修剪是在对神经网络进行充分训练后删除多余参数的标准方法。彩票倒带使用Frankle和Carbin在其早期工作中开发的技术来对最佳子网进行重新训练。如前所述,这些方法证明存在次优网络,但是只有在训练了整个网络之后,它们才存在。这些训练前的修剪方法应该在训练神经网络之前的初始化阶段找到最小的网络。 研究人员还将早期修剪方法与两种简单技术进行了比较。其中之一从神经网络中随机删除权重。检查随机性能对于验证一种方法是否提供了重要的结果很重要。AI研究人员写道:“随机修剪是一种早期修剪的天真方法,其任何新提议都应超越其性能。” 另一种方法是根据参数的绝对权重删除参数。作者写道:“幅度修剪是修剪的一种标准方法,并且是早期修剪的另一个比较幼稚的比较点,”作者写道。 实验是在VGG-16和ResNet的三个变体(两个流行的卷积神经网络(CNN))上进行的。 在AI研究人员评估的早期修剪技术中,没有哪一种早期方法能脱颖而出,并且性能会因所选择的神经网络结构和修剪百分比而异。但是他们的发现表明,在大多数情况下,这些最新方法比粗随机修剪要好得多。 但是,这些方法都无法达到基准训练后修剪的准确性。 总体而言,这些方法取得了一些进展,通常胜于随机修剪。但是,就整体准确性和可以达到完全准确性的稀疏性而言,训练后的进展仍然远远没有达到修剪水平。”作者写道。 研究早期修剪方法 对早期修剪方法的测试表明,它们对随机改组和重新初始化具有强大的抵抗力,这表明它们在目标神经网络中找不到适合修剪的特定权重。 为了测试修剪方法为何表现不佳,AI研究人员进行了几次测试。首先,他们测试了“随机改组”。对于每种方法,他们随机切换从神经网络的每一层中删除的参数,以查看它是否对性能产生影响。如果如修剪方法所建议的那样,它们根据其相关性和影响来删除参数,那么随机切换将严重降低性能。 令人惊讶的是,研究人员发现随机改组对结果没有严重影响。相反,真正决定结果的是它们从每一层去除的权重的数量。 “所有方法在随机洗牌时都可以保持准确性或得到改善。换句话说,这些技术所提取的有用信息不是去除单个权重,而是修剪网络的分层比例,”作者写道,并补充说,尽管分层修剪比例很重要,但并不重要。足够。证明是,训练后的修剪方法可以通过选择特定权重并随机更改它们来达到完全准确性,从而导致修剪后的网络的准确性突然下降。 接下来,研究人员检查了重新初始化网络是否会改变修剪方法的性能。在训练之前,将使用所选分布中的随机值初始化神经网络中的所有参数。以前的工作,包括Frankle和Carbin所做的工作,以及本文前面提到的“生命游戏”研究,都表明这些初始值通常会对培训的最终结果产生重大影响。实际上,术语“彩票”是基于以下事实而创造的:幸运的初始值可以使小型神经网络在训练中达到高精度。 因此,应根据参数值选择参数,并且如果更改其初始值,则将严重影响修剪网络的性能。再次,测试没有显示出重大变化。 “所有早期修剪技术都对重新初始化具有鲁棒性:无论是使用原始初始化还是使用新采样的初始化来训练网络,准确性都是相同的。与 “随机改组,这种对初始化的不敏感可能反映了这些方法用于修剪的信息的局限性,从而限制了性能。” AI研究人员写道。 最后,他们尝试反转修剪后的重量。这意味着对于每种方法,他们都将砝码标记为可移动,而去掉了应该保留的砝码。最终测试将检查用于选择修剪权重的计分方法的效率。SNIP和SynFlow这两种方法对反演显示出极大的敏感性,而其准确性却下降了,这是一件好事。但是,在减去修剪后的权重后,GraSP的性能并没有降低,在某些情况下,它甚至表现更好。 这些测试的关键之处在于,当前的早期修剪方法无法检测到在深度学习模型中定义最佳子网的特定连接。 研究的未来方向 另一个解决方案是在早期训练中执行修剪,而不是进行初始化。在这种情况下,神经网络在被修剪之前会针对特定时期进行训练。这样做的好处是,您可以修剪部分收敛的网络,而不必在随机权重之间进行选择。AI研究人员进行的测试表明,大多数修剪方法的性能会随着目标网络经过更多的训练迭代而提高,但仍低于基准基准。 在早期培训中进行修剪的权衡是,即使成本远低于完整培训,您也必须在这些初始纪元上花费资源,并且您必须权衡并在绩效提升与培训之间做出适当的权衡费用。 AI研究人员在他们的论文中提出了修剪神经网络研究的未来目标。一个方向是改进现有方法或研究新方法,这些方法可以找到特定的权重来修剪,而不是在神经网络层中按比例进行修剪。第二个领域是寻找更好的早期修剪修剪方法。最后,幅度和梯度可能不是早期修剪的最佳信号。“我们应该在早期训练中使用不同的信号吗?我们应该期望在训练初期起作用的信号在训练后期起作用(反之亦然)吗?” 作者写道。 本文中的某些主张遭到了修剪方法的创建者的质疑。Namhoon Lee表示:“虽然我们对我们的工作(SNIP)吸引了很多兴趣并感到非常兴奋,并在Jonathan等人的建议论文中得到了解决,但我们发现论文中的某些说法有些麻烦,” Namhoon Lee牛津大学的AI研究人员,SNIP论文的合著者之一,告诉TechTalks。 … Continue reading 为什么降低训练神经网络的成本仍然是一个挑战

AN #108 为何需要仔细检查人工智能风险的争论

中文版 对齐周报第 108 期 对齐周报是每周出版物,其最新内容与全球人工智能对齐有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 Ben Garfinkel 对人工智能风险的经典争论的仔细检查(Howie Lempel 和 Ben Garfinkel)(由 Asya 总结):在本播客中,Ben Garfinkel 考察了他对人工智能风险经典的争论持怀疑态度的几个原因(先前在此处进行了讨论(AN#45)) )。播客比此摘要具有更多的细节和细微差别。 Ben 认为,从历史上看,很难以一种可以预见的长期方式对变革性技术产生影响 —— 例如,很难看到我们可以在农业或工业化发展方面做些什么会影响到今天的世界。他认为,可以通过解决日益增加的政治动荡或锁定的可能性来获得长期影响的一些潜在途径,尽管他认为目前尚不清楚我们可以采取什么措施来影响锁定的结果,尤其是在遥远的情况下。 在对齐方面,Ben 聚焦于 Nick Bostrom 的《超级智能》(Superintelligence)中概述的标准论证集,因为它们具有广泛的影响力,而且充实。Ben 对这些论点有一些异议: 他认为不会突然跳升至功能极为强大和危险的人工智能系统,并且认为如果能力逐渐提高,我们将有更大的机会纠正出现的问题。 他认为,使人工智能系统具有能力和使人工智能系统具有正确的目标很可能并存。 他认为,仅仅因为有很多方法可以创建具有破坏性的系统,并不意味着创建该系统的工程过程很可能会被那些破坏性的系统所吸引;似乎我们不太可能偶然创建足以破坏人类的破坏性系统。 Ben 还花了一些时间讨论Mesa 优化(AN#58),这是关于人工智能风险的新论点。他在很大程度上认为,mesa 优化的理由尚未充分充实。他还认为,学习不正确的目标可能是由于系统不够复杂而无法正确表示目标的结果。经过足够的训练,我们实际上可能会收敛到我们想要的系统。 鉴于当前的争论状态,Ben 认为值得 EA 充实有关人工智能风险的新争论,但也认为在人工智能相关主题上没有相对优势的 EAer 不一定要转向人工智能。Ben 认为,我们在人工智能安全和治理上花费的资金比 Alec Baldwin 主演的 2017 年电影《老板宝贝》(Boss Baby)投入更少是一种道德上的愤怒。 Asya 的观点:该播客涵盖了现有论点的令人印象深刻的广度。许多推理类似于我从其他研究人员那里听到的(AN#94)。我非常高兴 Ben 和其他人花时间批评这些论点。除了向我们展示我们错在哪里,它还帮助我们引导到更合理的人工智能风险场景。 … Continue reading AN #108 为何需要仔细检查人工智能风险的争论

AN #107 目标导向的智能体的收敛工具性子目标

中文版 对齐周报第 107 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 基本的人工智能驱动力 (Stephen M. Omohundro)(由 Rohin 总结):2008 年的论文介绍了收敛的工具性子目标:除非谨慎避免,否则人工智能系统将“默认”具有这些子目标。对于本文而言,人工智能系统是“具有通过在世界范围内行动而试图实现的目标”的系统,即,它假定系统是目标导向的(AN#35)。 首先要论证一个足够强大的目标导向的人工智能系统将要自我提升,因为这可以帮助它在(可能很长的)未来更好地实现其目标。特别是,从效用函数由其目标决定的角度出发,它将希望最大化其期望效用,这将使其成为“理性的” 。(这样做的理由是 VNM 定理,以及支持贝叶斯主义和期望效用最大化的各种荷兰赌(Dutch book)论点。) 但是,并非所有修改都对人工智能系统有利。特别是,它将非常希望保留其实用效用函数,因为它决定了将来它将(尝试)完成的工作,并且从当前实用效用函数的角度来看,实用效用函数的任何更改将是一场灾难。同样,它将希望保护自己免受伤害,也就是说,它具有生存动机,因为如果死了就无法实现其目标。 最终的工具性子目标是获取资源并有效地使用资源以实现其目标,因为按照定义,资源几乎可用于多种目标,包括(可能是)人工智能系统的目标。 Rohin 的观点:在本期周报中,我经常提到收敛的工具性子目标,因此似乎我应该对其进行总结。我特别喜欢这篇论文,因为它在 12 年后保存得很好。即使我批评(AN#44)认为强大的人工智能系统必须是期望效用最大化器的想法,但我仍然发现自己同意本文,因为它假设了目标导向的智能体和那里的原因,而不是试图争论强大的人工智能系统必须以目标为导向。鉴于此假设,我同意此处得出的结论。 技术性人工智能对齐 MESA 优化 内部安全性,外部安全性以及构建安全高级人工智能的建议 (Lucas Perry 和 Evan Hubinger)(由 Rohin 总结):该播客涵盖了很多主题,特别关注高级机器学习系统中学习到的优化带来的风险(AN# 58),以及有关构建安全高级人工智能的11条建议的概述(AN#102)。 Rohin 的观点:我的摘要很详细,因为在本周报中之前已经强调了许多主题,但是如果你不熟悉它们,那么播客是学习它们的重要资源。 学习人类意图 利用本体感受从视频中模仿学习(Faraz Torabi 等人)(由 Zach 总结):从观察(IfO)到模仿学习的最新工作使智能体可以从不包含状态和动作信息的视觉演示中执行任务。在本文中,作者对利用本体感受信息,内部状态的知识来创建有效的 IfO 算法感兴趣。与通常仅使用观察向量的 GAIfO 相比,该算法仅允许将图像用于判别,但允许智能体使用内部状态来生成动作。他们在多个 MujoCo 域上测试了他们提出的技术,并表明它优于观察算法的其他模仿技术。 Zach 的观点:我认为很容易忘记观察不一定等同于状态表示。这篇文章很好地提醒了我,在 … Continue reading AN #107 目标导向的智能体的收敛工具性子目标

AN #106 评价学到的奖励模型的泛化能力

中文版 对齐周报第 106 期 对齐周报是每周出版物,其最新内容与全球人工智能对准有关。在此处找到所有对齐周报资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的 音频版本(可能尚未启用)。 TABLE_OF_CONTENTS: TableOfContents 强调 量化奖励功能的差异 (Adam Gleave 等人)(由 Rohin 总结):当前的奖励学习工作通常通过训练策略以优化学到的奖励,并查看该策略根据真实奖励的执行情况来评估学习的奖励模型。但是,这仅测试奖励在你所测试的特定环境中的运行情况,而不能告诉你奖励将推广到何种程度。例如,假设用户喜欢杏子、李子,但是讨厌榴莲。具有杏子 > 榴莲 > 李子的奖励效果很好 —— 直到商店卖完杏子为止,在这种情况下,它会购买用户讨厌的榴莲。 因此,似乎我们应该直接评估奖励函数,而不是查看其最佳策略。本文提出了等价策略不变比对(EPIC),它可以比较两个奖励函数,而忽略任何不影响最优策略的潜在成形。 EPIC 通过状态和动作 DS 和 DA 的分布以及转换(s,a,s')上的分布 DT 进行参数化。第一步是找到要比较的两个奖励的规范版本,以使它们对 DS 和 DA 的期望奖励为零,并消除所有可能的成形。然后,我们查看这些奖励将分配给 DT 中的转换的奖励,并计算其 Pearson 相关性。将其规范化到 [0,1] 范围,得到 EPIC 距离。 作者证明 EPIC 是伪度量,也就是说,它的行为类似于距离函数,只是即使 R1 和 R2 不同,EPIC(R1, R2) 也可能为零。这是合乎需要的,因为如果 R1 和 R2 由于潜在的成形函数不同,则无论转换动态如何,都可以保证它们的最佳策略相同,因此我们应将它们之间的“距离”报告为零。 … Continue reading AN #106 评价学到的奖励模型的泛化能力

Comments|Quantifying Differences in Reward Functions

本文工作的原始动因: 对很多任务,奖励函数太复杂以至于难以过程化指定,并且必须从用户数据中学到。以往工作已经通过检查从一个针对学到的奖励优化的策略产生的展开评价了奖励函数。 问题之所在: 这个方法不能区分学到的无法反应用户偏好奖励函数和无法优化学到的奖励的强化学习算法。而且,展开方法对用来评价学到奖励的环境细节极其敏感,这常常在部署环境中有差异。 解决思路: 引入了等价策略不变量比对(Equivalent-Policy Invariant Comparison,EPIC)距离来直接量化不同奖励函数的差距,而不需要训练一个策略。 结果总结: 证明了 EPIC 在一个总是规约到同样的最优策略的奖励函数的等价类上是不变的发现 EPIC 可以被准确地近似并且访问分布的选择比基线更为健壮发现学到的奖励函数到真实奖励 EPIC 距离对预测训练一个策略对成功有效,甚至在不同的转换动力系统中。 文章链接:https://arxiv.org/abs/2006.13900

Logician|Boris Trakhtenbrot

I read several articles about mathematical logic these days. Finally, I just found some work done by Boris. Record the intro here. Boris (Boaz) Avraamovich Trakhtenbrot (Russian: Борис Авраамович Трахтенброт; 19 February 1921 – 19 September 2016), or Boaz (Boris) Trakhtenbrot (Hebrew: בועז טרכטנברוט‎) was an Israeli and Russian mathematician in mathematical logic, algorithms, theory of computation, and cybernetics. Trakhtenbrot was born in Brichevo, northern Bessarabia.[1][2] He worked at Akademgorodok, Novosibirsk during … Continue reading Logician|Boris Trakhtenbrot