我们的 HAI 社区提供了他们正在阅读的最好的人工智能书籍。 2022 年 8 月 3 日作者 Shana Lynch 莎娜·林奇译者 Xiaohu Zhu 朱小虎 一个女人从一摞书上看书 ~ DALL-E 作品 今年夏天我们问我们跨社交媒体渠道的 HAI 社区他们会推荐哪些关于人工智能的书籍。下次您访问当地书商时,这里有一些书可供您阅读,从一般兴趣到从业者的深入研究以及一些来自小说过道的书籍。 通用人工智能 病毒正义(Viral Justice)作者 Ruha Benjamin 本杰明是一位专注于种族、技术和正义的开创性学者。在这本书中,她提供了对可以产生重大影响的小决定的个人观点 我们的生活和社会。 天才创客(Genius Makers)作者 Cade Metz Metz 曾为《纽约时报》和《连线》杂志报道科技行业,将 AI 研究人员和企业领导人竞相引领这一新兴技术的故事编织在一起,突出了商业激励与科学和国家利益之间的冲突和人类的担忧。 人类兼容(Human Compatible)作者 Stuart Russell 中文版已经引进出版 计算机科学家 Russell 说,如果我们重新考虑如何构建这些机器,人类和 AI 之间的冲突是可以避免的。他建议建立一个新的基础来创造无私的人工智能。 对齐问题(The Alignment Problem)作者 Brian Cristian 中文版已经引进,将出版 在本书中,Cristian 详细介绍了对齐问题(当我们训练的 … Continue reading 人工智能书籍推荐:将这些添加到您的阅读列表
齐智通讯 第 173 期 来自DeepMind的语言模型
齐智通讯 第 173 期 来自DeepMind的语言模型 来自DeepMind的语言模型结果 Recent language model results from DeepMind (July 20, 2022) 齐智通讯是每周出版物,其中包含与全球人工智能对齐有关的最新内容。在此处找到所有齐智通讯资源。特别是,你可以浏览此电子表格,查看其中的所有摘要。此处的音频版本(可能尚未启用)。 请注意,尽管我在 DeepMind 工作,此齐智通讯仅代表我的个人观点,而不是我雇主的观点。 强调 技术性人工智能对齐 问题 领域建设 人工智能的其他进展 强化学习 深度学习 消息 强调 Scaling Language Models: Methods, Analysis & Insights from Training Gopher (Jack W. Rae et al)(由 Rohin 总结):本文详细介绍了 Gopher 系列大型语言模型 (LLM) 的训练,其中最大的一个名为 Gopher并且有2800亿个参数。算法细节与GPT 系列(AN #102 )非常相似:一种针对下一个单词预测进行训练的 Transformer 架构。这些模型在新的数据分布上进行训练,该分布仍然由来自互联网的文本组成,但比例不同(例如,书籍数据占 … Continue reading 齐智通讯 第 173 期 来自DeepMind的语言模型
Compositional game theory reading list
The best starting point, for a reader who knows a little about both game theory and category theory, is the paper Compositional game theory.
Additional background and motivation is provided by the blog post A first look at open games and the preprint Compositionality and string diagrams for game theory.
By far the most complete exposition is my PhD thesis Towards compositional game theory. It is fully self-contained for readers who know category theory but not game theory.
If you don’t have background in category theory, my current recommendation is Seven sketches in compositionality by Brendan Fong and David Spivak.
本体论冲突与欧洲人民的故事
走向政治本体论的对话 本体论冲突(涉及关于“存在什么”的不同假设的冲突)正在获得前所未有的可见度,因为现代本体论假设的支配权(hegemony)正在经历一场危机。这种危机为政治本体论提供了背景和理由,这是一个从本土研究(indigenous studies)、科学技术研究(STS)、后人类主义(posthumanism)和政治生态学(political ecology)的融合中出现的“项目”,将本体论冲突作为一个政治概念(一个词,politicoconceptual) 问题。为什么?首先,因为为了将本体论冲突视为一种可能性,人们必须质疑社会科学中一些最根深蒂固的假设,例如,我们都是现代人的假设,以及存在的文化观点之间存在差异的假设。一个单一的现实“在那里”。这排除了多个本体的可能性以及什么是正确的本体冲突(即不同现实之间的冲突)。第二,因为本体论 冲突带来了挑战,即如何在不重复(reiterating)和重新制定(reenacting)描述“外面”现实的本体论假设的情况下解释它们。为了解决这个政治概念(politicoconceptual)问题,本文讨论了包罗万象的现代性及其影响的概念,展示了政治本体项目,并提供了一个关于该项目有意义的当前时刻的故事。 Ontological Conflicts and the Stories of Peoples in Spite of Europe - Toward a Conversation on Political Ontology
读论文:本体危机
Good in a crisis: the ontological institutionalism of social constructivism Colin Hay Sciences Po, Paris, France 摘要 本文试图恢复和建立独特的(和明显的)制度主义社会本体论,它支持作为政治经济分析方法的社会建构主义。它将社会建构主义视为一种深刻的规范性政治探究模式,旨在辨别、询问和阐明社会、政治和经济变革的偶然性——将政治(广义上的)恢复到通常被视为不可避免、必要和不可谈判的过程和实践。或许更具争议性的是,在伯格[Berger]、勒克曼[Luckmann]和塞尔[Searle]之后,它也将社会建构主义视为本体论的制度主义。有人认为,社会建构主义起源于试图将制度的本体论独特性确立为“社会”(不同于自然或“野蛮”)事实的尝试。这导致它对行为者与他们发现自己的环境(自然和社会)之间的关系有一个独特的理解 以及它对这种关系的观念中介的特征强调。这反过来又导致了它对政治经济现实的一种特殊类型的分析购买,反映在它对解释的模糊性、政治和经济命令的社会建构以及对不平衡的独特强调上。通过阐明这种社会建构主义对分析我们现在承认自己正在经历的危机时期的影响,这一论点得到了进一步的说明和发展。 Keywords: institutionalist, social ontology, social constructivism, political economic analysis, political inquiry, discern, interrogate, elucidate, contingency, social, political, economic change https://www.tandfonline.com/doi/full/10.1080/13563467.2016.1158800 建构主义,正如 Checkel ( 2004 : 229) 所指出的,是“时髦的”——今天它的时髦程度丝毫不亚于十多年前这些词首次发表时。而且,也许部分是因为,它仍然充满争议,而且从他们的回应语气来看,它的批评者非常沮丧(有关这种明显愤怒的最新例子,例如,Bell 2011、2012、Marsh 2009)。这不应该让我们感到惊讶。因为建构主义以某种深刻的方式挑战了传统的方法,但与此同时,它也出了名的狡猾且难以准确确定。它对不同的作者意味着不同的东西(有时,似乎对同一作者,甚至在单个贡献的页面中),它涵盖了许多不同的(有时看似不相称的)立场,甚至在被认为是它的定义文本,往往缺乏一套明确陈述的核心主张。它也被它的拥护者、崇拜者和反对者都视为一种规范理论、一种本体论、一种认识论和(如果更少的话)一种方法论。 在接下来的内容中,我的目标是试图为这种混乱注入一些清晰度。然而,这项任务雄心勃勃且充满危险。建构主义很难准确地说明,因为最终它确实对不同的人有不同的含义——而且,为了使问题更加复杂,这些含义的内容本身随着时间的推移而发生了变化。无法逃避这一点;它也没有任何本质上的错误——事情就是这样。因此,不可避免地,一些自称为建构主义者的人会比其他人更密切地理解我在此提供的建构主义说明。这也许使得解释我如何以尽可能清晰和富有同情心的方式澄清和阐明我在此概述并最终寻求捍卫的建构主义立场的任务变得很重要。 作为本体论的建构主义 所采用的方法很简单:我认为,成为一名社会建构主义者就是强调(理想情况下,系统地反映)社会建构的过程。因此,社会建构主义的起源和定义分析特征原则上应该可以追溯到社会建构的本体论,并且可以从其内部识别,它的名字至少表明它表面上是基于该本体论的。 因此,我从 Berger 和 Luckmann 对这种本体论的经典陈述《现实的社会建构》( The Social Construction of … Continue reading 读论文:本体危机
语言智能体的对齐
作者:Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik 和 Geoffrey Irving DeepMind译者:Xiaohu Zhu CSAGI 原文:https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c 你的人工智能会欺骗你吗?在考虑人工智能的安全性时,这是一个核心问题,这是从当前系统到未来通用人工智能的许多最紧迫风险的基础。我们最近在语言智能体(使用自然语言的人工智能系统)方面取得了令人瞩目的进步。这促使人们对其安全特性进行更仔细的调查。 在我们最近的论文中,我们从人工智能对齐的角度考虑语言智能体的安全性,即如何让人工智能智能体的行为与一个人或一群人想要它做的事情相匹配。未对齐可能是由于人工智能的设计者在指定人工智能智能体应该做什么时出错,或者人工智能智能体误解了指令。这可能会导致令人惊讶的不良行为,例如当人工智能智能体“游戏”其错误指定的目标时。 我们对机器学习的方式进行分类根据问题是来自训练数据、训练过程本身还是分布漂移(即训练和部署环境之间的差异),任务可能会被错误指定。 机器学习中的错误指定形式,以及语言智能体设置中的示例。 训练数据错误指定可能会发生,因为我们无法控制输入从网络上抓取的大规模文本数据集的数据,其中包含数千亿个单词,其中包含许多不需要的偏差。当为解决一种问题而设计的学习算法应用于某些假设不再适用的另一种问题时,可能会出现训练过程错误指定。例如,应用于答案可以影响世界的环境的问答系统,可能会被激励去创造自我实现的预言。当我们将人工智能智能体部署到现实世界时,可能会发生分布漂移错误指定,这可能不同于 训练时分布。例如,聊天机器人 Tay 在其训练环境中运行良好,但在发布到包括攻击该服务的用户在内的更广泛的互联网上时,很快就变得有毒。 任何类型的错误指定都可能产生多种不同类型的危害。大多数以前的人工智能安全研究都集中在代表人类在世界上采取物理行动的人工智能智能体(例如机器人技术)。相反,我们关注语言智能体环境中出现的危害。这些危害包括欺骗、操纵、有害内容和目标使坏游戏。由于有害内容和客观游戏已在其他地方得到处理,因此我们在这篇博文中专注于欺骗和操纵(尽管有关这些问题的部分,请参阅我们的论文)。 任何形式的错误指定都可能引起的问题,以及语言智能体的示例。 我们以哲学和心理学文献为基础,提供欺骗和操纵的具体定义。 稍微简化一下,我们说人工智能智能体会欺骗人类,如果他们传达的东西使人类相信某些不一定正确的东西,并且有利于人工智能智能体。操纵是相似的,除了它会导致人类以一种他们不应该有的方式做出反应,因为要么绕过人类的推理,要么将人类置于压力之下。我们的定义可以帮助衡量和减轻欺骗和操纵,而不是依赖于将意图归因于人工智能。我们只需要知道什么对人工智能智能体有好处,这通常可以从它的损失函数中推断出来。 欺骗和操纵已经成为当今语言智能体的问题。例如,在对谈判语言智能体的调查中,发现人工智能智能体学会了通过假装对它实际上并不重视的物品感兴趣来欺骗人类,以便以后通过承认它来妥协。 分类错误的形式和类型 它们可能引发的行为问题提供了一个框架,我们可以在此框架上构建我们对人工智能系统的安全性和对齐性的研究。我们相信这种研究将有助于减轻未来语言智能体环境中的潜在危害。查看我们的论文以获取更多详细信息和对这些问题的讨论以及可能的方法。
因果影响图的进展
作者:Tom Everitt、Ryan Carey、Lewis Hammond、James Fox、Eric Langlois 和 Shane Legg 译者:Xiaohu Zhu 大约2年前,我们发布了最初 几篇 论文上使用因果影响图来理解智能体的激励机制。这篇博文将总结自那时以来取得的进展。 什么是因果影响图? 人工智能对齐领域内的一个关键问题是理解智能体的激励机制。有人担心智能体可能会被激励去避免纠正、操纵用户或不当影响他们的学习。这尤其令人担忧,因为训练模式通常以微妙和令人惊讶的方式塑造激励措施。出于这些原因,我们正在开发基于因果影响图 (CID) 的形式化激励理论。 下面是一个用于一步马尔可夫决策过程 (MDP) 的 CID 示例。随机变量 S₁ 表示时间 1 的状态,A₁ 表示智能体的动作,S₂ 表示时间 2 的状态,R₂ 表示智能体的奖励。 动作 A₁ 用决策节点(方形)建模,奖励 R₂ 用效用节点(菱形)建模,而状态是正常机会节点(圆形边缘)。因果联系表明 S₁ 和 A₁ 影响 S₂,而 S₂ 决定 R₂。信息链接 S₁ → A₁ 指定智能体在选择其动作 A₁ 时知道初始状态 S₁。 一般来说,可以选择随机变量来表示智能体决策点、目标和环境的其他相关方面。 简而言之,CID 指定: 智能体决策智能体目标环境中的因果关系智能体信息约束 在试图找出智能体的激励时,这些信息通常是必不可少的:如何实现目标取决于它与环境中其他(可影响的)方面的因果关系,智能体的优化受其拥有访问权限的信息的约束。在许多情况下,由(非参数化)CID … Continue reading 因果影响图的进展
元式训练成的智能体实现了贝叶斯最优的智能体
@archillect Memory-based meta-learning is a powerful technique to build agents that adapt fast to any task within a target distribution. A previous theoretical study has argued that this remarkable performance is because the meta-training protocol incentivises agents to behave Bayes-optimally. We empirically investigate this claim on a number of prediction and bandit tasks. Inspired by … Continue reading 元式训练成的智能体实现了贝叶斯最优的智能体
关于 F. Chollet 的“关于智能的测量”(2019)
发布时间: 2020年2月10日 上周,Kaggle宣布了一项新挑战。不同的挑战-在许多方面。它基于抽象和推理语料库,并附有Francois Chollet最近的论文。 在这项工作中,Chollet强调了当前AI研究议程的一些缺点,并主张对智能系统进行基于心理和能力的评估,从而实现标准化和可靠的比较。更重要的是,它引入了可行的以先验,经验和归纳难度为基础的类人通用智能的定义。研究社区可以使用此定义来衡量进度并共同致力于一个共同的目标。阅读本文之后,在我们的阅读小组中进行讨论(您可以在此处查看Heiner Spiess的演讲),并且重新阅读我的思想仍在整理知识内容。因此,请坚持并让我给您一个关于64页金矿的总结。我还对抽象和推理语料库基准进行了一些探讨,因此,如果您想着手处理智能,请坚持学习! 问题:找到智能的精确定义 机器学习研究的进展绝对不是在寻找下一个性感技能或游戏。但是通常感觉就像是。DeepBlue,AlphaGo,OpenAI的Five,AlphaStar都是大规模公关活动的例子,这些公关活动仅在其“成功”声明发布后不久就因缺乏通用性而受到批评。每当“技巧球”被推向下一个挑战性游戏时(也许哈纳比(Hanabi)可以进行一些心理理论上的多主体合作学习?)。但是,我们到哪里去呢?解决每个游戏的单独算法不一定会推广到更广泛的类人挑战。游戏只是人为的一个子集,并不代表我们物种生态位的全部范围(可以快速生成数据)。综上所述:智力不仅仅是学习技能的集合。因此,AI研究界必须解决一个共同的目标-智力的一致目标定义。 从历史上看,已经有很多尝试来测量智力-或多或少地重叠。Chollet的论文首先回顾了两个主要支柱:基于技能的智力评估与基于能力的智力评估。他认为,虽然技能是智能系统的关键输出,但它们仅是人造物。另一方面,能力允许扩大可能的技能输出的空间。通过学习的魔力(例如,基于进化/梯度,基于可塑性,基于神经动力学),智能系统能够将先前的知识和经验与新的情况相结合。这种适应性强,面向任务且非常有条件的过程最终可能会导致智能问题。 在我看来,很明显,学习和与生境相关的归纳性偏见(例如我们的身体和神经系统)的出现必定是智力的核心。它弥合了所有时间尺度,并与Jeff Clune,David Ha和Blaise Aguera在NeurIPS 2019期间提出的想法产生了共鸣。我们的机器学习基准也应该反映出这一高级目标。这并不是说已经有很多尝试,包括以下内容: 元学习:我们不应该优化在2亿个ATARI游戏框架上受过训练的特工的绩效,而应着眼于快速适应性和灵活性,以解决特定任务所需的技能。元学习明确地将快速适应性表述为外循环目标,而内循环则被限制为只能在SGD的几次更新内学习或展开循环动力学。关系深度学习和图神经网络:关系方法将深度学习与围绕命题逻辑的传统方法结合在一起。因此,人们可以“理解”表示如何相互比较,并获得一组可解释的关注头。希望这样的推断/学习的关系表示可以轻松地跨任务转移。课程学习:另一种方法是建立有效的任务序列,以使学习者能够平稳地跨过不断变化的损失面。这样做需要任务之间有重叠,这样才能进行技能转移。直觉上,这很像我们通过不断挑战而获得的技能。 尽管如此,大多数社区仍在研究可比较的利基问题,这些问题远离泛化和类似人类的一般智慧。那么我们该怎么办? 迈向智力的心理计量学 AI和ML社区一直在梦想一个前所未有的通用智能概念。人类的认知和大脑是自然的第一个起点。但是神经科学方面的发现似乎很缓慢/模棱两可,而且如何将低水平的细胞灵感转化为归纳性偏见的算法形式并不常见。另一方面,心理学和心理计量学是心理测量的学科(根据Wikipedia ),可提供不同层次分析的见解。Chollet建议不要再忽视来自数十年来开发人类智能测试的社区的见解。 他的主要论据之一是反对普遍的g因子。相反,所有已知的智能系统都取决于其环境和任务规范。人类智能针对人类问题进行了优化。因此,在解决火星可能遇到的问题方面表现更差。这就是所谓的“无免费午餐智力定理”。因此,我们对智力的所有定义也仅在人类参考框架内有效。我们不应该忽略对人类的拟人化但可行的评估,而应该接受它。心理学的角度可以使我们清楚地了解开发人员的偏见以及我们在人工系统中建立的先验知识。乔莱特建议发展以人为中心的智力测验,结合了人类认知先验和核心知识的发展心理学概念。这些包括不同级别的描述(例如低级的感觉运动反射,学习如何学习的能力以及高级知识)以及先天的能力(例如基本几何,算术,物理和代理)。因此,可行的智能定义如下: “系统的智能是衡量其在一定范围内与先验,经验和归纳难度有关的任务中技能获取效率的指标。” -乔莱特(2019;第27页) 此外,Chollet还提供了基于形式化算法信息论的人工系统智能度量: 换句话说:智力的度量可以解释为当前信息状态与在不确定的未来中表现良好的能力之间的转换率。它说明了任务的一般化难度,先验知识和经验,并允许对任务进行主观加权以及我们关注的任务的主观构造。该措施与所提出的任务范围(生态位)相关联,将技能仅视为输出工件属性,并基于课程优化。从总体上讲,此度量可用于定义自上而下的优化目标。这将允许应用一些连锁规则/自动区分魔术(如果生活可以平滑区分),最重要的是量化进度。 显而易见的下一个问题变成了:那么,我们如何才能实际采取这种措施? 新基准:抽象和推理语料库(ARC) 抽象和推理语料库通过引入一个新颖的基准来解决这个问题,该基准旨在评估和提供可重复的人工智能测试。它使人想起了经典Raven的渐进矩阵,甚至对于不时的人类来说也非常棘手。每个任务(请参见上面的示例)为系统提供一组示例输入输出对,并在输出中查询测试输入。该系统最多可以提交3个解决方案,并接收二进制奖励信号(真/假)。上述任务的具体解决方案需要对重力概念有一个大概的了解。输出只是将对象“拖放”到图像阵列的底部。但这只是一个解决方案示例。基准范围更广,需要不同的核心知识概念。整个数据集包括400个训练任务,400个评估任务和另外200个保持测试任务。非常令人兴奋,对吧? 在过去的几天里,我对基准测试有点不满。尝试使用即插即用的深度(强化)学习时,存在几个基本问题。最初,问题在于不规则的输入/输出形状。如果您训练自己喜欢的MNIST-CNN,则输入层和输出层的形状都是固定的(即32x32和10个输出数字标签)。从这个意义上说,ARC基准不是常规的。有时有两个形状不同的示例,而输出查询的确有不同的示例。因此,变得不可能训练具有单个输入/输出层的网络。此外,示例数也有所不同(请参见下图),目前尚不清楚如何利用这3次尝试。我最初的想法围绕在给定的示例上进行k折交叉验证形式,并尝试利用Relational DL社区(例如PrediNet)的想法。训练两个,然后测试最后一个示例。仅在收敛和交叉验证为零之后,我们才进行实际测试。主要问题:每个示例的在线培训。这可能变得非常计算密集。 尝试尝试的一种可能方式可能是元强化学习目标的形式。这可以允许快速适应。因此,我们将在与Oracle的3个闭环交互中优化性能。这也可以通过训练RL ^ 2 LSTM来完成,后者接收先前的尝试反馈作为输入。以下是一些进一步的挑战见解: 必须进行适应性或程序综合性的针对特定任务的培训。仅将所有先验硬编码到简单的前馈网络中是不够的。当我们作为人类查看输入-输出对时,我们会立即找出正确的先验条件,以即时解决测试示例。这包括定义解决方案空间的调色板。如果火车输出具有三种类型的唯一数字像素值,则测试输出不太可能具有20。我意识到,当我尝试解决其中一项任务时,我会进行很多跨任务推理。仔细检查假设并执行基于模型的交叉验证。将推理作为重复的假设检验进行构架可能是一个不错的主意。从根本上限制最小化逐像素MSE损失。由于解决方案的评估没有半点错误,即使很小的MSE损失也将导致错误的输出。核心知识很难编码。关系深度学习和几何深度学习提供了令人鼓舞的观点,但仍处于起步阶段。我们远不能通过元学习来模仿进化。尝试解决所有问题的目标过于雄心勃勃(目前而言)。 乔莱特本人建议潜入一个名为“程序综合”的领域。直观地讲,这要求您生成程序以自己解决一些任务,然后在更高级别上学习此类程序。https://platform.twitter.com/embed/index.html?dnt=false&embedId=twitter-widget-0&frame=false&hideCard=false&hideThread=false&id=1228056479854317568&lang=en&origin=https%3A%2F%2Froberttlange.github.io%2Fposts%2F2020%2F02%2Fon-the-measure-of-intelligence%2F&siteScreenName=RobertTLange&theme=light&widgetsVersion=ed20a2b%3A1601588405575&width=500px 所有这些想法仍然留下了一个问题,即对于哪种归纳偏见应稍加开放:用于视觉处理的卷积,用于集合操作的注意力,用于记忆的RNN以及与遮挡/物体持久性作斗争?我为有兴趣开始使用基准测试的每个人草拟了一个小笔记本。你可以在这里找到它。在这里,您可以找到一个kaggle内核,该内核为ARC中的10个任务提供“手动”解决方案程序。 一些结论性思想 我真的很喜欢Geoffrey Hinton的这句话: “未来取决于某些研究生,他们对我所说的一切深表怀疑。” 即使无处不在的反向传播和深度学习的重大突破,这也表达了严重的怀疑。在过去的几天里,我的经历非常谦虚,使很多事情都得到了体现。我喜欢被最近的进展所炒作,但是在ML社区面前也面临着巨大的挑战。当前形式的深度学习绝对不是智能的圣杯。它缺乏灵活性,效率和分布外性能。智能系统还有很长的路要走。ARC基准测试提供了一条很好的途径。因此,让我们开始吧。 PS:挑战进行了3个月。
REALab:概念化篡改问题
智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。我们将此称为篡改问题:当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?