尽管现今最先进的人工智能模型存在许多缺陷,但几十年后,它们将被认为是通用人工智能(AGI)的第一个真正实例。
作者:BLAISE AGÜERA Y ARCAS 和 PETER NORVIG
译者:朱小虎 Xiaohu Zhu
2023年10月10日
- Blaise Agüera y Arcas 是 Google Research 的副总裁兼研究员,他领导人工智能的基础研究、产品开发和基础架构工作。
- Peter Norvig 是一名计算机科学家,也是斯坦福大学以人为中心的人工智能研究所 Stanford HAI 的杰出教育研究员。
- Xiaohu Zhu 中国首位通用人工智能安全研究员,Center for Safe AGI 创始人,致力于安全通用人工智能的发展和治理
通用人工智能(AGI)对不同的人有着不同的含义,但当前一代先进的大语言模型,如 ChatGPT、Bard、LLaMA 和 Claude,已经实现了其最重要的部分。这些“前沿模型”有许多缺陷:它们幻想学术引用和法院案例、延续其训练数据的偏见并犯下简单的算术错误。修复每一个缺陷(包括人类经常表现出的那些)将涉及到构建一个超级人工智能项目,这是一个完全不同的项目。
然而,尽管如此,今天的前沿模型即便在它们未经训练的新任务上也能胜任,跨越了前几代人工智能和监督深度学习系统从未实现的门槛。几十年后,它们将被认为是 AGI 的第一个真正实例,正如 1945 年的 ENIAC 现在被认为是第一个真正的通用电子计算机。
ENIAC 可以使用顺序、循环和条件指令进行编程,赋予它比它的前身(例如差分分析仪)更多的通用适用性。今天的计算机在速度、内存、可靠性和易用性上远远超过了 ENIAC,同样的,明天的前沿人工智能也将在今天的技术基础上提升。
但是通用性这个关键属性?它已经被实现了。
什么是通用智能?
早期的人工智能系统展现了狭义人工智能,专注于单一任务,有时执行得接近或超过人类水平。例如,Ted Shortliffe 在 1970 年代于斯坦福开发的 MYCIN,仅用于诊断和推荐治疗细菌感染。SYSTRAN 仅用于机器翻译。IBM 的 Deep Blue 仅用于下国际象棋。
后来,通过监督学习训练的深度神经网络模型,如 AlexNet 和 AlphaGo,成功地处理了在机器感知和判断方面长期以来难倒早期启发式、基于规则或基于知识的系统的多种任务。
最近,我们看到的前沿模型能够执行各种任务,而不需要在每一个任务上进行显式训练。这些模型通过以下五个重要方式实现了通用人工智能:
- 话题(topics):前沿模型在互联网来源的大量文本上进行训练,涵盖了在线编写的任何话题。一些模型也在大量且多样的音频、视频和其他媒体的集合上进行训练。
- 任务(tasks):这些模型可以执行多种任务,包括回答问题、生成故事、总结、转录语音、翻译语言、解释、做决定、进行客户支持、调用其他服务进行操作,以及组合文字和图像。
- 模态(modalities):最流行的模型操作图像和文本,但一些系统也处理音频和视频,一些与机器人传感器和执行器相连。通过使用特定于模式的分词器或处理原始数据流,前沿模型原则上可以处理任何已知的感觉或运动模式。
- 语言(languages):在大多数系统的训练数据中,英语占比过大,但大模型可以使用数十种语言进行对话并在它们之间进行翻译,即使对于训练数据中没有示例翻译的语言对。如果训练数据中包括代码,甚至支持自然语言和计算机语言之间越来越有效的“翻译”(即,通用编程和逆向工程)。
- 可指示性(instructability):这些模型能够进行“上下文学习”,其中它们从提示中学习,而不是从训练数据中学习。在“少量示例学习”中,通过几个示例输入/输出对演示一个新任务,然后系统为新输入给出输出。在“零示例学习”中,描述了一个新任务,但没有给出示例(例如,“用海明威的风格写一首关于猫的诗”或者“‘等长反义词’是指彼此相反且字母数量相同的一对词。什么是一些‘等长反义词’?”)。
“当前先进的人工智能大语言模型已经实现了 AGI 的最重要部分。”
“通用智能”必须被视为一个多维度的计分卡,而不是一个单一的是/否命题。尽管如此,在狭义智能和通用智能之间确实存在一个有意义的不连续性:狭义智能系统通常执行一个单一的或预定的任务集,它们是明确进行训练的。即便是多任务学习也只能产生狭义智能,因为模型仍然在工程师设想的任务范围内运行。事实上,开发狭义人工智能的大部分硬工程工作涉及到策划和标记特定任务的数据集。
相比之下,前沿语言模型可以在任何可以由人类完成的信息任务上胜任良好,可以使用自然语言提出和回答,并且有可量化的性能。
做出上下文学习的能力是 AGI 的一个特别有意义的元任务。上下文学习扩展了任务的范围,从训练语料库中观察到的任何事物,到可以描述的任何事物,这是一个大的升级。一个通用人工智能模型可以执行设计者从未设想过的任务。
那么:为什么人们不愿承认 AGI 的存在呢?
尽管前沿模型已经达到了通用智能的重要水平,根据这两个词的日常含义,大多数评论家似乎出于四个主要原因不愿这样说:
- 对 AGI 度量的合理怀疑
- 对人工智能替代理论或技术的意识形态承诺
- 对人类(或生物)例外主义的忠诚
- 对 AGI 的经济影响的担忧
度量
关于 AGI 的门槛在哪里存在很大的分歧。一些人试图完全避免使用这个术语;Mustafa Suleyman 建议切换到“人工能力智能”,他提议通过一个“现代图灵测试”来度量它:能够迅速在线赚取一百万美元的能力(从最初的 100,000 美元投资开始)。能够直接产生财富的人工智能系统肯定会对世界产生影响,尽管将“能力”等同于“资本主义”似乎值得怀疑。
有充分的理由对某些指标持怀疑态度。当一个人通过一个精心构造的法律、商业或医学考试时,我们假定这个人不仅在考试中的具体问题上胜任良好,而且在一系列相关问题和任务上也胜任良好——更不用说人类普遍具有的广泛能力了。但是,当一个前沿模型被训练通过这样的考试时,训练通常会被狭窄地调整为测试中的确切问题类型。当然,尽管它们可以通过这些合格考试,今天的前沿模型并不完全有资格成为律师或医生。正如 Goodhart 法则所述:“当一个衡量变成一个目标时,它就不再是一个好的衡量。”需要更好的测试,这方面有很多正在进行的工作,比如斯坦福的测试套件 HELM(语言模型的整体评估)。
同样重要的是不要将语言流利度与智能混淆。像 Mitsuku(现在被称为 Kuki)这样的早期聊天机器人偶尔能通过突然改变主题和重复一段连贯的文本来愚弄人类评委。当前的前沿模型即时生成响应,而不是依赖于预制的文本,并且它们更擅长围绕住当前主题。但是,它们仍然受益于人类自然的假设,即一个流利、语法正确的响应最有可能来自一个智能的实体。我们称这种效应为“Chauncey Gardiner 效应”,这个效应来自于“在那里”的主人公——仅仅因为他看起来像一个应该被认真对待的人,Chauncey 就是被认真对待的。
研究人员 Rylan Schaeffer、Brando Miranda 和 Sanmi Koyejo 指出了常见人工智能性能度量的另一个问题:它们是非线性的。考虑一个由五位数字的算术问题组成的测试。小型模型将回答所有这些问题的错误,但是随着模型大小的增加,将达到一个关键阈值,在这个阈值之后,模型将回答大多数问题正确。这导致评论家们说,在足够大的前沿模型中,算术技能是一种涌现的属性。但是,如果测试也包括一到四位数的算术问题,并且如果对某些数字的正确性给予部分信任,那么我们会看到随着模型大小的增加,性能逐渐提高;没有尖锐的阈值。
这个发现对于那些认为超级智能能力和特性(可能包括意识)可能突然而神秘地“涌现”的观点产生了怀疑,这在一些公民和政策制定者中是一种担忧。(有时,同样的叙述被用来“解释”为什么人类是智能的,而其他大型灵长类动物据称不是;实际上,这种不连续性可能同样是虚幻的。)更好的度量揭示了通用智能是连续的:“更多就是更多”,而不是“更多就是不同”。
“前沿语言模型可以胜任几乎任何人类可以完成的信息任务,可以使用自然语言提问和回答,并且具有可量化的性能”
替代理论
在 AGI 研究的早期阶段,有很多关于智能的理论,有些在较窄的领域取得了成功。计算机科学本身,基于具有精确定义的形式语法的编程语言,在一开始就与“传统的好的人工智能”(GOFAI)紧密相连。GOFAI 的信条,源于至少可以追溯到 17 世纪的德国数学家 Gottfried Wilhelm Leibniz 的一系,通过 Allen Newell 和 Herbert Simon 的“物理符号系统假设”得到了体现,该假设认为智能可以用一个演算表达,在这个演算中,符号代表着思想,而思考包括根据逻辑规则操纵符号。
最初,像英语这样的自然语言似乎是这样的系统,其中符号像“椅子”和“红色”这样的词代表了像“椅子”和“红色”这样的概念。符号系统允许进行陈述 —— “椅子是红色的” —— 并且逻辑推理能够随之而来:“如果椅子是红色的,那么椅子就不是蓝色的。”
虽然这看起来合理,但用这种方法构建的系统总是脆弱的,并且在它们能够实现的能力和通用性上受到限制。有两个主要的问题:首先,像“蓝色”、“红色”和“椅子”这样的术语只有大约定义,并且这些模糊性的影响在用它们执行的任务的复杂性增长时变得更加严重。
其次,很少有逻辑推理是普遍有效的;一个椅子可以是蓝色和红色的。更根本的是,大量的思考不可归结为操纵逻辑命题。这就是为什么几十年来,将计算机编程和语言学结合在一起的努力未能产生类似 AGI 的任何东西的原因。
然而,一些对符号系统或语言学有意识形态承诺的研究人员继续坚持他们特定的理论是通用智能的要求,并且神经网络,或更广泛地说,机器学习,在理论上不可能具有通用智能——尤其是如果它们纯粹基于语言进行训练。这些批评者在 ChatGPT 之后变得越来越有声望。
例如,被广泛认为是现代语言学之父的 Noam Chomsky,写到大语言模型时说:“我们从语言学和知识哲学的科学中知道,它们与人类推理和使用语言的方式有着深刻的不同。这些差异给这些程序能做的事情带来了重大的限制,使它们带有无法消除的缺陷。”
一位认知科学家兼当代人工智能的批评者 Gary Marcus 说,前沿模型“正在学习如何发声和看起来像人。但它们实际上对它们在说或做什么一无所知。” Marcus 承认神经网络可能是AGI 解决方案的一部分,但他认为,“为了构建一个健壮的、基于知识的人工智能方法,我们必须在我们的工具箱中拥有符号操纵的机械。” Marcus(和许多其他人)专注于寻找前沿模型,特别是大语言模型的能力差距,并经常声称它们反映了方法的根本缺陷。
没有明确的符号,根据这些批评者,一个仅仅通过学习的“统计”方法不能产生真正的理解。相关地,他们声称没有符号概念,就不能进行逻辑推理,而“真实”的智能需要这样的推理。
不考虑智能是否总是依赖于符号和逻辑,有理由质疑这个关于神经网络和机器学习不足的声称,因为神经网络在做计算机能做的任何事情上都是如此有力。例如:
- 神经网络可以轻松地学习离散或符号表示,并在训练过程中自然地出现。
- 高级神经网络模型可以将复杂的统计技术应用到数据上,使它们能够根据给定的数据做出接近最优的预测。模型学会如何应用这些技术,并在给定问题上选择最佳技术,而无需明确告知。
- 以正确的方式将几个神经网络堆叠在一起会产生一个模型,该模型可以执行与任何给定计算机程序相同的计算。
- 给定任何由任何计算机计算的函数的示例输入和输出,神经网络可以学会近似该函数。(这里的“近似”意味着,理论上,神经网络可以超过你关心的任何准确度水平——例如,99.9% 的正确率。)
对于每一个批评,我们都应该问,它是规定性的还是经验性的。一个规定性的批评会辩称:“为了被视为 AGI,一个系统不仅要通过这个测试,还要以这种方式构建。”我们会在测试本身就应该足够的基础上反驳规定性的批评——如果不是这样,那么测试应该被修订。
另一方面,一个经验性的批评会争辩说:“我不认为你可以让人工智能那样工作——我认为另一种方法会更好。”这种批评可以帮助设定研究方向,但事实胜于雄辩。如果一个系统可以通过一个精心构建的测试,它自动击败了批评。
近年来,已经为与“智能”、“知识”、“常识”和“推理”相关的认知任务设计了许多测试。这些包括不能通过记忆训练数据来回答的新问题,但需要泛化——我们在测试学生对问题的理解或推理时要求他们使用在学习过程中未遇到过的问题,这是理解的同样证明。复杂的测试可以引入新的概念或任务,探测测试者的认知灵活性:现场学习和应用新观念的能力。(这是在情境学习中的本质。)
正如人工智能批评者致力于设计当前模型仍然表现不佳的新测试一样,他们正在做有用的工作——尽管考虑到更新、更大型的模型越来越快地克服这些障碍的速度,最明智的做法可能是在(再次)匆忙声称人工智能是“炒作”之前等待几个星期。
人(或生物)例外主义
只要怀疑者仍然不被度量标准打动,他们可能不愿接受任何关于AGI的经验证据。这种不情愿可能是由保持人类精神上的某种特殊性的愿望驱动的,就像人类不愿接受地球不是宇宙的中心,Homo sapiens 不是“伟大存在链”的顶点一样。
有时会有这样的论点:任何可以算作 AGI 的东西都必须是有意识的、有代理性的、体验主观感知的或感受到感觉的。一种推理的方式是这样的:一个简单的工具,比如螺丝刀,显然有一个目的(来拧螺丝),但不能说它自己拥有代理性;相反,任何代理性显然都属于工具制造者或工具使用者。螺丝刀本身是“只是一个工具”。这种推理也适用于被训练来执行特定任务的人工智能系统,比如光学字符识别或语音合成。
虽然具有通用人工智能的系统更难被归类为单一工具。前沿模型的技能超过了程序员或用户想象的技能。而且,由于大语言模型可以使用语言提示执行任意任务,可以使用语言生成新的提示,实际上可以提示自己(“思维链提示”),所以前沿模型是否具有“代理性”的问题需要更仔细的考虑。
考虑一下 Suleyman 的“有能力人工智能”为了在线赚取一百万美元可能采取的众多行动:
它可能会研究网络以查看什么是趋势,找到 Amazon Marketplace 上什么是热门和不热门的;生成可能产品的一系列图像和蓝图;将它们发送到它在 Alibaba 上找到的一个下单制造商;通过电子邮件来回以细化要求并同意合同;设计一个卖家列表;并根据买家反馈不断更新营销材料和产品设计。
正如 Suleyman 所指出的,原则上,前沿模型已经有能力做所有这些事情,而能够可靠地计划和执行整个操作的模型可能即将到来。这样的人工智能看起来不再像螺丝刀那么简单。
“确实,人类有一些特殊之处,我们应该庆祝这一点,但我们不应该将其与通用智能混为一谈。”
现在有了可以执行任意通用智能任务的系统,声称展示出代理性就意味着拥有意识似乎变得有问题——这意味着前沿模型要么有意识,要么代理性毕竟并不一定意味着有意识。
我们不知道如何衡量、验证或证伪一个智能系统中意识的存在。我们可以简单地问它,但我们可能不会相信它的回应。实际上,“只是问”似乎是一种Rorschach 测试:人工智能存在的信仰者将接受肯定的回应,而不信者将声称任何肯定的回应要么是单纯的“鹦鹉学舌”,要么是当前人工智能系统是“哲学僵尸”,能够像我们一样行动但在“内部”缺乏任何现象意识或经历。更糟糕的是,Rorschach 测试也适用于大语言模型本身:它们可能会根据它们的调整或提示以任何方式回答。(ChatGPT 和 Bard 都被训练来回应他们没有意识。)
将无法验证的信仰(无论是人的还是人工智能的)依赖于意识或知觉的辩论,目前并没有解。一些研究人员已经提出了关于意识的衡量标准,但这些要么基于无法证伪的理论,要么依赖于我们自己大脑的相关性,并因此在规定性上或者不能评估不与我们分享生物遗传的系统的意识。
在事实上宣称非生物系统根本就不能是智能的或意识到的(例如,因为它们是“只是算法”)似乎是武断的,植根于无法测试的精神信仰。同样地,疼痛感(例如)需要伤害感受器的观点可能允许我们对疼痛的经历在我们的近亲生物关系中做出知情的猜测,但不清楚这样的观点如何能够应用于其他神经架构或智能种类。
“成为一只蝙蝠是什么感觉?”Thomas Nagel 在 1974 年著名地怀疑。我们不知道,也不知道我们是否能知道成为一只蝙蝠——或成为一个人工智能——是什么感觉。但我们确实有一个不断增长的关于智能多个维度的测试财富。
虽然寻求更通用和严格的意识或感知特征的追求可能是值得的,但这样的特征不会改变在任何任务上的衡量的能力。因此,不清楚这些担忧如何能够有意义地纳入 AGI 的定义。
更明智的做法是将“智能”与“意识”和“知觉”分开。
经济影响
关于智能和代理的论点很容易涉及权利、地位、权力和阶级关系的问题——简而言之,政治经济学。自工业革命以来,被认为是“机械”或“重复”的任务通常由低薪工人执行,而编程——起初被认为是“女性的工作”——只有在20世纪70年代变成男性主导时才在智力和财务地位上上升。然而,具有讽刺意味的是,尽管下棋和解决积分微积分问题对于 GOFAI 来说很容易,但手工劳动甚至对今天最先进的人工智能来说仍然是一个重大挑战。
如果 AGI 按照计划“按时”实现了——当一群研究人员在 1956 年夏天在达特茅斯聚集在一起,试图找出“如何让机器使用语言、形成抽象和概念、解决现在只留给人类的问题,并改进自己”——公众的反应会是什么?当时,大多数美国人对技术进步感到乐观。正在进行的“大压缩”是一个时代,在这个时代,由迅速发展的技术实现的经济增长得到了广泛(尽管肯定不是公平的,尤其是关于种族和性别)的再分配。尽管冷战的威胁迫在眉睫,对于大多数人来说,未来看起来比过去更加光明。
今天,这种再分配泵已经被扔到反方向:穷人变得更穷,富人变得更富(尤其是在北半球)。当人工智能被描述为“既不是人工的也不是智能的”,而只是人类智能的重新包装时,很难不通过经济威胁和不安全的镜头解读这种批评。
在将关于 AGI 应该是什么的辩论与它是什么的辩论混为一谈时,我们违反了David Hume 的警告,尽我们最大的努力将“是”问题与“应该”问题分开。这是不幸的,因为急需的“应该”辩论最好是直接进行。
AGI 在未来几年有望产生巨大价值,但它也带来了重大风险。我们现在应该提出的自然问题包括:“谁受益?”“谁受到伤害?”“我们如何最大化利益和最小化伤害?”以及“我们如何公平和公正地做到这一点?”这些是迫切需要讨论的问题,而不是否认 AGI 的现实。
Leave a comment