在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。
对时事通讯的改进仍在继续! Rob Miles 慷慨地自愿参加了 Alignment Newsletter Podcast。 有可能播客将在电子邮件的后面停留一周,除非我设法安排好,并提前给 Rob 预览时事通讯。
强调
人工智能治理标准:实现人工智能研究与开发全球协调的国际标准 (Peter Cihon):该技术报告认为,通过影响人工智能标准,我们可以对人工智能的未来产生巨大影响,从而有助于确保人工智能系统除了使人工智能的部署更有效之外,它们是安全和有益的。这里的标准可以是像 Tensorflow 或 Gym 等产品,也可以是此列表中的过程。专注于国际标准尤其有用:由于企业可以简单地离开国家以逃避国家法规,因此在国家标准的严格性方面存在竞争的底线,因此它们不会产生同样多的变化。
影响设定标准的现有组织可能特别有价值,因为他们对专家意见非常敏感。也可以私下制定标准,然后将其“转换”为国际标准。(这种情况发生在 C 编程语言和 PDF 文件格式中。)这种影响可以用来改变人工智能开发的文化,例如将安全放在最前沿。
Rohin 的观点:我猜想最有影响力的标准是像 Tensorflow 这样的“网络标准”:它们使每个人都能更容易地开发 AI 系统。然而,这里的好处在于拥有任何标准,因此这些标准似乎也不太可能影响与标准效率方面无关的文化变革。也就是说,报告使我确信“强制执行的标准”也具有影响力:即使标准要求积极执行以防止组织忽视它,组织也会经常选择遵守标准,以获得建立消费者对他们信任的认证。
人工智能安全的监管市场 (Jack Clark 等人):本文介绍了如何监管人工智能:通过引入 私人监管机构市场,这些监管机构 本身受政府监管。法律要求公司购买监管服务,但可以选择从哪些监管机构购买。监管机构竞相吸引公司,但都需要达到政府设定的目标。
这种方法的主要好处是政府现在只需要设定 监管目标(例如自动驾驶汽车,对事故率的限制),同时向私营监管机构下载流程规定 (例如,需要进行对抗性训练)用于自动驾驶汽车的视觉模型)。这减轻了政府的负担,政府目前对于有效监管人工智能的速度太慢。它在两个方面都是最好的:与政府监管一样,它可以优化公共利益,而且与技术自我监管一样,它可以从最了解的研究人员中获得最佳实践(因为他们可以建立自己的监管初创公司) 。
当然,为了实现这一目标,私营监管机构必须避免监管,并且监管机构 的市场具有竞争性和独立性。
Rohin 的观点: 这似乎与前一篇论文中“强制标准”的概念非常相关,尽管这里只需要强制实现 每个人的 目标,而且监管机构的流程细节也各不相同。我特别喜欢监管机构出现“自下而上”的情景,研究人员考虑人工智能的潜在问题,但我不确定它有多大可能性。
通过本文和之前的论文,我可以看到它们如何应用于例如自动驾驶汽车和对抗性稳健性,但我不太清楚这种方法如何帮助 AI 对齐。如果我们认为对齐真的很难,而且我们只得到一次,那么看起来特别难以制定清晰的法规来确保 我们不会在没有任何测试的情况下建立一个错位的超智能 AI。或者,如果我们认为我们在对齐 AI 系统方面会有很多非灾难性的经验,并且可以迭代我们的流程,那么我们似乎更有可能制定有用的,清晰的法规。(我更倾向于相信后一种情况,基于 CAIS (AN#40)和其他直觉。)即使在这种情况下,我还不知道我会采取什么规定,但似乎有了更多的经验,我们就能够制定这样的规定。
技术AI对齐
技术议程和优先次序
AGI 安全研究议程概述 (Rohin Shah):我在 Beneficial AGI 会议上的演讲视频刚刚发布。在本次演讲中,我将介绍人们投资的五大安全相关领域:了解 AI 的未来(嵌入式代理商 (AN#31), CAIS (AN#40)),限制AI系统的影响(拳击 (AN) #54), 影响正则化方法 (AN#49)),鲁棒性(验证 (AN#19), 红色团队),有用的AI系统(雄心勃勃的价值学习 (AN#31)), 偏好学习, 合作IRL,可 融合性 (AN#35),因式 认知 (AN#36), 迭代放大, 辩论 (AN#5))和可 解释性 (AN#49)。我的 播客 (AN#54)涵盖了几乎所有这些以及更多,所以你可能想听一听。
防止不良行为
自我确认预测可以是任意不好的 和 Oracles,序列预测因子和自我确认预测 (Stuart Armstrong):让我们考虑一个神谕 AI系统,其任务是准确预测,具有足够强大的世界模型,可以理解其预测将如何影响世界。在那种情况下,“准确预测”意味着给出预测 P,使得世界最终满足 P, 给定 预测 P 的知识。不需要一个正确的预测 —— 可能没有正确的预测(想象预测我会说什么,因为我承诺会说出与你预测的不同的东西),或者可能有许多正确的预测(想象一下,我提交说出你预测的一切。这些自我确认的预测可能是任意不好的。
神谕的部分要点是拥有不会影响世界的人工智能系统,但现在人工智能系统将学会通过预测操纵我们,使预测成真。想象一下,例如自我确认预测,其中神谕预测公司零利润,导致公司关闭。
为了解决这个问题,我们可以得到 反事实的神谕,它可以预测在预测不会影响世界的反事实中会发生什么。特别是,我们要求神谕预测未来,因为预测将立即被擦除,任何人都不会阅读。我们也可以通过观察无条件预测和以擦除为条件的预测之间的差异来判断预测可以对我们产生多大影响。
阅读更多: AI 神谕的有益和安全使用
人工智能战略和政策
谷歌全新的人工智能道德委员会已经崩溃 (Kelsey Piper):谷歌 宣布成立 道德顾问委员会,很快就引起争议,随后 被取消。作者指出,理事会并不能很好地为道德规范提供实际建议 —— 它只能每年召开四次会议,而且只能提出建议。这个委员会以及 Facebook 和微软的其他人似乎更多地关注公关,而不是人工智能道德。相反,人工智能伦理委员会应该包括内部人员和外部人员,应该能够提出正式、具体、详细的建议,并公开宣布是否遵循建议。关键信息: “骚动使我确信谷歌需要一个人工智能道德委员会 —— 但不是那种似乎想要尝试建立的那种。”
在一个 推特上,作者将 OpenAI 作为一个大型组织,至少 试图 深入参与人工智能道德,正如他们的安全和政策团队,他们的章程 (AN#2), GPT-2 (AN#46)所证明的那样。从公关角度来看,他们做出公开的,内容丰富的陈述,这些陈述很奇怪,有争议并且看起来很糟糕。他们制定和听取有关人工智能道德和政策的论据会带来真实的决策和后果。
Rohin 的意见: 我大致同意这篇文章 —— 我无法想象每年举行四次会议的理事会如何能够恰当地为谷歌的人工智能项目提供建议。我不确定解决方案是否是更强大和更密集的道德委员会,其主要权力是公共责任。我希望做出关于人工智能道德的良好决策需要技术背景,或者与具有该背景的人进行长时间的详细对话,这对公众来说都是不可能的。这可能意味着道德委员会可能难以提出合法的问题,或者他们可能会对一个经过仔细研究而不是问题的问题引起愤怒。对于一个拥有更正式权力的董事会,我会感觉更好,例如能够制定可能导致罚款的调查,起诉谷歌的能力,特定的举报能力等(我不知道任何一个建议的可行性如何,即使假设谷歌同意这些)
在关于 OpenAI 的推特潮涌上,我不确定我之前是否已在此通讯中说过,但我一般都相信 OpenAI 会尝试做正确的事情,这也是其中一个原因。当然,我也知道并相信很多在那里工作的人。
理性地说#231 – Helen Toner关于“对中国和人工智能的误解” (Julia Galef和Helen Toner):在这个播客中,Helen 谈到人工智能政策,中国和安全与新兴技术中心,她是该中心的战略主任。她的一些观点对我来说很突出:
- 虽然百度是一家大型科技公司并且是主要的搜索引擎,但将其称为中国谷歌有点误导,因为它没有谷歌那样多样化的产品。
- 虽然社会信用评分故事似乎过于夸张,但关于维吾尔族情况的报道似乎基本准确。
- 基于中国人工智能研究人员的一小部分样本,相对于西方研究人员而言,中国研究人员似乎对思考他们正在建设的技术的真实世界效应不太感兴趣。
- 由于政府人员没有多少时间考虑这么多问题,因此他们有简单的重要思想版本。例如,很容易得出结论,中国必须拥有数据的内在优势,因为他们拥有更多的人和更少的隐私控制。然而,有很多细微差别:例如,大多数互联网都是英文版,这对美国来说似乎是一个很大的优势。
- 中国的激励机制可能大不相同:至少在一个案例中,化学教授的工资取决于发表的论文数量。
- 一个特别有趣的问题是:“如果一家美国公司正在开发强大的人工智能,它对美国的地缘政治有何帮助?”
何时适合发布高风险人工智能研究? (Claire Leibowicz等):在 GPT-2争议 (AN#46)之后,Partnership on AI 与 OpenAI 和 AI 社区的其他成员共进晚餐,讨论开放规范与降低潜力的愿望之间的紧张关系人工智能研究的意外后果和误用风险。该文章讨论了一些相关的考虑因素,并强调了一个关键结论:虽然对人工智能研究的审查规范尚未达成共识,但 人们 一致认为, 无论审查规范是什么,它们都应该在人工智能社区中实现标准化。
Rohin的观点: 我绝对同意让每个人都遵循相同的评论规范是非常重要的:如果不同的团队将在几周后公布所有细节,那么阻止发布有问题的事情并没有多大帮助。然而,让每个人都同意改变现有规范似乎非常难以做到,尽管如果仅限于那些能够深入参与辩论这些规范应该是什么的最大的参与者,这可能是可行的。
AI的其他进展
无监督学习
无监督学习:好奇的学生 (亚历山大格雷夫斯等人) (由科迪总结):一个高级但写得很好的解释,为什么许多人认为无监督学习将是实现一般智力的关键,触及GAN和自回归模型的方法作为例子。
Cody 的观点: 这是一个干净,清晰的摘要,但没有任何真正的技术深度或细节; 这对于没有任何机器学习背景的人来说是一个很好的写作,他希望能够直观地掌握无监督学习作为一个领域。
评估去缠结表示的无监督学习 (Olivier Bachem) (由Cody总结):这篇博文和论文描述了谷歌规模的不同表征学习方法的比较研究,旨在学习“去缠结”表示,其中表示的轴与产生数据的真实潜在因素一致。该论文的主张在理论上和经验上都是该领域的一个令人警醒的结果。从理论上讲,它们表明,在无监督的环境中,如果不将某种形式的归纳偏差嵌入到模型中,就不可能找到去缠结的表示。根据经验,他们提出的证据表明,对于给定的超参数设置(特别是正则化强度),随机种子之间的变化与该超参数值之间的变化一样重要或更多。最后,他们进行实验,质疑去缠结的表示是否实际上支持转移学习,或者可以确定实际上是在没有使用依赖于具有变异的基本事实因素的度量的情况下进行解开,使得难以评估这些不可用的许多现实背景。
Cody 的观点: 这对我来说是一种非常有价值的经验现实主义注入,这种现实主义往往对研究领域有周期性的好处,即使它可能有点痛苦或令人沮丧。我特别感谢本文所付出的努力和清晰度,阐明了如何使用或评估去缠结的隐含假设,并试图在更真实的环境下测试这些假设,例如你没有任何假设的假设。因为现实世界不倾向于只传出其自身的正确分解模型,因此变异的基本事实因素。
学习使用简易工具的机器人 (Annie Xie等)
Leave a Reply