PapeRman #8

Note on the bias and variance of variational inference 1906.03708.pdf Evaluating the Robustness of Nearest Neighbor Classifiers: A Primal-Dual Perspective 1906.03972.pdf Joint Semantic Domain Alignment and Target Classifier Learning for Unsupervised Domain Adaptation 1906.04053.pdf Forward and Backward Knowledge Transfer for Sentiment Classification 1906.03506.pdf Zooming Cautiously: Linear-Memory Heuristic Search With Node Expansion Guarantees 1906.03242.pdf What Does …

Continue reading PapeRman #8

ICML 2019 Workshops – #1 ERL

Exploration in RL Homepage: https://sites.google.com/view/erl-2019/ The following YouTube playlist has all the talks from the workshop:https://www.youtube.com/playlist?list=PLbSAfmOMweH3YkhlH0d5KaRvFTyhcr30b Slides for all contributed talks are available here:https://docs.google.com/presentation/d/1zkqtsM-GywKN9kzX4r0j-C1SUF5I0N0mgsxpfvJyl7s Open Problems Below is a list of open questions related to exploration in reinforcement learning. We encourage researchers working on any of these problems to submit to our workshop. Is there …

Continue reading ICML 2019 Workshops – #1 ERL

ICML 2019 Tutorials

Never Ending Learning Lecturers: Tom Mitchell and Partha Talukdar Video: https://www.facebook.com/icml.imls/videos/1083330081864839/ A Primer on PAC-Bayesian Learning Lecturers: Benjamin Guedj and John Shawe-Taylor Homepage: https://bguedj.github.io/icml2019/index.html Keywords: Statistical learning theory, PAC-Bayes, machine learning, computational statistics Slides are available here. Videos are available here: Part 1 Part 2 Neural Approaches to Conversational AI Lecturers: Jianfeng Gao and Michel Galley Slides: …

Continue reading ICML 2019 Tutorials

AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题

在此处查找所有Alignment Newsletter资源。特别是,你可以注册或查看此电子表格中所有摘要中的摘要。我总是很高兴听到反馈; 你可以通过回复此电子邮件将其发送给我。 强调 设计健壮及可靠的人工智能系统以及如何在人工智能中取得成功 (Rob Wiblin和Pushmeet Kohli) :(对于大篇幅的内容,我只是总结了突出要点,而忽略掉了播客中不相干的整个部分。) 在这个播客中,Rob 深入研究了 Pushmeet 关于使人工智能系统健壮的工作细节  。Pushmeet 并未特别将人工智能安全和人工智能能力区分 —— 构建良好人工智能系统的一部分是确保系统安全、稳健、可靠并且通用性良好。否则,如果它不会做我们想要的,我们为什么还要纠结使用它。他的目标是通过主动搜索违反规格的行为或通过形式验证神经网络的特定属性来提高健壮性。也就是说,他还认为这里面临的主要挑战之一是首先确定要验证的内容的规格。 他认为人工智能中的问题类似于编程和计算机安全中出现的问题。在编程中,通常情况是一个写下来的程序不能准确地匹配预期的规格,从而导致错误。通常我们只是接受这些错误发生,但对于亟需安全的系统,如交通信号灯,我们可以使用测试、模糊测试、符号执行和形式验证等技术,使我们能够在程序中找到这些错误。我们现在需要为机器学习系统开发这些技术。 这个类比可以更进一步。静态分析涉及与任何输入分开理解程序的属性,而动态分析涉及理解具有特定输入的程序。类似地,我们可以具有“静态”可解释性,它可以将模型理解为整体(如在  特征可视化中),或“动态”可解释性,这解释了模型对特定输入的输出。另一个例子是类似于验证神经网络属性的特定方法的程序抽象解释技术。 这个类比表明我们以前就已经面临人工智能安全问题,并且已经取得了实质性进展; 现在的挑战是应用在机器学习系统上。也就是说,通用人工智能系统存在一些独特的问题; 这不仅仅是规格问题。例如,我们应该如何与这样一个系统进行沟通是非常不清楚的,这个系统可能有自己的概念和模型,这些概念和模型与人类的概念和模型非常不同。我们可以尝试使用自然语言,但是如果我们这样做,就需要以人类的方式对自然语言进行研究,并且我们不知道如何做到这一点,尽管我们可以测试学习概念是否可以推广到新的设置。我们也可以试着研究机器学习模型的权重,分析它们是否有学到概念——但这需要我们已经有关于概念的形式化规格,这部分看起来很难获得。 Rohin的观点:  我非常喜欢编程和人工智能之间的这个类比; 通过自己思考这个比喻,我形成了很多想法。我同意这个类比意味着我们正试图解决之前在不同上下文环中曾解决过的问题,但我认为现在存在重大差异。特别是,针对长期人工智能安全,我们正在考虑在哪些错误可以是非常昂贵的设定, 并且 我们无法提供我们想要的形式化式规格。将此与交通信号灯进行对比,其中错误可能非常昂贵,但我猜我们可以提供需要遵守的安全约束的形式化规格。公平地说,Pushmeet 承认这一点,并强调规格学习是研究的一个关键领域,但对我来说,这感觉就像我们面临的先前问题的质的差异,而我认为 Pushmeet 会不同意(但我不确定为什么)。 阅读更多: 导向健壮和经验证的人工智能:规格测试,健壮训练和形式验证  (AN#52) 技术AI对齐 学习人的意图 观察的感知价值 (Ashley D. Edwards等人)  (由 Cody 总结):本文提出了一种技术,通过假设轨迹中的最后一个状态是达到目标的状态来学习原始专家轨迹观察,并且其他状态的价值与它们与示范轨迹中的终止状态的接近程度成正比。他们使用此作为训练模型预测价值和行动价值的基础,然后使用这些估计值来确定行动。 Cody的观点:  这个想法肯定会得到一个明确且易于实现的启发式点子,但我担心它可能会遇到与其目标导向假设不匹配的视频。 代表性强化学习 (Vanessa Kosoy):考虑具有“陷阱”的环境:永久限制智能体实现的长期价值的状态。没有人类的世界可能就是这样一个陷阱。如果新状态不像旧状态那样有效获得高回报,那么陷阱也可能在任何不可逆转的行动之后发生。 在这样的环境中,强化学习算法可以简单地不采取任何动作,在这种情况下,它会引起悔值(regret),即到目前为止的时间步数是线性的。(悔值是最优策略下的期望奖励与实际执行的政策之间的差异,因此如果最优政策的每个时间步的平均奖励为2且无所作为总是奖励 0,那么悔值将是 ~2T,其中 T 是时间步数,所以后悔在时间步数上是线性的。)我们能否找到一种RL算法,它能  保证  在时间步长的数量上保持次线性,无论环境如何? 不出所料,这是不可能的,因为在探索过程中,RL 智能体可能陷入陷阱,导致线性悔值。但是,我们假设我们可以委托一位了解环境的顾问:对于我们做得更好的顾问来说,一定是真的吗?显然,顾问必须能够始终避免陷阱(否则会出现同样的问题)。然而,这还不够:获得次线性悔值也需要我们进行足够的探索以最终找到最优策略。因此,顾问必须至少有一些小的概率成为最优,然后智能体可以从中学习。本文证明,有了这些假设,确实存在一种保证获得次线性悔值的算法。 …

Continue reading AN #57 为什么我们应该关注人工智能安全的健壮性和编程中的类似问题

The Landscape of Deep Reinforcement Learning

This is the first Chapter of an open-sourced Deep Reinforcement Learning book. Deep reinforcement learning (Deep RL) can be said to be one of the hottest topics in artificial intelligence (AI), attracting many outstanding scientists in this field to explore its ability to solve tough real-world problems. Deep RL itself is highly respected by various application fields because …

Continue reading The Landscape of Deep Reinforcement Learning

PapeRman #7

HOList: An Environment for Machine Learning of Higher-Order Theorem Proving link: https://arxiv.org/pdf/1904.03241.pdf Abstract We present an environment, benchmark, and deep learning driven automated theorem prover for higher-order logic. Higher-order interactive theorem provers enable the formalization of arbitrary mathematical theories and thereby present an interesting, open-ended challenge for deep learning. We provide an open-source framework based …

Continue reading PapeRman #7