具有避免奖励函数篡改动机的智能体设计

从人工智能安全的角度来看,拥有一个清晰的设计原则和一个清晰的表明了它解决了什么问题的特性描述就意味着我们不必去猜测哪些智能体是安全的。在本文和这篇论文中,我们描述了一种称为当下奖励函数优化的设计原理如何避免奖励函数篡改问题。 … More 具有避免奖励函数篡改动机的智能体设计

用因果影响图建模通用人工智能安全框架

我们写了一篇论文,将用来设计安全通用人工智能(AGI)的各种框架(例如,带有奖励建模的强化学习,合作式逆强化学习 CIRL,辩论 debate 等)表示为因果影响图(CID),以帮助我们比较框架并更好地理解相应的智能体激励机制。 … More 用因果影响图建模通用人工智能安全框架

利用因果影响图来理解智能体动机

影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。 … More 利用因果影响图来理解智能体动机