我们写了一篇论文,将用来设计安全通用人工智能(AGI)的各种框架(例如,带有奖励建模的强化学习,合作式逆强化学习 CIRL,辩论 debate 等)表示为因果影响图(CID),以帮助我们比较框架并更好地理解相应的智能体激励机制。
利用因果影响图来理解智能体动机
影响图是一个研究智能体动机的良好开端。图模型提供了一个灵活,准确和直觉语言来同步表示智能体目标和智能体-环境交互。因此,使用本文给出的方法,就有可能从影响图中推断出关于智能体动机的重要方面信息。我们希望这些方法将对更加系统化理解智能体动机,并加深我们对动机问题和解决方案的理解发挥作用。