REALab:概念化篡改问题

智能体学习如何直接刺激其奖励机制,而不是解决其预期任务。在关闭/关闭问题中,智能体会干扰其监督者停止智能体操作的能力。这两个问题有一个共同的代理-监督者破坏了监督者对任务的反馈。我们将此称为篡改问题:当用于描述目标的所有反馈机制均受智能体影响时,我们如何设计追求给定目标的智能体?