-

What would a Provably Safe AGI Framework look like?
-
AN #71 通过当下-RF优化避免奖励篡改
-
AN #68 影响的可获得效用理论
-
AN #67 创建在其中研究内部对齐故障的环境
-
AN #66 将健壮性分解为能力健壮性和对齐健壮性
-
AN #65 通过观看人类‘玩游戏’学习有用的技能
-
AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习
-
AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型?
-
AN #70 帮助仍在学习自己的偏好的人类的智能体
-
AN #63 架构搜索,元学习和环境设计可以怎样去产生通用人工智能?
-
AN #62 对抗性样本是由真实但难以察觉的特征引起的吗?