-

What would a Provably Safe AGI Framework look like?
-
第 99 期对齐周报 算法效率的增倍时间
-
近似KL散度
-
规格欺骗:人工智能创造力的另一面
-
新研究工作简介:塑造行为的动机
-
AN #75 用学到的游戏模型解决 Atari 和围棋问题以及一位 MIRI 成员的想法
-
AN #74 将向善的人工智能分解为能力、对齐和应对影响
-
Gated linear networks
-
AN #73 通过了解智能体如何崩溃来检测灾难性故障
-
AN #72 对齐、健壮性、方法论和系统构建是人工智能安全的研究重点
-
A Comparative Analysis of Expected and Distributional Reinforcement Learning