AGI Watchful Guardians

We're open for new collaborations.
News to be updated weekly.

What would a Provably Safe AGI Framework look like?

Xiaohu Zhu

—

Apr 8, 2024

×

AGI, AI Safety, Beneficial, CSAGI
AN #71 通过当下-RF优化避免奖励篡改

Xiaohu Zhu

—

Nov 1, 2019

×

AI Safety, Alignment
AN #68 影响的可获得效用理论

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #67 创建在其中研究内部对齐故障的环境

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #66 将健壮性分解为能力健壮性和对齐健壮性

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #65 通过观看人类‘玩游戏’学习有用的技能

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #64 使用深度强化学习和奖励的不确定性来激发偏好学习

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #69 Stuart Russell 新书-为何我们需要替换人工智能标准模型？

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #70 帮助仍在学习自己的偏好的人类的智能体

Xiaohu Zhu

—

Oct 30, 2019

×

AI Safety, Alignment
AN #63 架构搜索，元学习和环境设计可以怎样去产生通用人工智能？

Xiaohu Zhu

—

Sep 12, 2019

×

未分类
AN #62 对抗性样本是由真实但难以察觉的特征引起的吗？

Xiaohu Zhu

—

Aug 23, 2019

×

AGI, AI Safety, Alignment