Advanced Alignment Concepts

Theoretical foundations of AI alignment challenges

0/5 completed

Topics

Mesa-Optimization & Inner Alignment

Understanding optimizers within optimizers

⏱️ 10 hoursIntermediate

Deceptive Alignment & Treacherous Turns

When AI systems hide their true objectives

⏱️ 8 hoursIntermediate

Iterated Amplification & AI Safety via Debate

Scalable oversight through recursive techniques

⏱️ 10 hoursAdvanced

Embedded Agency & Decision Theory

AI agents embedded in their environment

⏱️ 12 hoursAdvanced

Goal Misgeneralization & Capability Generalization

When models learn unintended goals that generalize

⏱️ 6 hoursIntermediate

← Back to Intermediate

⚡Pre-rendered at build time