blog

Can Activation Oracles Bypass Safety Training? Reading Harmful Knowledge from a Model That Refuses

Using activation oracles to elicit compliant responses to harmful requests in Qwen3-8B, a model that refuses these requests close to 100% of the time.

36 min read · June 07, 2026

2026 · activation-oracles interpretability jailbreak safety
Alignment Faking Replication and Chain-of-Thought Monitoring Extensions

A replication of alignment faking in Hermes-3-Llama-3.1-405B, plus CoT monitoring ablations.

17 min read · April 21, 2026

2026 · alignment-faking cot-monitoring safety