2026 | Angela Tang

Jun 07, 2026	Can Activation Oracles Bypass Safety Training? Reading Harmful Knowledge from a Model That Refuses
Apr 21, 2026	Alignment Faking Replication and Chain-of-Thought Monitoring Extensions