Guan, Melody Y., Manas Joglekar, Eric Wallace, Saachi Jain, Boaz Barak, Alec Helyar, Rachel Dias, et al. 2025. “Deliberative Alignment: Reasoning Enables Safer Language Models”. SuperIntelligence - Robotics - Safety & Alignment 2 (3). https://doi.org/10.70777/si.v2i3.15159.