(1)

Guan, M. Y.; Joglekar, M.; Wallace, E.; Jain, S.; Barak, B.; Helyar, A.; Dias, R.; Vallone, A.; Ren, H.; Wei, J. Deliberative Alignment: Reasoning Enables Safer Language Models. SI 2025, 2.