Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63… — @gonzo_ML

Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives. Auditing Language Models for Hidden Objectives __Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger__ Статья: https://arxiv.org/abs/2503.10965 Пользуясь случаем, я зарядил эту статью в обновлённую мультиагентную систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов. * English TL;DR * Русский обзор Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!

Из этого канала