Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives. Auditing Language Models for Hidden Objectives __Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger__ Статья: https://arxiv.org/abs/2503.10965 Пользуясь случаем, я зарядил эту статью в обновлённую мультиагентную систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов. * English TL;DR * Русский обзор Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63…
Из этого канала
- #3487Пятничное, если вы ещё не видели. Тесла и нарисованная дорога:…
Пятничное, если вы ещё не видели. Тесла и нарисованная дорога: https://futurism.com/tesla-wall-autopilot Само видео:…
- #3488Валя Малых будет разбирать свою статью.
Валя Малых будет разбирать свою статью.
- #3489Как улучшить ИИ-генерацию кода? ➡️ Валентин Малых в Reading Club разберет свой…
Как улучшить ИИ-генерацию кода? ➡️ Валентин Малых в Reading Club разберет свой новый рисерч, который прошел отбор на ECIR 2025, эксклюзивно — до официального…
- #3483Ещё про скиллы. Любопытная работа: Compute Optimal Scaling of Skills:…
Ещё про скиллы. Любопытная работа: Compute Optimal Scaling of Skills: Knowledge vs Reasoning Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis,…
- #3481Интересная тема: “Moore’s Law for AI agents” Как со временем растёт длина…
Интересная тема: “Moore’s Law for AI agents” Как со временем растёт длина задач, с которыми могут работать агенты.