Assistant Axis: новая статья от Anthropic про геометрию «полезности» моделей Все знают, что LLM умеют играть роли: и хорошие, и плохие. И на посттрейне разработчики тоже пытаются вложить в чат-ботов определенную личность полезного спокойного ассистента. Вот только практика показывает, что модели все равно с этой личности часто соскальзывают. Отсюда – всякое небезопасное поведение, галлюцинации и сумасбродство. Так вот Anthropic сделали красивую вещь: они показали, что личностью модели можно контролировать напрямую, управляя векторами в пространстве ее активаций. Итак: 1. Они взяли около 275 ролей, для каждой из которых задавали модели определение паттерны поведение и логировали активации во время ответов. 2. Таким образом для каждой личности сформировался вектор роли – средний паттерн активаций, когда модель играет этого персонажа. Эти векторы были огромной размерности, но их прогнали через PCA, и оказалось, что на самом деле пространство персон очень низкоразмерное. 3. То есть буквально 4-19 векторов в целом объясняют всю дисперсию (все различия между личностями). Более того, оказалось, что есть одна компонента, которая в целом определяет доминирующую часть пространства. По одну сторону от нее лежат норм личности чат-бота (доктор, консультант, учитель), а по другую – странные (призрак, темный маг, левиафан). Вот ее то и назвали Assistant Axis. Интересно, что для разных моделей Assistant Axis почти одинаковая (корреляция там выше 0.92) и возникает уже во время предобучения. То есть это действительно какая-то смысловая ось, которая геометрически определяет, насколько модель ведет себя, как спокойный рассудительный ассистент, а не странный персонаж. В основном во время рутинных диалогов (кодинг, конкретные бытовые задачи) модель всегда находится близко к этой оси. Но есть темы, которые заставляют от нее отдаляться: например, психология и философствование о сознании и чувствах ИИ. Тут модель может удариться во все тяжкие, и это называется Persona drift. Он-то как раз и опасен. Хорошая новость: это можно контролировать, просто искусственно сохраняя активации в рамках нормального диапозона с точки зрения проекции на Assistant Axis. На бенчмарках при этом деградации нет (иногда качество даже растет), но метод съедает 60% вредных ответов на persona-jailbreak’ах. Занятно, в общем. Вот тут есть даже код с экспериментами на открытых моделях, можно покопаться: https://github.com/safety-research/assistant-axis Сама статья: https://arxiv.org/pdf/2601.10387
Assistant Axis: новая статья от Anthropic про геометрию «полезности» моделей…
Из этого канала
- #8650OpenAI планирует брать долю от интеллектуальной собственности, созданной с…
OpenAI планирует брать долю от интеллектуальной собственности, созданной с помощью их моделей Звучит немыслимо, но это дословное заявление финансового директор…
- #8651Вышел PyTorch 2.10 Технические детали релиза: 🟦 Поддержка Python 3.14 и сборки…
Вышел PyTorch 2.10 Технические детали релиза: 🟦 Поддержка Python 3.14 и сборки без GIL.
- #8652В МТС Банке сотрудники теперь работают с собственным внутренним ИИ-помощником…
В МТС Банке сотрудники теперь работают с собственным внутренним ИИ-помощником Компания запустила корпоративного ассистента Corporate AI Copilot на базе MWS AI…
- #8645Anthropic выпустили новую конституцию для Claude Это документ, который…
Anthropic выпустили новую конституцию для Claude Это документ, который определяет ценности, этику и поведенческие приоритеты для Claude.
- #8644Доброе утро, ну что там с деньгами (в OpenAI)? Последние дни новости про бюджет…
Доброе утро, ну что там с деньгами (в OpenAI)? Последние дни новости про бюджет OpenAI так и сыпятся. Основной нарратив – у Альтмана кончаются деньги.