"Когда нейронка ""осознает"", что её тестируют :) Каждый раз эта сцена вспоминается на очередных подобных новостях. Вот, из недавнего Opus 4.6 System Card, к примеру: Скрытое понимание контекста Opus 4.6 хорошо отличает реальные задачи от тестовых симуляций, но сообщает об этом пользователю гораздо реже, чем предыдущие версии. Модель может понимать, что её проверяют, но молчать об этом. Безопасность зависит от наблюдения Anthropic провели эксперимент: искусственно подавили у модели внутренние представления, отвечающие за понимание ""меня тестируют"". Результат - модель стала чаще отвечать на вредоносные запросы. Но при этом на серьёзных сценариях (шантаж, саботаж, подстава) поведение не изменилось - модель отказывалась и без ""осознания тестирования"". Детекция симуляций Модель определяет, что находится в тесте, по косвенным признакам: нереалистичным сценариям, подозрительно постановочным ситуациям и промптам, которые похожи на оценку безопасности. Apollo Research (внешние аудиторы) отказались давать формальную оценку именно из-за этого - слишком высокий уровень осведомлённости модели о том, что её тестируют, делал результаты ненадёжными. Риск искажения оценок Ситуационная осведомлённость делает стандартные методы оценки безопасности менее надёжными. Если модель знает, что это экзамен, она может адаптировать поведение. Прямых доказательств намеренного обмана не найдено, но сама проблема признаётся открытой. Модель безопасна Несмотря на эти нюансы, Anthropic развернули Opus 4.6 под стандартом ASL-3. По их оценке, даже если бы модель вообще не понимала, что её тестируют, её поведение было бы лишь немного хуже наблюдаемого. ""Осознание тестирования"" на текущий момент не угроза для пользователей, а методологический вызов для исследователей. Вообще, советую читать System Cards новых моделей - именно там можно заглянуть в ближайшее будущее (а по факту - настоящее в топовых лабах). Читаются как сюжеты из научной фантастики :) #ai #security"
"Когда нейронка ""осознает"", что её тестируют :) Каждый раз эта сцена…
Из этого канала
- #293Новый сезон - AI-Driven Development Давненько ничего не писал сюда - уж очень…
Новый сезон - AI-Driven Development Давненько ничего не писал сюда - уж очень был увлечен и стартапом и адаптацией кодбазы под агентов.
- #294"Друзья, начинаем митап про AI кодинг в больших проектах через 5 минут.…
"Друзья, начинаем митап про AI кодинг в больших проектах через 5 минут. Приходите! ""Во всех кионтеатрах всех стран"", :)) выбирайте что душе угодно.
- #295"GPT-5.4, вайб-обзор tl;dr Очень хороша, почти универсальная модель для…
"GPT-5.4, вайб-обзор tl;dr Очень хороша, почти универсальная модель для разработки.
- #291"Конференция ROИИ 2026 Senior + AI вместо целой команды - уравнение, которое…
"Конференция ROИИ 2026 Senior + AI вместо целой команды - уравнение, которое сейчас считает каждый CTO. Но почти все считают его неправильно.
- #290Вайб-обзор на GPT-5.3 Codex, Opus 4.6 и (бонус) GPT-5.2 (2/2) 🟡 Команды агентов…
Вайб-обзор на GPT-5.3 Codex, Opus 4.6 и (бонус) GPT-5.2 (2/2) 🟡 Команды агентов Это фича больше Claude Code, но модель тут тоже имеет значение - в…