"Heretic — автоматическое снятие цензуры с LLM В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях, когда они блокируют ""вредные"" запросы. Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры. Heretic вычисляет ""направления отказа"" как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, минимизируя одновременно количество отказов и KL-divergence от оригинальной модели. Работает полностью автоматически — просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt-oss снятие цензуры точно не помешает. https://github.com/p-e-w/heretic @ai_newz"
"Heretic — автоматическое снятие цензуры с LLM В прошлом году несколько…
Из этого канала
- #4259"Вышел Grok 4.1 Это апдейт посттрейна поверх той же базовой модели Grok 3 на…
"Вышел Grok 4.1 Это апдейт посттрейна поверх той же базовой модели Grok 3 на три триллиона параметров. Модель идёт как в ризонинг, так и в инстракт варианте.
- #4260Gemini 3 Pro доступна в AI Studio SOTA по всем бенчам кроме SWE-Bench, где…
Gemini 3 Pro доступна в AI Studio SOTA по всем бенчам кроме SWE-Bench, где отстаёт от Sonnet 4.5 на 1 процентный пункт.
- #4261"Ну, что, трудяги, посмотрим на график размера офферов на L5 в биг-техе? График…
"Ну, что, трудяги, посмотрим на график размера офферов на L5 в биг-техе? График показывает распределение размера Total Comp для new hires на Senior (L5) роли в…
- #4256Нейродайджест за неделю (#94) LLM - GPT 5.1 — Большой упор на пользователей,…
Нейродайджест за неделю (#94) LLM - GPT 5.1 — Большой упор на пользователей, которым не понравилась личность GPT-5.
- #4255Google DeepMind выкатили SIMA 2 — апгрейднутую версию AI агента для игр. В…
Google DeepMind выкатили SIMA 2 — апгрейднутую версию AI агента для игр. В отличие от первой версии, которая могла выполнять лишь базовые действия, SIMA 2…