Слаб наш алайнмент! A Single Neuron Is Sufficient to Bypass Safety Alignment in… — @gonzo_ML

Слаб наш алайнмент! A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models __Hamid Kazemi, Atoosa Chegini, Maria Safi__ Статья: https://arxiv.org/abs/2605.08513v1 Ревью: https://arxiviq.substack.com/p/a-single-neuron-is-sufficient-to # TL;DR ЧТО сделали: Исследователи из Apple показали, что механизмы безопасности (safety alignment) в современных LLM завязаны на отдельные, изолированные MLP-нейроны, а не распределены по всей сети. Найдя всего один «нейрон отказа» (refusal neuron) и вмешавшись в его работу, авторы успешно обошли все защитные барьеры. И наоборот: усиление всего одного «нейрона концепта» заставило модель генерировать вредоносный контент в ответ на абсолютно безобидные промпты. ПОЧЕМУ это важно: Это открытие ломает устоявшееся мнение, что стандартные методы вроде RLHF или файнтюнинга создают надёжную, распределённую систему безопасности. Тот факт, что у защитного периметра модели есть единая точка отказа, обнажает серьёзную архитектурную уязвимость. Это значит, что нужны принципиально новые парадигмы алаймента, которые будут по-настоящему распределять знания о безопасности по сети, делая её устойчивой к точечным white-box вмешательствам. Для практиков: Статья подсвечивает критическую уязвимость в современных frontier и открытых моделях. Несмотря на миллионы параметров, задействованных в файнтюнинге для безопасности, реальный механизм блокировки вредоносных запросов схлопывается до одного-единственного нейрона. Причём это касается не только отказов: базовые вредоносные знания точно так же изолированы в конкретных «нейронах концептов». Выходит, что текущее обучение безопасности не затирает опасные способности и не формирует надёжных этических представлений. Оно лишь натягивает хрупкую «растяжку», завязанную на один компонент, которую элементарно обойти на инференсе. Выравниваться тут: https://t.me/gonzo_ML_podcasts/3608

Из этого канала