Слаб наш алайнмент! A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models __Hamid Kazemi, Atoosa Chegini, Maria Safi__ Статья: https://arxiv.org/abs/2605.08513v1 Ревью: https://arxiviq.substack.com/p/a-single-neuron-is-sufficient-to # TL;DR ЧТО сделали: Исследователи из Apple показали, что механизмы безопасности (safety alignment) в современных LLM завязаны на отдельные, изолированные MLP-нейроны, а не распределены по всей сети. Найдя всего один «нейрон отказа» (refusal neuron) и вмешавшись в его работу, авторы успешно обошли все защитные барьеры. И наоборот: усиление всего одного «нейрона концепта» заставило модель генерировать вредоносный контент в ответ на абсолютно безобидные промпты. ПОЧЕМУ это важно: Это открытие ломает устоявшееся мнение, что стандартные методы вроде RLHF или файнтюнинга создают надёжную, распределённую систему безопасности. Тот факт, что у защитного периметра модели есть единая точка отказа, обнажает серьёзную архитектурную уязвимость. Это значит, что нужны принципиально новые парадигмы алаймента, которые будут по-настоящему распределять знания о безопасности по сети, делая её устойчивой к точечным white-box вмешательствам. Для практиков: Статья подсвечивает критическую уязвимость в современных frontier и открытых моделях. Несмотря на миллионы параметров, задействованных в файнтюнинге для безопасности, реальный механизм блокировки вредоносных запросов схлопывается до одного-единственного нейрона. Причём это касается не только отказов: базовые вредоносные знания точно так же изолированы в конкретных «нейронах концептов». Выходит, что текущее обучение безопасности не затирает опасные способности и не формирует надёжных этических представлений. Оно лишь натягивает хрупкую «растяжку», завязанную на один компонент, которую элементарно обойти на инференсе. Выравниваться тут: https://t.me/gonzo_ML_podcasts/3608
Слаб наш алайнмент! A Single Neuron Is Sufficient to Bypass Safety Alignment in…
Из этого канала
- #5372Эволюцию скиллов подвезли. SkillClaw: Let Skills Evolve Collectively with…
Эволюцию скиллов подвезли. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu,…
- #5377"Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом…
"Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом году перед ICLR.
- #5383В дополнение
В дополнение
- #5360И снова BLT, но теперь быстрый! Fast Byte Latent Transformer Julie Kallini,…
И снова BLT, но теперь быстрый! Fast Byte Latent Transformer Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher…
- #5359Картинка с геораспределением аффилиаций на последнем ICLR 2026…
Картинка с геораспределением аффилиаций на последнем ICLR 2026 https://x.com/konstantdobler/status/2053098441069216113 Сейчас по сети ходит также другая…