"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один… — @gonzo_ML

"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для решения задачи схему, найдётся ещё миллион других не хуже. Диалектика. All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs __Xi Chen, Mingyu Jin, Jingcheng Niu, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue, Gerald Penn__ Статья: https://arxiv.org/abs/2605.12671 Код: https://github.com/TonyXiChen/OASR Ревью: https://arxiviq.substack.com/p/all-circuits-lead-to-rome-rethinking # TL;DR ЧТО сделали: Авторы предложили метод Overlap-Aware Sheaf Repulsion (OASR) и показали, что в LLM есть множество функционально эквивалентных и почти не пересекающихся вычислительных подграфов. Эти механизмы независимо выполняют одну и ту же задачу, что разрушает привычную гипотезу о существовании уникальных ""каноничных"" вычислительных схем. ПОЧЕМУ это важно: Работа сдвигает парадигму механистической интерпретируемости от редукционистского поиска единственной истинной схемы к распределённому подходу. Попытки выравнивания (AI alignment), редактирования или оценки моделей на основе одиночных подсетей могут провалиться, так как параллельные избыточные механизмы легко поддержат исходное поведение. Для практиков: Если вы пытаетесь задебажить LLM, удаляя одну конкретную цепочку вычислений, будьте готовы, что модель решит задачу обходным путём. Искать и контролировать нужно целые плотные семейства резервных механизмов, а не одиночные связи. Искать схемы тут: https://t.me/gonzo_ML_podcasts/3677"

Из этого канала