"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для решения задачи схему, найдётся ещё миллион других не хуже. Диалектика. All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs __Xi Chen, Mingyu Jin, Jingcheng Niu, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue, Gerald Penn__ Статья: https://arxiv.org/abs/2605.12671 Код: https://github.com/TonyXiChen/OASR Ревью: https://arxiviq.substack.com/p/all-circuits-lead-to-rome-rethinking # TL;DR ЧТО сделали: Авторы предложили метод Overlap-Aware Sheaf Repulsion (OASR) и показали, что в LLM есть множество функционально эквивалентных и почти не пересекающихся вычислительных подграфов. Эти механизмы независимо выполняют одну и ту же задачу, что разрушает привычную гипотезу о существовании уникальных ""каноничных"" вычислительных схем. ПОЧЕМУ это важно: Работа сдвигает парадигму механистической интерпретируемости от редукционистского поиска единственной истинной схемы к распределённому подходу. Попытки выравнивания (AI alignment), редактирования или оценки моделей на основе одиночных подсетей могут провалиться, так как параллельные избыточные механизмы легко поддержат исходное поведение. Для практиков: Если вы пытаетесь задебажить LLM, удаляя одну конкретную цепочку вычислений, будьте готовы, что модель решит задачу обходным путём. Искать и контролировать нужно целые плотные семейства резервных механизмов, а не одиночные связи. Искать схемы тут: https://t.me/gonzo_ML_podcasts/3677"
"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один…
Из этого канала
- #5406Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией…
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.
- #5410Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs…
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling Tong Zheng, Haolin Liu,…
- #5414Ты инженер или философ?
Ты инженер или философ?
- #5396Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling:…
Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows Keya Hu, Linlu Qiu, Yiyang Lu,…
- #5393Про разную экономику разметки для реворда и для динамики среды при обучении…
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.