Бомбическая работа просто! Не понимаю, почему про неё никто вокруг не говорит, почему-то принесло только в мои личные сети. Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights __Yulu Gan, Phillip Isola__ Paper: https://arxiv.org/abs/2603.12228 Code: https://github.com/sunrainyg/RandOpt Review: https://arxiviq.substack.com/p/neural-thickets-diverse-task-experts # TL;DR ЧТО сделали: Авторы предложили полностью параллельный безградиентный алгоритм RandOpt для post-training. Он улучшает предобученные большие языковые модели (LLM) путём простого сэмплирования случайного гауссовского шума поверх весов, оценки этих зашумлённых моделей и ансамблирования предсказаний лучших из них. ПОЧЕМУ это важно: Работа ставит под сомнение устоявшееся мнение, что выравнивание (alignment) языковых моделей строго требует сложной последовательной оптимизации вроде обучения с подкреплением. Исследование раскрывает структурный феномен «нейронных дебрей» (neural thickets). Оказывается, при достаточном масштабе предобученная модель работает как распределение, в непосредственной окрестности весов которого плотно упакованы разнообразные эксперты под конкретные задачи. Погружаться в дебри тут: https://t.me/gonzo_ML_podcasts/2879