"Интересный анализ. Трансформеры плохо обобщают рекурсивные алгоритмы даже на длины in-domain. По сути они выучивают отдельную схему под каждую длину! 🙀 То ли дело RNN/SSM. Ну, за правильный induction bias! On the ""Induction Bias"" in Sequence Models __M.Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic__ Статья: https://arxiv.org/abs/2602.18333 Ревью: https://arxiviq.substack.com/p/on-the-induction-bias-in-sequence # TL;DR ЧТО сделали: Исследователи из Qualcomm AI Research провели масштабное эмпирическое сравнение того, насколько эффективно трансформеры (https://arxiv.org/abs/1706.03762) и рекуррентные нейросети (RNN) используют данные при решении задач на трекинг состояний в рамках in-distribution. Независимо меняя длины последовательностей и размеры пространства состояний, они определили минимальный размер выборки для сходимости моделей. Авторы формализуют понятие «индуктивного смещения» (induction bias) и вводят коэффициент «совместного использования механизмов» (sharing factor), чтобы оценить, выучивают ли модели универсальные правила, не зависящие от длины, или просто запоминают изолированные эвристики. ПОЧЕМУ это важно: Раньше в статьях в основном обсуждали, что трансформеры плохо экстраполируют на длинные тексты (out-of-distribution). Эта работа вскрывает куда более глубокий архитектурный изъян: чудовищную неэффективность использования данных даже в том случае, когда распределения на трейне и тесте полностью совпадают. Оказывается, трансформеры страдают от деструктивной интерференции между последовательностями разной длины — они выучивают для них отдельные вычислительные пути вместо единого алгоритмического правила. Такое отсутствие амортизированного обучения ставит под серьёзный вопрос применимость sequence-моделей в агентных сценариях, многошаговых рассуждениях и при масштабировании контекста. Детали тут: https://t.me/gonzo_ML_podcasts/2595"
"Интересный анализ. Трансформеры плохо обобщают рекурсивные алгоритмы даже на…
Из этого канала
- #4863Интересная 100+ страничная работа про экономику AGI. Один из больших выводов —…
Интересная 100+ страничная работа про экономику AGI. Один из больших выводов — в эпоху дешёвой генерации узким местом становится человеческая валидация.
- #4868"Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше…
"Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше Гамбаряну за ссылку! Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy…
- #4873Это какая-то очень интересная история, если я правильно её понял. Авторы…
Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких…
- #4850Ожидаемо пошёл вал работ, изучающих феномен Moltbook. В продолжение темы Лёши…
Ожидаемо пошёл вал работ, изучающих феномен Moltbook. В продолжение темы Лёши (https://t.me/gonzoML/4696) я взял одну из статей, которая казалась относительно…
- #4846Джепизация всей планеты продолжается. C-JEPA. На сабстеке завёл отдельную…
Джепизация всей планеты продолжается. C-JEPA. На сабстеке завёл отдельную секцию про World Models: https://arxiviq.substack.com/s/world-models/archive?sort=new…