"Интересный анализ. Трансформеры плохо обобщают рекурсивные алгоритмы даже на… — @gonzo_ML

"Интересный анализ. Трансформеры плохо обобщают рекурсивные алгоритмы даже на длины in-domain. По сути они выучивают отдельную схему под каждую длину! 🙀 То ли дело RNN/SSM. Ну, за правильный induction bias! On the ""Induction Bias"" in Sequence Models __M.Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic__ Статья: https://arxiv.org/abs/2602.18333 Ревью: https://arxiviq.substack.com/p/on-the-induction-bias-in-sequence # TL;DR ЧТО сделали: Исследователи из Qualcomm AI Research провели масштабное эмпирическое сравнение того, насколько эффективно трансформеры (https://arxiv.org/abs/1706.03762) и рекуррентные нейросети (RNN) используют данные при решении задач на трекинг состояний в рамках in-distribution. Независимо меняя длины последовательностей и размеры пространства состояний, они определили минимальный размер выборки для сходимости моделей. Авторы формализуют понятие «индуктивного смещения» (induction bias) и вводят коэффициент «совместного использования механизмов» (sharing factor), чтобы оценить, выучивают ли модели универсальные правила, не зависящие от длины, или просто запоминают изолированные эвристики. ПОЧЕМУ это важно: Раньше в статьях в основном обсуждали, что трансформеры плохо экстраполируют на длинные тексты (out-of-distribution). Эта работа вскрывает куда более глубокий архитектурный изъян: чудовищную неэффективность использования данных даже в том случае, когда распределения на трейне и тесте полностью совпадают. Оказывается, трансформеры страдают от деструктивной интерференции между последовательностями разной длины — они выучивают для них отдельные вычислительные пути вместо единого алгоритмического правила. Такое отсутствие амортизированного обучения ставит под серьёзный вопрос применимость sequence-моделей в агентных сценариях, многошаговых рассуждениях и при масштабировании контекста. Детали тут: https://t.me/gonzo_ML_podcasts/2595"

Из этого канала