Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции. Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды. Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты. Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров? ~~T-1000~~ T5 ещё всем покажет?