Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции. Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды. Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты. Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров? ~~T-1000~~ T5 ещё всем покажет?
Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы…
Из этого канала
- #4235Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :)…
Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :) Silicon Valley Is Quietly Building on Qwen 📌 What’s happening: Bloomberg’s latest…
- #4236Ну что, ждём сегодня Gemini 3.0?
Ну что, ждём сегодня Gemini 3.0?
- #4237It happened! https://blog.google/products/gemini/gemini-3/
It happened! https://blog.google/products/gemini/gemini-3/
- #4219Наиболее примечательным результатом является превосходство RedLLM в…
Наиболее примечательным результатом является превосходство RedLLM в эффективности.
- #4218RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention…
RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention энкодера, self-attention декодера и cross-attention.