Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language… — @gonzo_ML

Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model __Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat__ Статья: https://arxiv.org/abs/2510.26622 Любопытная работа про анализ основ, так сказать. Очередная попытка взглянуть на разные варианты архитектур трансформера (конкретнее, чистый декодер и энкодер-декодер) и разобраться, что лучше работает для LLM. Большинство LLM сейчас, как известно, decoder-only, но возможно это просто локальный эволюционный закидон, и мы просто недоисследовали другие варианты. Было немало попыток копнуть другие ветви. Из того, что помню, не так давно воскрешали чистые BERT-style энкодеры (в лице ModernBERT, подробнее тут: https://t.me/gonzo_ML/3090), добавив в старый рецепт Берта современные штуки типа активаций GeGLU, позиционных эмбеддингов RoPE, нормализации в правильных местах (pre-norm) и прочих улучшений. Был любопытный заход на модификацию декодера, YOCO (https://t.me/gonzo_ML/2699), когда большой декодер по факту распиливали на два и получали архитектуру декодер-декодер, оптимизирующую память KV-кеша, где выход первого декодера генерил глобальный KV-кеш, а слои второго декодера смотрели на него через cross-attention. Были интересные попытки выкидывать или шарить FFN в слоях энкодеров и декодеров (https://t.me/gonzo_ML/1829) -- оказывалось, что из декодера вообще можно выкинуть, а в энкодере можно пошарить между слоями. Была также работа про UL2 (https://t.me/gonzo_ML/1113), где отделяли pre-training objective от архитектуры и как раз тоже сравнивали энкодер-декодеры и чистые декодеры. Там и новая предложенная UL2-objective была хороша, и энкодер-декодеры показали себя лучше чистых декодеров. В той работе, кстати, как бы идейно задепрекейтили чистые энкодеры (https://t.me/gonzo_ML/1124), но смотрите, с ModernBERT оно как-то ожило (https://t.me/gonzo_ML/3090). Ну и конечно важно не забывать линейку энкодер-декодеров T5, в которой было много развитий (https://t.me/gonzo_ML/761). В обработке временных рядов показывали, что энкодер-декодер в стиле T5 работает лучше, чем декодер в стиле GPT-2 (работа про Chronos, https://t.me/gonzo_ML/2558). И наконец была недавно (частично от авторов текущей работы) Encoder-Decoder Gemma, она же T5Gemma, (https://arxiv.org/abs/2504.06225), где обученный декодер конвертили в энкодер-декодер и там показали, что энкодер-декодер перформит лучше, особенно после файнтюнинга, а также доминирует по балансу качество/эффективность инференса. Из интересного, в той работе также пробовали UL2 и PrefixLM в качестве objectives и не нашли однозначного лидера: UL2 давала лучшие репрезентации, но уступала в генеративных задачах. Были и другие попытки сравнить декодеры и энкодер-декодеры, например, “What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization?” (https://proceedings.mlr.press/v162/wang22u.html), “Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder“ (https://arxiv.org/abs/2304.04052) или “Do Transformer Modifications Transfer Across Implementations and Applications?” (https://aclanthology.org/2021.emnlp-main.465/), но там не смотрели на задачу через призму скейлинга. Long story short, новая работа устраняет этот недостаток и показывает что не декодерами едиными. В новой работе авторы провели крупномасштабное эмпирическое сравнение между модернизированными (ревизионистскими) архитектурами энкодер-декодер (RedLLM) и доминирующими decoder-only (DecLLM) в масштабах от 150M до 8B параметров. Как и с ModernBERT, они обновили модель современными компонентами, такими как RoPE, RMSNorm и SwiGLU. Для повышения стабильности обе модели применяют дополнительную нормализацию к векторам query (Q), key (K) и value (V) внутри механизма внимания: Attn_DecLLM = Softmax((LN(Q)LN(K)ᵀ)/√(dₕ))LN(V)

Из этого канала