DeepMind выпустил новую T5Gemma 2, построена по старому рецепту (конвертируем… — @gonzo_ML

DeepMind выпустил новую T5Gemma 2, построена по старому рецепту (конвертируем декодер-only в энкодер-декодер), теперь на базе Gemma 3 (старая версия была на Gemma 2). Я бы назвал, конечно, T5Gemma 3 во избежание путаницы :) Из интересного, сделали архитектурное изменение в блоке внимания декодера — теперь там один объединённый блок вместо двух ранее (cross-attention + self-attention). Короче, зачётная тема. Энкодер-декодеры начинают рулить. Если вы забыли или не знали, в чём разница, то я собрал краткое введение в своём недавнем посте. Ещё хочу сказать, что автообзоры дошли до вполне достойного уровня. Статья про T5Gemma из той группы, которую я бы разобрал вручную. Но после авторазбора мне тут добавить уже особо нечего, он вполне хороший и заменяет то, что я сделал бы вручную. Добавочная ценность теперь скорее в мета-анализе и размышлениях за пределами статьи как таковой. T5Gemma 2: Seeing, Reading, and Understanding Longer __Biao Zhang, Paul Suganthan, Gaël Liu, Ilya Philippov, Sahil Dua, Ben Hora, Kat Black, Gus Martins, Omar Sanseviero, Shreya Pathak, Cassidy Hardin, Francesco Visin, Jiageng Zhang, Kathleen Kenealy, Qin Yin, Olivier Lacombe, Armand Joulin, Tris Warkentin and Adam Roberts__ Статья: https://arxiv.org/abs/2512.14856 Ревью: https://arxiviq.substack.com/p/t5gemma-2-seeing-reading-and-understanding Модель: https://huggingface.co/collections/google/t5gemma-2 # TL;DR ЧТО сделали: Исследователи из Google DeepMind представили T5Gemma 2 — семейство моделей (270M, 1B, 4B) архитектуры энкодер-декодер, собранных на базе чекпоинтов decoder-only модели Gemma 3. Авторы расширили рецепт адаптации для поддержки мультимодальных входов (через SigLIP) и длинного контекста (до 128k токенов), попутно внедрив оптимизации вроде связанных эмбеддингов (tied embeddings) и объединенного внимания (merged attention), что сократило количество параметров на ~10% без потери качества. ПОЧЕМУ это важно: Работа бросает вызов тотальному доминированию decoder-only архитектур (типа LLaMA или GPT). Она доказывает, что энкодер-декодеры обладают лучшими индуктивными смещениями (inductive biases) для моделирования длинного контекста и мультимодального поиска. Это готовый блюпринт по эффективной конвертации мощных каузальных LLM в двунаправленные модели, которые умеют глубоко «вчитываться» в объемный контекст перед генерацией, что критически важно для RAG и сложных пайплайнов работы с документами. Подробнее: https://t.me/gonzo_ML_podcasts/1775

Из этого канала