Google выпустили новые открытые модели T5Gemma-2 и FunctionGemma 🟦 T5Gemma-2 – это очередное эффектное возвращение encoder-decoder архитектуры, теперь с длинным контекстом до 128K токенов и мультимодальностью. Как и первая T5Gemma, которая вышла летом, T5Gemma-2 обучалась на основе обычной Gemma, которая представляет из себя decoder-only. Летом Google показали основную идею адаптации: инициализируем encoder-decoder весами decoder-only и продолжаем претрейн через UL2. Теперь этот подход перетянули в multimodal и long-contex, плюс добавили некоторые архитектурные оптимизации. В итоге получилось, что в этот раз это уже не просто эксперимент с архитектурой, а реально полезная моделька. У нее мозги Gemma, но она лучше (+дешевле) переваривает длинные контексты, потому что имеет encoder. Так что если у вас задача типа суммаризации или работа с большими доками – смело используем. Есть варианты на 270M-270M, 1B-1B, 4B-4B (примерная оценка суммарных параметров ~370M / ~1.7B / ~7B). Instuct, к сожалению, не публикуют, а претрейн-чекпоинты лежат тут. 🟦 FunctionGemma – это малюсенький tool-caller для агентов, всего на 270M параметров. По сути, это основа для автономного локального агента. То есть это больше не диалоговая модель, а именно генератор structured function call. У нее даже токенизатор отличается от обычной Gemma. Она может в генерацию текста, но основная ее роль – вызвать нужные инструменты, чтобы выполнить задачу. Короче, что-то типа Siri именно для выполнения оффлайн задач на устройстве. Google подчеркивают, что модель заточена под дообучение (а не промптинг) на конкретные задачи. Например, в кейсе из блогпоста ее достаточно дешево дообучили на Mobile Actions, и точность выросла с 58% до 85%. Вот веса и блогпост с интересными примерами. Все-таки Google молодцы