Google выпустили новые открытые модели T5Gemma-2 и FunctionGemma 🟦 T5Gemma-2 – это очередное эффектное возвращение encoder-decoder архитектуры, теперь с длинным контекстом до 128K токенов и мультимодальностью. Как и первая T5Gemma, которая вышла летом, T5Gemma-2 обучалась на основе обычной Gemma, которая представляет из себя decoder-only. Летом Google показали основную идею адаптации: инициализируем encoder-decoder весами decoder-only и продолжаем претрейн через UL2. Теперь этот подход перетянули в multimodal и long-contex, плюс добавили некоторые архитектурные оптимизации. В итоге получилось, что в этот раз это уже не просто эксперимент с архитектурой, а реально полезная моделька. У нее мозги Gemma, но она лучше (+дешевле) переваривает длинные контексты, потому что имеет encoder. Так что если у вас задача типа суммаризации или работа с большими доками – смело используем. Есть варианты на 270M-270M, 1B-1B, 4B-4B (примерная оценка суммарных параметров ~370M / ~1.7B / ~7B). Instuct, к сожалению, не публикуют, а претрейн-чекпоинты лежат тут. 🟦 FunctionGemma – это малюсенький tool-caller для агентов, всего на 270M параметров. По сути, это основа для автономного локального агента. То есть это больше не диалоговая модель, а именно генератор structured function call. У нее даже токенизатор отличается от обычной Gemma. Она может в генерацию текста, но основная ее роль – вызвать нужные инструменты, чтобы выполнить задачу. Короче, что-то типа Siri именно для выполнения оффлайн задач на устройстве. Google подчеркивают, что модель заточена под дообучение (а не промптинг) на конкретные задачи. Например, в кейсе из блогпоста ее достаточно дешево дообучили на Mobile Actions, и точность выросла с 58% до 85%. Вот веса и блогпост с интересными примерами. Все-таки Google молодцы
Google выпустили новые открытые модели T5Gemma-2 и FunctionGemma 🟦 T5Gemma-2 –…
Из этого канала
- #8524Vibe-proving для тех, кому уже надоел vibe-coding 😎
Vibe-proving для тех, кому уже надоел vibe-coding 😎
- #8525Вышел YaC 2025 AI Edition — в этот раз Яндекс сделал фокус на ИИ, который…
Вышел YaC 2025 AI Edition — в этот раз Яндекс сделал фокус на ИИ, который работает не только в экранах, но и за их пределами.
- #8526Avocado и Mango: две новые модельки от Meta Появился слух, что компания…
Avocado и Mango: две новые модельки от Meta Появился слух, что компания разрабатывает и в ближайшем будущем планирует выпускать новую сильную LLM (Avocado) и…
- #8519Новый вайб-проект от Андрея Карпаты: проверяем, какие предсказания из 2015…
Новый вайб-проект от Андрея Карпаты: проверяем, какие предсказания из 2015 сбылись Исследователь провел маленький, но очень занятный эксперимент.
- #8518Так, ну что, теперь очередь инвестировать в OpenAI добралась до Amazon По…
Так, ну что, теперь очередь инвестировать в OpenAI добралась до Amazon По итогам ранних переговоров, компания вложит в стартап 10 миллиардов долларов.