"Gemini 2.5 Pro Exp + Cursor (... после нескольких дней и $50 на тестирование)… — @etechlead

"Gemini 2.5 Pro Exp + Cursor (... после нескольких дней и $50 на тестирование) Вкратце ● для повседневных небольших задач и задач, где требуется ~~слабоумие и отвага~~ инициативная модель, у меня так и остаётся Sonnet 3.7 в режиме агента; ● сложные задачи - Gemini 2.5; ● исследование кодовых баз, ревью, архитектура, планирование, глобальные рефакторинги для небольших проектов - паритет между Sonnet 3.7 и Gemini 2.5; ● всё, что требует больше ~50k контекста - Gemini 2.5; ● для MCP, пока хватает контекста - Sonnet 3.7, а дальше - Gemini 2.5 (да, она работает с MCP в Cursor). Теперь подробности. Ничего неожиданного - самые интересные особенности модели были видны уже на важных для разработки бенчмарках, про которые я писал и рассказывал, почему они важны. Предварительные впечатления тоже остаются в силе. Контекст Это самая важная фича модели. В Cursor для не-MAX режима Gemini 2.5 даётся 120к контекста (как и Sonnet 3.7), а вот в MAX режиме - все 1м. Но даже задолго до 120к, на мой взгляд, Gemini удерживает контекст лучше, чем Sonnet. Она лучше помнит далеко ушедшие по истории куски чата, что помогает как для широких изменений в проекте, так и в плане удержания правил / задач. Как-то модель в точности вспомнила, что мы с ней делали ~150к токенов назад. Ради интереса после ~350к токенов я её просил составить отчёт по проделанной работе и она ничего не потеряла. Работа с контекстом не идеальна - модель может что-то случайно ""забыть"" и ""вспомнить"" при повторном/следующем запросе. И она так же постепенно деградирует по мере удлинения контекста, может путаться, ходить кругами и т.п. Но всё равно в этом плане показывает результаты лучше, чем конкуренты. Работа в режиме агента На фоне не-Anthropic моделей агентский режим хотя бы работает :) Но ощутимо хуже, чем Sonnet 3.7, поэтому он и остаётся рабочей лошадкой. Другое дело, что Sonnet 3.7 - это такая немного упоротая лошадка, а вот Gemini 2.5 делает то, что скажут, не проявляя инициативы. Модель чаще приходится направлять в нужные места проекта, добрасывать ей файлы руками, просить запустить программу, MCP-тул и т.п. Иногда даже чувствуется __вайб__ старых моделей - ""я тут написала часть кода, теперь твоя очередь"". Но для кого-то это будет плюсом. А ещё Gemini работает ощутимо шустрее Sonnet'a. MCP Работает, но хуже, чем в Sonnet, модель ""ленится"" :) (если нужно общее понимание MCP, можно почитать мой цикл постов или статью на Хабре) Ризонинг Там, где не нужно много думать, модель работает примерно на уровне Sonnet 3.6-3.7. А вот там, где нужно копнуть поглубже - алгоритмы, сложные задачи, я раньше использовал o3-mini, но теперь это потеряло смысл, т.к. Gemini эти задачи решает примерно так же, но при этом работает в режиме агента и не ограничена знаниями 2023г. Проблемы ● на 1 из 50 запросов сбивается форматирование и весь последующий чат ломается (помогает возврат к последнему чекпойнту). Но я ожидал, что будет хуже, судя по бенчам :) ● свои правила форматирования кода - нередко, несмотря на то, что в контексте есть примеры оформления кода в проекте, модель всё равно пишет его так, как ей нравится. Я не сторонник километровых правил в Cursor, но тут начал понемногу пополнять список :) ● непрошенное переписывание кода - чаще, чем у Sonnet. Мимоходом может поменять порядок методов, алгоритм, какой-то неоптимальный код и т.п. Но, как ни странно, эти изменения бывают по делу - я так несколько раз оставлял переписанный код ● нестабильная работа в целом - модель экспериментальная и может остановиться посреди ответа, вернуть ошибку, быть недоступной некоторое время и т.п. ● ЦЕНА - MAX-режим с 1м контекста - это 5с за промпт + 5с за каждый вызов тула. (где-то можно попробовать сэкономить при помощи Repomix) Что дальше Модель экспериментальная, так что какие-то вещи улучшатся к релизу. Ещё обещались контекст до 2м увеличить. Кстати, без дневных лимитов модель сейчас только в Cursor можно использовать (Google подсуетился), что говорит о значимости Cursor и о высокой вероятности того, что сценарии, связанные с разработкой, важны для команды Gemini. #ai #model #review"

Из этого канала