"Gemini 2.5 Pro Experimental (1/2), общая инфа Ух, прям горячие деньки выдались… — @etechlead

"Gemini 2.5 Pro Experimental (1/2), общая инфа Ух, прям горячие деньки выдались в плане новостей. На мой взгляд, 2 релиза стали лучшими продуктами в своих нишах - OpenAI 4o Image Generation и Google Gemini 2.5 Pro Experimental. (кажется, __гиблизация__ станет словом года, ну или, по крайней мере, месяца :)) Ну, где я, а где картинки, так что поговорим про Gemini :) tl;dr: очень хороший ризонер, лучший в работе с длинным контекстом (1м токенов), пока что бесплатный (с лимитами), но при этом не очень в работе с AI-тулингом. Важные бенчмарки для разработки Aider Polyglot - аж на 8% лучше Sonnet 3.7 Thinking в корректности кода, но, правда, при этом на те же 8% хуже в соблюдении формата для редактирования (что может сделать сложной ее интеграцию с AI-тулингом). SWE-bench Verified - задействует способности модели работать в режиме агента, и да, тут модель хуже Sonnet 3.7 MRCR - тестирование длинного контекста с одной, но слегка нестандартной, иголкой. Отличные результаты, но модели Gemini традиционно хороши в таких тестах. Хочется спросить, однако: Google, где Sonnet? Fiction.liveBench - свежий бенчмарк на тестирование понимания моделью длинного контекста через скармливание ей рассказа и последующих вопросов на развитие сюжета, отношений персонажей, предсказаний на основе подсказок и т.п. Этот тест куда правильнее тестирует ""честный"" контекст модели, и результаты Gemini тут просто уходят в отрыв. Жаль, что не тестировали на более длинных текстах. LIveCodeBench v5 - олимпиадные задачки по программированию, тут модель чутка хуже сильно натасканной на это o3-mini (и опять, в результатах нет Sonnet 3.7) - т.е. она способна решать довольно сложные алгоритмические задачи, что говорит об очень хорошем ризонинге. AIME 2025 - олимпиады по математике, примерно те же результаты, что и у o3-mini, что тоже показывает отличный ризонинг у модели. Knowledge Cutoff Модель обладает знаниями от января 2025, и это отличная новость - она должна быть в курсе актуальных версий языков/библиотек (__да, OpenAI, у нас давно не 2023й__). Длина контекста - 1м токенов ... при этом обещают увеличить до 2м. Не устаю повторять, что длина ""честного"" контекста - одно из самых существенных ограничений текущих моделей. С 1м эффективного контекста и таким ризонингом Gemini 2.5 способна работать с кодовыми базами в 5+ раз больше, чем Sonnet 3.7, с тем же или выше качеством. Тулинг и прочие фичи У модели заявлены: ● Structured Outputs & Function Calling ● граундинг через поиск в интернете ● выполнение кода Ну т.е. очень фичастая модель, есть практически всё необходимое, однако при этом она не так хороша в тулинге, как тот же Sonnet 3.7. Было бы здорово, если бы с этим что-то сделали к релизу. Нет кеширования Это потому, что модель экспериментальная, к релизной версии кеширование будет, а иначе в агентском режиме можно будет разориться. Цена Пока что модель бесплатная в силу экспериментальности, но что-то страшно себе представить, сколько она будет стоить, с таким-то контекстом и возможностями :) Лимиты Пока модель бесплатная, на неё установлены такие лимиты: ● 2 запроса в минуту ● 2м токенов в минуту ● 50 запросов в день (стоит иметь в виду, если захочется её как агента использовать - довольно быстро можно упереться в дневной лимит) Как попробовать? ● модель доступна в Google AI Studio в режиме обычного онлайн-чата ● есть в OpenRouter - можно подключать в Cline, к примеру (каждый вызванный тул - один использованный запрос из 50 доступных в день) ● её добавили в Cursor, но работает так себе (контекст, кажется, режется самим Cursor, модель не работает в режиме агента и ломается форматирование при выводе) #ai #development #model"

Из этого канала