⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом #ddeval #feb2026eval2 ▶️ Ну вот не выдержал я, да. Что то совсем меня разочаровал результат Гемини на стандартном @3 эвале, мне казалось у Гемини потенциал больше. Подумалось что 3 запуска - это все таки маловато, надо попробовать увеличить компьют. Фронтиром видимо не станет, но потенциал надо покопать получше! Да, для фронтирного gpt-5.2 не надо пробовать добавлять компьют - оно и на 3-х попытках норм работает. 👉 Но посмотреть насколько в Гугловского коня будет корм хочется. Неужели модель Гемини действительно вышла такой невыдающейся? Не хочется верить - все таки AI Studio - one love. ▶️ Запустим уже условно стандартный @12 семплинг при всех тех же условиях - родная упряжка, стандартный thinking. С автоматизацией и управлением dd-review через агента это стало сделать значительно проще, конечно - просим кодекс подготовить план эксперимента, он пишет, одобряем - и в путь! Лимитов на 12 семплов не мне хватило, что тоже является признаком времени. Даже у гугла лимиты теперь не кажутся бесконечными. Приходится ограничиваться случившимися 9 семплами, что не х4, но хотя бы х3 - не хочу ждать ресета квоты до конца суток чтобы довести эксперимент. Словив пару багов с кодексом (да, SDK виснет перед финальным ответом с SO, я вкрутил стандартный фоллбэк на агентный процесс со схемой определенной промптом а не параметром генерации и агентным фиксом в случае ошибок схемы). ▶️ В общем, прогон с 9 семплами прошел так: пара таймингов в районе 150 секунд, но в основном 250-300 секунд. Gemini 3.1 pro довольно шустрая! Найдено: всего 31, из которых 22 verified и 9 partial. То есть опять 100% рейт на верификацию находок! Интересно, это явно признак неплохого качества размышлений, модель не глупая. А что с распределением: тут, к сожалению, картина не особо поменялась (verified/partial): p0: 0 / 0 p1: 0 / 1 p2: 3 / 1 p3: 9 / 1 p4: 2 / 0 ▶️ Нда. p0/p1 особо не добавились. Видимо, модели не хватает внимания/глубины проработки материала при такой широкой постановке задачи. Будем тестить эту гипотезу на фокусных тестах, посмотрим как изменится перфоманс со снижением ширины задачи. Пожалуй, сейчас Gemini 3.1 выглядит самым слабым звеном в фронтире. Жаль. Клозеды и Антропики явно имеют модели помощнее, во и случае, для целей ревью кода. Отмечайте - что даже glm-5 нашла 9/5 issues категории p1. Китай нагнал фронтир? Причем, мне говорят в опенкоде у glm-5 не самый лучший перфоманс, надо добить работу в claude code. Нда.. Времена! 🟢 Ну вот пора уже успокоиться с этим эвалом )) (ц) за сим мы и закруглимся! @deksden_notes
⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом #ddeval #feb2026eval2 ▶️…
Из этого канала
- #501⚪️ Claude Code - Remote Control Супер фичу выкатывают Антропики! Такой кризис…
⚪️ Claude Code - Remote Control Супер фичу выкатывают Антропики! Такой кризис менеджмент по купированию Дистил-гейта, видимо))) В общем, официальный Remote для…
- #502⚪️ Remote tools for Agents, v.feb-2026 На всякий случай к релизу…
⚪️ Remote tools for Agents, v.feb-2026 На всякий случай к релизу Антропиковского Remote control опубликую свою коллекцию тулов для удаленного управления…
- #503⚪️ Gemini 3 Flash #ddeval #feb2026eval2 Пока листал просторы интернета,…
⚪️ Gemini 3 Flash #ddeval #feb2026eval2 Пока листал просторы интернета, наткнулся на челов, которые используют Гемини для кодинга. Да, какая то секта, видимо.
- #498⚪️ Февральский eval-2 (4): добавляем Gemini 3.1 в список #ddeval #feb2026eval2…
⚪️ Февральский eval-2 (4): добавляем Gemini 3.1 в список #ddeval #feb2026eval2 Итак, Gemini 3.1 в эвале.
- #497"⚪️ Февральский eval-2 (3) : увеличиваем компьют! #ddeval #feb2026eval2 Итак,…
"⚪️ Февральский eval-2 (3) : увеличиваем компьют! #ddeval #feb2026eval2 Итак, следующий этап и план эксперимента: а насколько изменятся результаты, если мы…