⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом #ddeval #feb2026eval2 ▶️… — @deksden_notes

⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом #ddeval #feb2026eval2 ▶️ Ну вот не выдержал я, да. Что то совсем меня разочаровал результат Гемини на стандартном @3 эвале, мне казалось у Гемини потенциал больше. Подумалось что 3 запуска - это все таки маловато, надо попробовать увеличить компьют. Фронтиром видимо не станет, но потенциал надо покопать получше! Да, для фронтирного gpt-5.2 не надо пробовать добавлять компьют - оно и на 3-х попытках норм работает. 👉 Но посмотреть насколько в Гугловского коня будет корм хочется. Неужели модель Гемини действительно вышла такой невыдающейся? Не хочется верить - все таки AI Studio - one love. ▶️ Запустим уже условно стандартный @12 семплинг при всех тех же условиях - родная упряжка, стандартный thinking. С автоматизацией и управлением dd-review через агента это стало сделать значительно проще, конечно - просим кодекс подготовить план эксперимента, он пишет, одобряем - и в путь! Лимитов на 12 семплов не мне хватило, что тоже является признаком времени. Даже у гугла лимиты теперь не кажутся бесконечными. Приходится ограничиваться случившимися 9 семплами, что не х4, но хотя бы х3 - не хочу ждать ресета квоты до конца суток чтобы довести эксперимент. Словив пару багов с кодексом (да, SDK виснет перед финальным ответом с SO, я вкрутил стандартный фоллбэк на агентный процесс со схемой определенной промптом а не параметром генерации и агентным фиксом в случае ошибок схемы). ▶️ В общем, прогон с 9 семплами прошел так: пара таймингов в районе 150 секунд, но в основном 250-300 секунд. Gemini 3.1 pro довольно шустрая! Найдено: всего 31, из которых 22 verified и 9 partial. То есть опять 100% рейт на верификацию находок! Интересно, это явно признак неплохого качества размышлений, модель не глупая. А что с распределением: тут, к сожалению, картина не особо поменялась (verified/partial): p0: 0 / 0 p1: 0 / 1 p2: 3 / 1 p3: 9 / 1 p4: 2 / 0 ▶️ Нда. p0/p1 особо не добавились. Видимо, модели не хватает внимания/глубины проработки материала при такой широкой постановке задачи. Будем тестить эту гипотезу на фокусных тестах, посмотрим как изменится перфоманс со снижением ширины задачи. Пожалуй, сейчас Gemini 3.1 выглядит самым слабым звеном в фронтире. Жаль. Клозеды и Антропики явно имеют модели помощнее, во и случае, для целей ревью кода. Отмечайте - что даже glm-5 нашла 9/5 issues категории p1. Китай нагнал фронтир? Причем, мне говорят в опенкоде у glm-5 не самый лучший перфоманс, надо добить работу в claude code. Нда.. Времена! 🟢 Ну вот пора уже успокоиться с этим эвалом )) (ц) за сим мы и закруглимся! @deksden_notes

Из этого канала