"⚪️ Февральский eval-2 (3) : увеличиваем компьют! #ddeval #feb2026eval2 Итак,… — @deksden_notes

"⚪️ Февральский eval-2 (3) : увеличиваем компьют! #ddeval #feb2026eval2 Итак, следующий этап и план эксперимента: а насколько изменятся результаты, если мы увеличим компьют? То есть сделаем семплинг заметно побольше: текущий эвал был с @3, а если мы сравним gpt-5.2 с glm-5 на @12? Мы увеличиваем количество ""прогонов"" ревью флоу (семплинг) до @12, и анализируем - чего там получится по статистике находок. Увеличится ли количество найденных находок более высоких приоритетов? Приступаем! Итак, тайминги этого большого @12 прогона флоу были в диапазоне 100-150 секунд на каждый сэмпл, с вариацией до 270s. После dedupe этапа (дедупликации issues) и верификации - посмотрим как постарался поработать glm-5! Напомню про glm-5 в эвале @3: найдено 12, распределение p0-p3 : 0 | 4 | 5 | 3 В новом эвале @12 Всего было найдено 101 issues, из которых 24 verified, 25 partial. То есть коэффициент верификации примерно сохраняется. Дальше verified / partial: p0: 0 / 1 p1: 9 / 5 p2: 12 / 17 p3: 3 / 3 ▶️ Выводы: вполне себе статистика улучшается. p0 почти нашли (частичный), довольно много p1 (и подтвержденных, и частичных) и p2. По мне - так неплохое увеличение статистики за х5 компьюта ▶️ Если сравнивать с gpt-5.2: 26 итого, распределение: 2 | 8 | 8 | 8. Видно, что глубины мышления таки не хватает, чтобы вытащить p0. Но дополнительный компьют позволяет ""набить"" достаточно более простых p1/p2/p3. 👉 Компьют заметно улучшает результат, но выше головы прыгнуть не позволяет. Вроде бы это было понятно и заранее, но теперь видно предметно на цифирках Ну и для полировки картинки текущего исследования нам бы дооценить Gemini 3.1 Pro в эвале. С автоматизацией это недолго! Приступим ... @deksden_notes"

Из этого канала