⚪️ Стадия широкого исследования #ddeval #feb2026eval Итак, закидываем промпт… — @deksden_notes

⚪️ Стадия широкого исследования #ddeval #feb2026eval Итак, закидываем промпт на широкое исследование тестового проекта. Он не очень показателе для внимательности моделей, но позволяет оценить как модели работают с широкими задчами, что могут увидеть, когда приходится смотреть на разные моменты. 1️⃣ GLM-5, claudecode: (тайминг, финишный контекст, строк в отчете) * g1: 7:40, 57% used; 1421 строка; * g2: 9:35, 68% used; 1431 строка; * g3: 11:00, 70.7% used; 1299 строк; Заметно дольше работал, прилично потрачено контекста. Отчеты объемные. 2️⃣ Minimax M2.5, opencode: * m1: 7:09, 49% used; 1202 строк; * m2: 4:30, 59% used; 988 строк; * m3: 5:50, 41% used; 760 строк; Довольно быстро, небольшой расход контекста. отчеты объемные. 3️⃣ Kimi K2.5, opencode: * k1: 1:40, 27& used; 1412 строк; * k2: 3:27, 47% used; 1309 строк; * k3: 2:00, 60% used; 984 строки; Большой разброс таймингов и использования контекста. Отчеты объемные/ 4️⃣ Opus-4.6, CC (antigravity): * все сессии пошли ждать возобновление 5 часового лимита после компакта. Надо будет хоть одну сессию довести после обновления лимита! Обновлю результаты поже * в итоге пришлось переключать сессии на другой аккаунт в процессе, но в целом опус отрабатывает довольно шустро, 3-5 минут, с большим расходом контекста, заполнил под 85-90%; на одной сессии случился компакт прямо после записи отчета; широкий анализ опусом рисковен - он в процессе при компакте забудет половину чего нашел; очтеты 500-900 строк; 5️⃣ Gemini 3 pro: все сессии очень быстро отработали * gm1: 4:30, 21% used; 160 строк; * gm2: 2:10, 14% used; 114 строк; * gm3: 1:93, 16% used; 104 строки; Отчеты очень компактные, что забавно - сама модель самая раговорчивая в процессе. 6️⃣ Gpt-5.2, Codex: * c1: 11:10, 78% used; 513 строк; * c2: 11:08, 75% used; 490 строк; * c3: а вот тут работали х2, один компакт после 12 минут, и далее - до 18:20, 58% used (но был компакт, что и вызвало увеличение времени работы на повторное формирвоание контекста); зато отчет - 645 строк; Долго, медленно, средний размер отчета. 👉 Интересно что китайские модели пишут отчеты х2-х5 по объему от гугла/кодекса. Даже весьма общительный опус пишет менее объемные отчеты. 🟢 Переходим к статистике по отчетам @deksden_notes

Из этого канала