⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2… — @deksden_notes

⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2 #ddeval #feb2026eval Итак, сегодня делаем большой тест свежих моделей китов против текущего фронтира. В сравнение попадают: * Z.ai GLM-5, упряжка ClaudeCode * MiniMax M2.5, OpenCode * Kimi K2.5, OpenCode * не тестировал в эвале ранее - Opus 4.6, ClaudeCode (из антигравити) * и как база - OpenAI gpt-5.2, Codex * а Gemini 3 pro до кучи - анализ ведь, а не код писать Напомню, вот прошлый тур сравнения кодекс 5.3 и gpt 5.2 оценивались, его смотреть можно по тегам #ddeval и #52vs53: * https://t.me/deksden_notes/439 первый пост из цепочки * https://t.me/deksden_notes/443 второй этап, фокусная задача ▶️ Методика та же: * делаем прайминг меморибанком * делаем промпт на широкий анализ * делаем свод внутри агента/модели, потом между моделями * каждый агент/модель запускается в 3х экземплярах, чтобы сделать @3 семплинг для снижения случайных девиаций. Приступим! @deksden_notes

Из этого канала