⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим. 1️⃣ Тайминги примерно одинаковые получились, но у 5.3 больше не написано сколько модель работала. Видимо, ее комментарии по ходу работы каким то образом сбивают счетчик! Жаль, я обращал на него внимание иногда. Еще зафиксируем процент заполнения контекста на момент завершения прайминга: * Gpt 5.2: 1:44 (90%), 1:47 (86%), 2:42 (84%) * Gpt 5.3-codex: 74%, 66%, 66%. Все три 5.2 начали задание с составления плана, зафиксировав схему работы. Два кодекса 5.3 тоже составили план, а один запустил сварм агентов (но план не составил). Забавно: 5.3 уже подучена пускать сварм чаще! Первое наблюдение: скорость работы на короткой задаче прайминга - сопоставимая, но контекст кодекс забил заметно больше: все три сессии - значит, это особенность поведения модели. 2️⃣ Приступим к следующей фазе. Запускаем промпт на анализ, и ждем! Тут работа будет подольше. gpt 5.2: время работы и контекст: * 1 : работал 14:45, заполнил контекст до 69%, 1 компакт; * 2 : работал 14:45, закончил на 14% - без компактов; * 3 : 21 минута, 1 компакт, 55% контекста. gpt 5.3-codex: время работы и контекст: * 1 : 15 мин, 23% контекст при завершении, сварм после компакта; * 2 : отстрелялся за 9:30 примерно, 79%, 2 компакта, без сварма : * 3 : 20 минут, 48% контекста; сварм сразу. Получили отчеты, записали их в соответствующие файлы. Зафиксировал размеры: gpt 5.2: размер отчета: * 1 : 855 строк * 2 : 691 строка * 3 : 662 строки gpt 5.3-codex: размер отчета: * 1 : 612 строк * 2 : 784 строк * 3 : 629 строк Видно что между моделями нет особенной разницы в размерах отчетов. Отчет записывался всеми агентами около 2 минут, только одна из 5.2 решила записать отчет поподробнее с номерами строк и записывала 3:40. Эти забавы скушали 89% лимита 5 часовой сессии на Teams плане (стадия анализа, без сопоставления отчетов). ...