⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим. 1️⃣ Тайминги примерно одинаковые получились, но у 5.3 больше не написано сколько модель работала. Видимо, ее комментарии по ходу работы каким то образом сбивают счетчик! Жаль, я обращал на него внимание иногда. Еще зафиксируем процент заполнения контекста на момент завершения прайминга: * Gpt 5.2: 1:44 (90%), 1:47 (86%), 2:42 (84%) * Gpt 5.3-codex: 74%, 66%, 66%. Все три 5.2 начали задание с составления плана, зафиксировав схему работы. Два кодекса 5.3 тоже составили план, а один запустил сварм агентов (но план не составил). Забавно: 5.3 уже подучена пускать сварм чаще! Первое наблюдение: скорость работы на короткой задаче прайминга - сопоставимая, но контекст кодекс забил заметно больше: все три сессии - значит, это особенность поведения модели. 2️⃣ Приступим к следующей фазе. Запускаем промпт на анализ, и ждем! Тут работа будет подольше. gpt 5.2: время работы и контекст: * 1 : работал 14:45, заполнил контекст до 69%, 1 компакт; * 2 : работал 14:45, закончил на 14% - без компактов; * 3 : 21 минута, 1 компакт, 55% контекста. gpt 5.3-codex: время работы и контекст: * 1 : 15 мин, 23% контекст при завершении, сварм после компакта; * 2 : отстрелялся за 9:30 примерно, 79%, 2 компакта, без сварма : * 3 : 20 минут, 48% контекста; сварм сразу. Получили отчеты, записали их в соответствующие файлы. Зафиксировал размеры: gpt 5.2: размер отчета: * 1 : 855 строк * 2 : 691 строка * 3 : 662 строки gpt 5.3-codex: размер отчета: * 1 : 612 строк * 2 : 784 строк * 3 : 629 строк Видно что между моделями нет особенной разницы в размерах отчетов. Отчет записывался всеми агентами около 2 минут, только одна из 5.2 решила записать отчет поподробнее с номерами строк и записывала 3:40. Эти забавы скушали 89% лимита 5 часовой сессии на Teams плане (стадия анализа, без сопоставления отчетов). ...
⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый…
Из этого канала
- #441⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт…
⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем.
- #442"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели…
"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели работаю сопоставимое время.
- #443"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️…
"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект -…
- #439"⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex) #ddeval #52vs53 Решил…
"⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex) #ddeval #52vs53 Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high.
- #438Выпустил 2.11 Agent Sessions - из главного что появилось: - Image Browser и…
Выпустил 2.11 Agent Sessions - из главного что появилось: - Image Browser и показ картинок из чатов прямо внутри сессии и модное - поддержка OpenClaw сессий -…