"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️… — @deksden_notes

"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект - типизация: кто в курсе про TS - это использование ""as any"" и заморочки типизации в коде. Модели будут смотреть только этот аспект, и больше ничего. Так проще проверить действительную внимательность, детальность и смышленость модели. Этап сбора контекста, тайминги и финишный контекст (процент свободного): gpt 5.2: * 1: 3.5 мин, 71% * 2: 3.5 мин, 75% * 3: 4.5 мин, 61% gpt 5.3-codex: * 1: меньше 2мин, 69% * 2: меньше 2 мин, 67% * 3: 3 мин, 70% Стартуем: gpt5.2 возился заметно дольше, gpt5.3-codex существенно пошустрее. На одной сессии разница раза в 2,5 по времени достигла (там 5.2 после компакта решил еще на разик все переделать заново). Ничего неожиданного! Сварм в 5.3 был в сесси 2 и 3. Первые результаты сведения находок: ▶️ 5.3-codex : найдено 23 проблемы. сессия 1 нашла 1 уникальную проблему, сессии 2 и 3 со свармом - 3 и 6. проблем. Соответственно, сварм опять сделал лучше. ▶️ 5.2: нашла заметно больше проблем - 34. Это на 50% больше! - только gpt5.2: 21 - в обоих: 14 - только gpt5.3-codex: 12 🆕 Расход токенов. Сам анализ занял примерно 100m токенов модели 5.2 и 78m токенов 5.3-codex. То есть кодекс на 20% меньше токенов кушает точно. замечу - тут еще потери на сварме! если в один поток, экономия токенов будет еще значительнее. 👉 Выводы по туру 2: сварм в 5.3 действительно улучшает результаты. 👉 Модель 5.3 работает быстрее минимум на 30%, и тратит токенов минимум на 20% меньше. Сварм заметно замедляет агента на небольших задачах. 👉 Внимательность и глубина проработки вопросов у 5.2 все таки больше, и заметно. 🟢 Мой Вывод: дебаг и планирование остаются за 5.2. Кодирование по проработанному плану (когда не нужно глубоких раздумий) вполне можно делать на 5.3 - будет быстрее, дешевле по лимитам, и не хуже! Сварм включаем для более сложных задач, он улучшает качество почти до 5.2 на подходящих вопросах."

Из этого канала