"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект - типизация: кто в курсе про TS - это использование ""as any"" и заморочки типизации в коде. Модели будут смотреть только этот аспект, и больше ничего. Так проще проверить действительную внимательность, детальность и смышленость модели. Этап сбора контекста, тайминги и финишный контекст (процент свободного): gpt 5.2: * 1: 3.5 мин, 71% * 2: 3.5 мин, 75% * 3: 4.5 мин, 61% gpt 5.3-codex: * 1: меньше 2мин, 69% * 2: меньше 2 мин, 67% * 3: 3 мин, 70% Стартуем: gpt5.2 возился заметно дольше, gpt5.3-codex существенно пошустрее. На одной сессии разница раза в 2,5 по времени достигла (там 5.2 после компакта решил еще на разик все переделать заново). Ничего неожиданного! Сварм в 5.3 был в сесси 2 и 3. Первые результаты сведения находок: ▶️ 5.3-codex : найдено 23 проблемы. сессия 1 нашла 1 уникальную проблему, сессии 2 и 3 со свармом - 3 и 6. проблем. Соответственно, сварм опять сделал лучше. ▶️ 5.2: нашла заметно больше проблем - 34. Это на 50% больше! - только gpt5.2: 21 - в обоих: 14 - только gpt5.3-codex: 12 🆕 Расход токенов. Сам анализ занял примерно 100m токенов модели 5.2 и 78m токенов 5.3-codex. То есть кодекс на 20% меньше токенов кушает точно. замечу - тут еще потери на сварме! если в один поток, экономия токенов будет еще значительнее. 👉 Выводы по туру 2: сварм в 5.3 действительно улучшает результаты. 👉 Модель 5.3 работает быстрее минимум на 30%, и тратит токенов минимум на 20% меньше. Сварм заметно замедляет агента на небольших задачах. 👉 Внимательность и глубина проработки вопросов у 5.2 все таки больше, и заметно. 🟢 Мой Вывод: дебаг и планирование остаются за 5.2. Кодирование по проработанному плану (когда не нужно глубоких раздумий) вполне можно делать на 5.3 - будет быстрее, дешевле по лимитам, и не хуже! Сварм включаем для более сложных задач, он улучшает качество почти до 5.2 на подходящих вопросах."
"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️…
Из этого канала
- #444⚪️ Antigravity Knowledge Items Тут Гугол близок к изобретению меморибанка 🔗…
⚪️ Antigravity Knowledge Items Тут Гугол близок к изобретению меморибанка 🔗 https://x.com/antigravity/status/2020180758606807471?s=20 Лучше поздно ..
- #445"⚪️ ... и Боба! Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся…
"⚪️ ... и Боба! Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся на бобах! Это волшебый нейминг. Не мог не поделиться.
- #447⚪️ Opus 4.6 в антигравити Забрал нового опуса из антигравити, подписка AI Pro.…
⚪️ Opus 4.6 в антигравити Забрал нового опуса из антигравити, подписка AI Pro. Обращаем внимание на смену нейминга моделей внутри антигравити - приставка…
- #442"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели…
"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели работаю сопоставимое время.
- #441⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт…
⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем.