"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели работаю сопоставимое время. Шустрость кодекса 5.3 в задачах не наблюдается в итоговом времени gtd - инстансы агентов 5.2 и 5.3 работали сопоставимое время, разбег во времени работы между 5.2 и 5.3 незначительный. Впрочем, тут может быть дело в сварме, который заметно замедляет. Агент 5.3, который работал без сварма, справился за 9 минут, что заметно быстрее (30% от времени 5.2 или более чем 50% от своего времени в базе), чем 5.2 (там 14-20 минут было). 👉 Качество обнаружения проблем требует отдельной диагностики, но широкий ""чес"" показывает примерно сопоставимые возможности. 👉 Заметное отличие в работе с контекстом - 5.3 заметно быстрее набирает контекст, и больше его тратит. 👉 Заметное отличие в работе со свармом: только 5.3 пробует его использовать без дополнительного промптинга, видимо уже подучена. 👉 Сварм не сказать чтобы ускорил задачу, но и задача была небольшая (15-20 минут максимум в одну сессию). Скорее сварм замедлил. Агенты в один поток работал на 50%-100% быстрее (9 минут против 15-20). 👉 Возможно, сварм увеличил качество работы: сессии 1 и 3 у 5.3-кодекса работали со свармом. Количество обнаруженных у них уникальных проблем - 12 и 13 соответственно. У сессии 2 которая в один поток работала, обнаружено 4 уникальных проблемы. Разница заметная и выраженная. Возможное объяснение: каждый агент из сварма получил более узкую фокусную задачу, чем отдельный агент в одном потоке, что помогло концентрировать внимание. 👉 У модели 5.2 больше всего уникальных проблем нашел агент, кто дольше всех праймился и кто заметнее всех забил контекст. Впрочем, распределение 8, 5 и 10 не позволяет считать такой разброс заметным, ведь 8 проблем нашел агент с минимальной потратой контекста на прайминг! Так что тут выводов сделать сложно. ▶️ Промпты пока не публикую, если будет выраженный интерес - можно будет зашарить, там ничего секретного и интересного, все довольно линейно. @deksden_notes"
"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели…
Из этого канала
- #443"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️…
"⚪️ Эвал моделей - финальный забег по фокусному аспекту #ddeval #52vs53 ▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект -…
- #444⚪️ Antigravity Knowledge Items Тут Гугол близок к изобретению меморибанка 🔗…
⚪️ Antigravity Knowledge Items Тут Гугол близок к изобретению меморибанка 🔗 https://x.com/antigravity/status/2020180758606807471?s=20 Лучше поздно ..
- #445"⚪️ ... и Боба! Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся…
"⚪️ ... и Боба! Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся на бобах! Это волшебый нейминг. Не мог не поделиться.
- #441⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт…
⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем.
- #440⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый…
⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим.