"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели… — @deksden_notes

"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели работаю сопоставимое время. Шустрость кодекса 5.3 в задачах не наблюдается в итоговом времени gtd - инстансы агентов 5.2 и 5.3 работали сопоставимое время, разбег во времени работы между 5.2 и 5.3 незначительный. Впрочем, тут может быть дело в сварме, который заметно замедляет. Агент 5.3, который работал без сварма, справился за 9 минут, что заметно быстрее (30% от времени 5.2 или более чем 50% от своего времени в базе), чем 5.2 (там 14-20 минут было). 👉 Качество обнаружения проблем требует отдельной диагностики, но широкий ""чес"" показывает примерно сопоставимые возможности. 👉 Заметное отличие в работе с контекстом - 5.3 заметно быстрее набирает контекст, и больше его тратит. 👉 Заметное отличие в работе со свармом: только 5.3 пробует его использовать без дополнительного промптинга, видимо уже подучена. 👉 Сварм не сказать чтобы ускорил задачу, но и задача была небольшая (15-20 минут максимум в одну сессию). Скорее сварм замедлил. Агенты в один поток работал на 50%-100% быстрее (9 минут против 15-20). 👉 Возможно, сварм увеличил качество работы: сессии 1 и 3 у 5.3-кодекса работали со свармом. Количество обнаруженных у них уникальных проблем - 12 и 13 соответственно. У сессии 2 которая в один поток работала, обнаружено 4 уникальных проблемы. Разница заметная и выраженная. Возможное объяснение: каждый агент из сварма получил более узкую фокусную задачу, чем отдельный агент в одном потоке, что помогло концентрировать внимание. 👉 У модели 5.2 больше всего уникальных проблем нашел агент, кто дольше всех праймился и кто заметнее всех забил контекст. Впрочем, распределение 8, 5 и 10 не позволяет считать такой разброс заметным, ведь 8 проблем нашел агент с минимальной потратой контекста на прайминг! Так что тут выводов сделать сложно. ▶️ Промпты пока не публикую, если будет выраженный интерес - можно будет зашарить, там ничего секретного и интересного, все довольно линейно. @deksden_notes"

Из этого канала