"⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex) #ddeval #52vs53 Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности поведения модели. А ведь еще надо вспомнить как оно в прошлой версии себя ведет... В общем, лучше делать предметное сравнение. Силы воли чтобы сделать полноценный бенчмарк у меня не набралось - проблема таки не зудит, но для меня вопрос довольно важный: чем работать дальше. Поэтому я придумал eval - это решение моей специфической условно узкой задачи разными моделями. Тут нужен дисклеймер: задача моя, она не претендует на обобщение и репрезентативность, методика моя, она не претендует на академическую правильность. Итак, это будет серия постов - смотрите по тегам в поиске, но я постить их буду подряд. ▶️ Что я придумал делать, план эвала: * берем текущий проект dd-flow * берем мои промпты на прайминг контекста и общий анализ (прогон сценария и анализ ""всего"") * делаем по три контекста gpt5.2 и gpt5.3-codex * каждый получает идентичные промпты, цепочка из двух: прайминг и промпт на широкий анализ * агент работает, результат пишет в индивидуальный файл * после того как все 6 сессий отработают, начнем этап сопоставления * сначала сделаем сгруппированные таблички по каждой модели (по 3 отчета) - и верификацию находок. * Верификатором назначим gpt5.2-xhigh: самая дотошная, кмк. * После верификации и сведения по модели, получившиеся 2 отчета сводим в единый итоговый отчет об обнаруженных проблемах. * ... * PROFIT! ‼️ Важные замечания: промпт на анализ предполагает очень широкий спектр анализа - там и code smels, и архитектурные косяки, и куча прочих аспектов. Для выцепления настоящих проблем это слишком широкая задача. Лучше каждый такой аспект отдельно аналиировать. Но у меня в первом приближении хотелось бы посмотреть что ""широкой сетью"" удастся вытащить! Поэтому значительные вариации в ассортименте найденного даже одной моделью вполне ожидаемы. То есть важно все правильно интерпретировать. 👉 Цель этого эвала - общая оценка работы моделей в сравнении на похожей задачей. Мы скорее будем наблюдать за работой, чем за результатами. Результаты теста по определению будут немного рандомными и разбросанными - это важно понимать, задача широкая, значит температура будет сказываться и модели будут углубляться в рандомные аспекты. 🟢 Чтобы сравнить именно внимательность модели я следом проведу такой же тест, только выберу ОДИН/ДВА аспекта, почитав ""общий"" сводный анализ. И там уже можно будет сравнить внимательность и дотошность моделей. ..."