"⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex) #ddeval #52vs53 Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности поведения модели. А ведь еще надо вспомнить как оно в прошлой версии себя ведет... В общем, лучше делать предметное сравнение. Силы воли чтобы сделать полноценный бенчмарк у меня не набралось - проблема таки не зудит, но для меня вопрос довольно важный: чем работать дальше. Поэтому я придумал eval - это решение моей специфической условно узкой задачи разными моделями. Тут нужен дисклеймер: задача моя, она не претендует на обобщение и репрезентативность, методика моя, она не претендует на академическую правильность. Итак, это будет серия постов - смотрите по тегам в поиске, но я постить их буду подряд. ▶️ Что я придумал делать, план эвала: * берем текущий проект dd-flow * берем мои промпты на прайминг контекста и общий анализ (прогон сценария и анализ ""всего"") * делаем по три контекста gpt5.2 и gpt5.3-codex * каждый получает идентичные промпты, цепочка из двух: прайминг и промпт на широкий анализ * агент работает, результат пишет в индивидуальный файл * после того как все 6 сессий отработают, начнем этап сопоставления * сначала сделаем сгруппированные таблички по каждой модели (по 3 отчета) - и верификацию находок. * Верификатором назначим gpt5.2-xhigh: самая дотошная, кмк. * После верификации и сведения по модели, получившиеся 2 отчета сводим в единый итоговый отчет об обнаруженных проблемах. * ... * PROFIT! ‼️ Важные замечания: промпт на анализ предполагает очень широкий спектр анализа - там и code smels, и архитектурные косяки, и куча прочих аспектов. Для выцепления настоящих проблем это слишком широкая задача. Лучше каждый такой аспект отдельно аналиировать. Но у меня в первом приближении хотелось бы посмотреть что ""широкой сетью"" удастся вытащить! Поэтому значительные вариации в ассортименте найденного даже одной моделью вполне ожидаемы. То есть важно все правильно интерпретировать. 👉 Цель этого эвала - общая оценка работы моделей в сравнении на похожей задачей. Мы скорее будем наблюдать за работой, чем за результатами. Результаты теста по определению будут немного рандомными и разбросанными - это важно понимать, задача широкая, значит температура будет сказываться и модели будут углубляться в рандомные аспекты. 🟢 Чтобы сравнить именно внимательность модели я следом проведу такой же тест, только выберу ОДИН/ДВА аспекта, почитав ""общий"" сводный анализ. И там уже можно будет сравнить внимательность и дотошность моделей. ..."
"⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex) #ddeval #52vs53 Решил…
Из этого канала
- #440⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый…
⚪️ Эвал 5.2 vs 5.3-codex : погнали! #ddeval #52vs53 Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим.
- #441⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт…
⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем.
- #442"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели…
"⚪️ 5.2 vs 5.3-codex, итоги #ddeval #52vs53 👉 Выводы: скорость работы - модели работаю сопоставимое время.
- #438Выпустил 2.11 Agent Sessions - из главного что появилось: - Image Browser и…
Выпустил 2.11 Agent Sessions - из главного что появилось: - Image Browser и показ картинок из чатов прямо внутри сессии и модное - поддержка OpenClaw сессий -…
- #437⚪️ Cursor Credits в Lenny's Product Pass Открыл тут LennysProductPass - а там в…
⚪️ Cursor Credits в Lenny's Product Pass Открыл тут LennysProductPass - а там в Курсор дают $50 для обычного Annual тира! В связи с этим вот постом: 🔗…