⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт… — @deksden_notes

⚪️ 5.2 и 5.3-codex - проведение анализа #ddeval #52vs53 3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем. Для этого мы сделаем две свежие сессии кодекса с 5.2 xhigh, каждая будет анализировать по 3 отчета одной модели. Задача анализа - двухэтапная. Брать каждую выявленную проблему, верифицировать в коде, добавлять заключение верификатора и формировать сводную табличку: * N пп * Описание проблемы * Статус верификации * Критичность проблемы * Отчет 1 : наличие в отчете * Отчет 2 : наличие в отчете * Отчет 3 : наличие в отчете Итого наши 2 агента с xhigh работали около 20 минут, и сделали файлик с итоговыми таблицами. * Gpt 5.2 : всего 38 проблем выявлено. 100% верифицировано как подтвержденные в коде. * Gpt 5.3-codex : 41 обнаруженная проблема, 100% верифицировано, но одна - частично (проблема имеет место быть только для старых рантаймов); В общем, на будущее - стадию верификации можно пропускать. Модели довольно сильные, если что то находят, то это по делу. 4️⃣ И, финальный шаг - сделать сводный общий отчет. Просим новую сессию 5.2 xhigh взять два отчета и свести в единую таблицу. Получаем итоговый файл. В нем уже 67 пунктов - это значит разброс аспектов анализа весьма высок. Так и получилось: Итоговая статистика по проблемам, по столбцу «Кол-во ✅» * 1 обнаружение: 52 строки * 2 обнаружения: 6 строк * 3 обнаружения: 4 строки * 4 обнаружения: 0 строк * 5 обнаружений: 4 строки * 6 обнаружений: 1 строка Из 52 проблем, которые обнаружил единственный агент в 23 случаях это был 5.2 и в 29 это был кодекс-5.3! То есть условная ничья, с некоторым преимуществом 5.3. Вот вам и широкий фокус - 1 обнаружение в 52 строках из 67! ...

Из этого канала