Пару-тройку недель назад люди начали жаловаться, что Codex, кодинг агент + модель от OpenAI, начали хуже работать. Несмышлёные люди, как и в прошлые разы с Claude / почти любыми другим продуктами, сразу заводят шарманку, что компании намеренно понижают качество / отупляют / меняют модели (правда никогда не могут показать конкретный пример было / стало, чтобы оценить деградацию). Моё объяснение было и есть, что а) если вдруг на самом деле есть деградация, то она обусловлена скорее багом в системе, который сделан по ошибке б) люди делают суждения на основе сравнений в РАЗНЫХ задачах в РАЗНЫХ контекстах по 5-10 запросам, и люди очень плохи в экстраполяции навыков моделей. Команда Codex провела неделю отладки, выделив ресурсы лучших инженеров и постаравшись охватить как можно больше изменений. По результатам работы написали отчёт на 4 страницы, TLDR: «Команда считает, что имело место сочетание изменений в поведении пользователей со временем, некоторые из которых были вызваны новыми функциями, такими как сжимание контекста, а также конкретных небольших проблем, выявленных в ходе расследования и описанных ниже». Более детально: — по внутренний метрикам и бенчмаркам, а также по опыту использования команда не заметила просадок, но всё равно решила отреагировать на жалобы пользователей. — быстро добавили функцию `/feedback` и расширили собираемую телеметрию, добавив оборудование и GPU-кластер, использованные для обработки — удалили 60 фича-флагов (😳) и сейчас находятся в процессе удаления ещё 80 (😳). Это уменьшает количество неочевидных взаимодействий и комбинаций. — запустили расширенные тесты на всех комбинациях железа/кластеров — на результатах тестирования построили регрессии, чтобы увидеть связи между почасовым удержанием пользователей и целым рядом характеристик запросов, таких как модель, версия сборки CLI, операционная система, время суток, обслуживающий кластер, оборудование и тип плана пользователя. Также были проведены оценки по каждому типу оборудования, в ходе которых выявились небольшие проблемы производительности на старом оборудовании. Это оборудование было исключено из эксплуатации. — Одним из первых трендов, замеченных в обратной связи пользователей, стали вопросы, связанные с compaction. Когда окно контекста почти исчерпано, модель просят сжать диалог, очистить контекст и продолжить работу с новым контекстом. — Команда заметила, что (a) процент сессий, в которых используется compaction, со временем растёт, и (b) текущая реализация compaction может быть улучшена для достижения лучших результатов. Оценки подтвердили, что качество снижается с увеличением количества выполненных compaction (ручных или автоматических) в рамках одной сессии. — Также были найдены сообщения о случаях, когда модель при неудачной попытке применить патч (внести изменения в файл) удаляла и повторно создавала файлы. В принципе, это не некорректное поведение, но оно может создавать проблемы, если агент прерывается или не может применить второй патч после удаления файла. Команда решила исправить это путём улучшения поведения моделей в будущем, а также реализовать срочные меры на следующей неделе, чтобы ограничить рискованные последовательности изменений. — Команда обнаружила маленький баг в реализации constrained sampling, приводящий к тому, что генерируемая последовательность токенов могла оказаться вне распределения. Позже было подтверждено, что сообщения о случаях, когда модель переключала язык в середине предложения, были вызваны именно этим багом. Влияние этого бага затронуло менее 0,25% всех сессий. — Прогнали тесты на всех версиях с 0.40, выявили, что изменения промптов, добавление веб-поиска и другие фичи не ухудшают качество, и при этом позволяют сократить количество токенов на 10% Количество пользователей Codex и частота его использования растут. Наблюдается рост сложности сценариев использования за счёт увеличения количества используемых инструментов. Команда продолжает рекомендовать минималистичные настройки и небольшие, узконаправленные диалоги, чтобы достичь максимальной производительности Codex.