У Mythos на некоторых бенчмарках просто невероятный отрыв, но так как модель больше, то может сложиться впечатление, что она просто запомнила какие-то репозитории. В системной карточке модели Anthropic пытаются понять, насколько сильно влияет запоминание. Для этого они прогоняют каждую из трех моделей (новая + Opus + Sonnet) по несколько раз, а затем на рассуждениях моделей и сгенерированном коде запускают 2 алгоритма. Первый — это просто набор правил по сравнению комментариев в коде; если комментарии совпадают почти слово в слово хотя бы в одном решении любой из моделей, то вся задача помечается как 1 (=100% модели запомнили). Второй — на основе ИИ, где модели читают задачи и решения и сравнивают их с оригиналами, и пытаются поставить оценку от 0 до 1 на основе разных факторов. Например, если в решениях встречаются те же самые названия вспомогательных функций, и это не какие-то общие названия типа `sort` или `helper`, то шанс, что модель помнит задачу и решение, выше. Дальше все задачи сортируются по этим оценкам: чем оценка ниже, тем выше шанс, что модель решила задачу сама, а не запомнила решение. Но так как порог для запоминания выбрать сложно, то Anthropic рисует график всех задач по всем порогам от 0 до 1; это отражено на прикрепленной картинке. А на верхней части картинке отражено качество только на тех задачах, что лежат левее порога. И видно, что даже для очень маленьких значений (0.2-0.3), хоть задач там и меньше половины бенчмарка, Mythos всё равно существенно лучше Opus. Более формальная формулировка: «Прирост качества в значительной степени не объясняется запоминанием данных».