У Mythos на некоторых бенчмарках просто невероятный отрыв, но так как модель больше, то может сложиться впечатление, что она просто запомнила какие-то репозитории. В системной карточке модели Anthropic пытаются понять, насколько сильно влияет запоминание. Для этого они прогоняют каждую из трех моделей (новая + Opus + Sonnet) по несколько раз, а затем на рассуждениях моделей и сгенерированном коде запускают 2 алгоритма. Первый — это просто набор правил по сравнению комментариев в коде; если комментарии совпадают почти слово в слово хотя бы в одном решении любой из моделей, то вся задача помечается как 1 (=100% модели запомнили). Второй — на основе ИИ, где модели читают задачи и решения и сравнивают их с оригиналами, и пытаются поставить оценку от 0 до 1 на основе разных факторов. Например, если в решениях встречаются те же самые названия вспомогательных функций, и это не какие-то общие названия типа `sort` или `helper`, то шанс, что модель помнит задачу и решение, выше. Дальше все задачи сортируются по этим оценкам: чем оценка ниже, тем выше шанс, что модель решила задачу сама, а не запомнила решение. Но так как порог для запоминания выбрать сложно, то Anthropic рисует график всех задач по всем порогам от 0 до 1; это отражено на прикрепленной картинке. А на верхней части картинке отражено качество только на тех задачах, что лежат левее порога. И видно, что даже для очень маленьких значений (0.2-0.3), хоть задач там и меньше половины бенчмарка, Mythos всё равно существенно лучше Opus. Более формальная формулировка: «Прирост качества в значительной степени не объясняется запоминанием данных».
У Mythos на некоторых бенчмарках просто невероятный отрыв, но так как модель…
Из этого канала
- #3520Для космических миссий почти всегда рисуют и вышивают патчи. Если в миссии…
Для космических миссий почти всегда рисуют и вышивают патчи. Если в миссии участвуют люди — они эти патчи носят.
- #3523Meta запускает ~~LLAMA-5~~ Muse Spark — первую модель от звёздной команды MSL,…
Meta запускает ~~LLAMA-5~~ Muse Spark — первую модель от звёздной команды MSL, инженеры и исследователи которой привлекались миллиардными офферами.
- #3527Opus, получается, тоже плохая модель 😀
Opus, получается, тоже плохая модель 😀
- #3518GitHub фиксирует взрывной рост нагрузки (периодически при этом падая):…
GitHub фиксирует взрывной рост нагрузки (периодически при этом падая): количество коммитов выросло примерно в 14 раз за год и достигает 275 миллионов в неделю,…
- #3515Из раннего тестирования модели: В ходе поведенческого тестирования более ранней…
Из раннего тестирования модели: В ходе поведенческого тестирования более ранней версии модели Mythos Preview, развернутой во внутренней сети, для…