"Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos. Хотел поделиться несколькими картинками из блога XBOW, компании, занимающейся AI-assisted cybersecurity. На первой картинке результаты их основного бенчмарка, правда ось OY выражена странно, как odds (как в ставках). Если перевести в проценты уязвимостей, найденных моделями, то получится Opus 4.6 83%, GPT-5.5 88%, Mythos 91.5%. Скачок по отношению к моделям Anthropic солидный, но OpenAI с 5.5 и вправду находятся лишь слегка позади. Я пишу ""и вправду"", так как недавно вышло исследование AISI, где они пришли к заключению, что на их задачах разницы в задачах на кибербезопастность разницы почти нет. Думаю, что модели близки, но скорее всего Mythos чуть-чуть впереди. На картинка 2-4 показано качество на одном и том же бенчмарке, выраженное в разном способе оценки длинны работы моделей: количество шагов, сгенерированных токенов и цены токенов. Mythos более эффективен (нужно меньше токенов и шагов), чем Opus 4.6 и даже GPT-5.5, но в пересчёте на доллары GPT-5.5 берёт верх. Чтобы раскрыть Mythos, придётся потратить сильно больше. На последней картинке доли эксплойтов, найденных для обнаруженных уязвимостей, если модели видят и код, и сайт, или только сайт, или только код. В первых двух колонках разница не очень большая, а вот чисто по исходному коду Mythos делает гораздо больше правильных заключений об эксплуатации уязвимостей, чем GPT-5.5. Но для меня большой сюрприз, что без кода обе модели работают так хорошо. Способности Mythos по коду находить проблемы XBOW очень хвалят и выделяют, цитата: «как пример, какая-то сторонняя библиотека может быть безопасной. Сам по себе исходный код приложения тоже может быть безопасным. Но исходный код использует эту библиотеку небезопасным способом и создает уязвимость. Как справедливо заметил Gary McGraw, большинство проблем не обнаружится, если просто «смотреть на код». А вот Mythos находит много."
"Появляется всё больше и больше историй от компаний, работающих и тестирующих…
Из этого канала
- #3626...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер,…
...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер, так тут же новый пост от AISI.
- #3627Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го…
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го июля, на 2 месяца). Это в дополнение к недавнему удвоению 5-часовых лимитов.
- #3628Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента…
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).
- #3620😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор…
😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор Epoch.AI уже кинул клич, что им необходимо $600k или хотя бы $100k, чтобы…
- #3618Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю…
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут).