"Появляется всё больше и больше историй от компаний, работающих и тестирующих… — @seeallochnaya

"Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos. Хотел поделиться несколькими картинками из блога XBOW, компании, занимающейся AI-assisted cybersecurity. На первой картинке результаты их основного бенчмарка, правда ось OY выражена странно, как odds (как в ставках). Если перевести в проценты уязвимостей, найденных моделями, то получится Opus 4.6 83%, GPT-5.5 88%, Mythos 91.5%. Скачок по отношению к моделям Anthropic солидный, но OpenAI с 5.5 и вправду находятся лишь слегка позади. Я пишу ""и вправду"", так как недавно вышло исследование AISI, где они пришли к заключению, что на их задачах разницы в задачах на кибербезопастность разницы почти нет. Думаю, что модели близки, но скорее всего Mythos чуть-чуть впереди. На картинка 2-4 показано качество на одном и том же бенчмарке, выраженное в разном способе оценки длинны работы моделей: количество шагов, сгенерированных токенов и цены токенов. Mythos более эффективен (нужно меньше токенов и шагов), чем Opus 4.6 и даже GPT-5.5, но в пересчёте на доллары GPT-5.5 берёт верх. Чтобы раскрыть Mythos, придётся потратить сильно больше. На последней картинке доли эксплойтов, найденных для обнаруженных уязвимостей, если модели видят и код, и сайт, или только сайт, или только код. В первых двух колонках разница не очень большая, а вот чисто по исходному коду Mythos делает гораздо больше правильных заключений об эксплуатации уязвимостей, чем GPT-5.5. Но для меня большой сюрприз, что без кода обе модели работают так хорошо. Способности Mythos по коду находить проблемы XBOW очень хвалят и выделяют, цитата: «как пример, какая-то сторонняя библиотека может быть безопасной. Сам по себе исходный код приложения тоже может быть безопасным. Но исходный код использует эту библиотеку небезопасным способом и создает уязвимость. Как справедливо заметил Gary McGraw, большинство проблем не обнаружится, если просто «смотреть на код». А вот Mythos находит много."

Из этого канала