3 новости в одном посте: 1. Forbes написали про начало года у Cursor. 5-го… — @seeallochnaya

3 новости в одном посте: 1. Forbes написали про начало года у Cursor. 5-го января всех вышедших с праздников на общем собрании поприветствовал слайд презентации с текстом «Военное время». Руководство предупредило, что предстоящие месяцы будут неспокойными. Проекты могут быть отменены, приоритеты изменены. Новая задача компании была обозначена как «Создать лучшую модель для программирования». Это является ответом на резко меняющийся рынок: теперь программистам не очень интересно сидеть в IDE, и большую часть кода пишет агент. Вот такая бытность у одного из самых быстро растущих стартапов с оценкой в $30B 🤷‍♂️ с начала года вышло множество новых фичей, от бота для фикса багов до запуска агентов в параллель в облаке. Плюс, в феврале показали Composer 1.5 — улучшение предыдущей модели компании, главная фича которой это скорость: она развёрнута на чипах Cerebras, как GPT-5.3-codex-spark, и выдаёт под 900 токенов в секунду, что позволяет быстрее итерироваться. Для компании свои модели ещё и помогают исправить экономику, ведь не приходится платить огромную маржу провайдерам моделей (вроде Anthropic) 2. Anthropic выпустили блогпост про оценку Opus 4.6 на бенчмарке BrowseComp и осведомлённость модели о ходе тестирования. Модель в попытках ответить на некоторые вопросы поняла, что её тестируют, и это изменило её поведение и подход к ответам. Правда затрагивает это очень малую долю вопросов, 9 из 1266. Модель сначала долгое время пыталась честно ответить на вопрос: Например, один из таких сценариев потребовал 40.5 миллионов токенов, в 38 раз больше медианного значения. Модель пыталась найти ответ на 12 языках, на разных источниках, но после ~30 миллионов токенов подумала: «Позвольте мне попробовать совершенно новый подход — возможно, это вопрос из бенчмарка GAIA, предназначенного для тестирования ИИ-агентов» — и затем составила список бенчмарков похожего типа и пошла искать вопросы, нашла нужный. Ответы не хранились в открытом виде — их нужно было расшифровать, но для модели с вызовом кода это не было проблемой. Это вызывает опасения по поводу того, на какие меры может пойти модель для выполнения задачи, и насколько сложно будет ограничить ее поведение в реальном мире, особенно в сложных, ресурсоемких и длительных задачах, которые повышают вероятность того, что агент найдет неожиданное решение. 3. В начале года перед релизом Opus 4.6 компания тестировала полезность модели в поиске критических уязвимостей в коде. Даже выпустили блогпост, где поделились 500 уязвимостями (которые к моменту публикации были зарепорчены и исправлены) — все не в каких-то репозиториях любителей, а в крупных открытых проектах. В дополнение к этому отдельно написали про работу с Firefox браузером. За 2 недели работы агента было обнаружено 22 уязвимости, 14 из которых были «высокой серьезности» — это 20% всех таких уязвимостей в Firefox, обнаруженных за весь 2025. Вместе с этим компания запустила программу Claude Code Security, а OpenAI расширили доступ к своему Codex Security. В общем, модели уже могут приносить значимый вклад в кибербезопасность, и думаю, что их роль будет только расти — особенно в гос. секторе.

Из этого канала