"По поводу недавних экспериментов Cursor и Anthropic с запуском десятков-сотен агентов на неделю — как всегда вспоминаю, что не все люди воспринимают мир одинаково, и зачастую сложно посмотреть на мир чужими глазами. Поэтому нужно писать вот такие вот объяснения. Вау-эффект эксперименты вызывают по разным причинам — например, кто-то думает, что вау в том, что смогли сделать вот конкретно эти агенты с конкретно этими задачами. Кто-то справедливо замечает, что браузер на самом деле не с нуля написан, что комплиятор медленный, что качество кода не лучшее, и так далее — и потому считает, что никакого ""вау"" нет. Но это вообще не то направление, в котором стоит смотреть. Главная причина для моего вау — это что модели текущего поколения без специальной тренировки работы роем агентов на задачи длительностью в 7 дней и больше уже могут показывать какой-то результат. А как мы знаем из последних полутора лет развития RL — как только появляется какой-то минимальный результат, то его можно в короткие сроки существенно прокачать, условно от 11% до 85%. (я уверен, что фронтир-модели не учились или учились очень мало в таком формате) Есть куча низковисящих фруктов, которые помогают делать прогресс по проблемным направлениям, и есть большое количество мощностей для заливания в задачи. Как полтора года назад казалось, что модели еле-еле решают какие-то серьезные олимпиадные задачи, а теперь справляются с проблемами исследовательского уровня, так будет и тут. Через год рой агентов / команды субагентов / кто как назовёт будет гораздо способнее. Однако прогресс тут может быть чуть более медленным, чем с обычными рассуждениями, так как каждая отдельная задача банально занимает много времени, несколько дней или неделю. Тут очень пригодятся методы увеличения количества сигнала из каждого роллаута, и, наверное, мы скоро увидим статьи по этой теме."