Бенчмарки! Новый митап про DeepSWE, SWE-rebench v2 и др Друзья, вы все еще верите бенчмаркам? Я вот все меньше. Наверняка уже все видели DeepSWE бенчмарк - пожалуй, наиболее противоречивый бенчмарк за последнее время, причем с полярными мнениями: для одних это единственный объективный бенчмарк, для других он абсолютно не имеет отношения к реальности. В общем, я подумал, что будет интересно разобраться глубже в современных бенчмарках - обсудить их достоинства и недостатки, чтобы понимать есть ли вообще смысл обращать внимание на SWE бенчмарки в 2026-м. Отдельно разберем обновленный SWE-rebench v2. На митап мы позвали, вероятно, наиболее подкованного человека из русскоязычного пространства - Ибрагима Бадертдинова, он один из ключевых авторов бенчмарка SWE-rebench, который как раз недавно обновили. А еще, Ибрагим автор канала @c0mmit. А неудобные вопросы будет задавать горячо любимый друг нашего канала Максим Этихлид (@etechlead). Будем обсуждать важность harness, утечки, бенчхакинг, важность флоу проекта (AGENTS.md, верификации и т. д.) и, конечно, методологии. Дата и время: 9 июня 14:00 по МСК, 16:00 по Алматы, 13:00 CET, 12:00 по Лондону. Ссылка на регистрацию на встречу. Готовьте свои коварные вопросы, ведь будет уникальная возможность задать их Ибрагиму - автору одного из топовых бенчмарков. — Кстати, у нас было интервью с Ибрагимом, в котором мы разбирали подробно бенчмарк SWE-rebench, поэтому рекомендую к просмотру всем AI-энтузиастам и в качестве подготовки к нашему новому стриму: https://youtu.be/a5jf-kyV12Y @ai_driven | AI-Driven Development: Родион Мостовой.
Бенчмарки! Новый митап про DeepSWE, SWE-rebench v2 и др Друзья, вы все еще…
Из этого канала
- #311"AgenticOps, часть №3 - платформа Общие принципы ● агенты общаются с платформой…
"AgenticOps, часть №3 - платформа Общие принципы ● агенты общаются с платформой через CLI + SKILL.md ● CLI-команды - плоские и максимально простые ● топология…
- #312"Сработаемся? Навеяно обсуждением бенчмарков на недавнем стриме и тестированием…
"Сработаемся? Навеяно обсуждением бенчмарков на недавнем стриме и тестированием Fable.
- #309С бенчмарками для кодинговых агентов сейчас стало довольно неопределённо. Мне…
С бенчмарками для кодинговых агентов сейчас стало довольно неопределённо. Мне думается, что мы уже живём в какой-то пост-бенчмарк эпохе, когда всё сложнее и…
- #308AgenticOps, часть №2 - базовые компоненты Начну с того, на чём стоит сама…
AgenticOps, часть №2 - базовые компоненты Начну с того, на чём стоит сама платформа - с набора базовых инфраструктурных компонентов.
- #307"AgenticOps, часть №1 - мотивация (и КДПВ) Я давно уже пишу и рассказываю про…
"AgenticOps, часть №1 - мотивация (и КДПВ) Я давно уже пишу и рассказываю про то, что полноценно AI-driven SDLC невозможно выстроить поверх слабой…