"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел… — @seeallochnaya

"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел написать его разгромную критику. Автор пишет своё мнение про вайб-кодинг с опорой на другой текст с разбором результатов соревнования K-prize. Перед критикой важно отметить, что я во многом согласен с выводами про важность скиллов пользователя AI/LLM-продуктов в контексте кодинга. K-prize — это соревнование по построению автономных АИ-агентов для решения задач, созданных на основе самых свежих PR'ов, собранных с GitHub. По сути то же самое, что SWE-Bench (Verified), по которому измеряют навыки фронтир моделей последний год с хвостиком. Главные отличия — менее популярные репозитории с кодом, самые свежие PR (часть, по которой производилась оценка для формирования рейтинга, вообще была добавлена после заморозки отправки решений), и наказание за неправильный ответ. Так что первая формулировка, ""турнир по вайб-кодингу, результат данного турнира меня совсем не удивил,"" — бред, так как это не турнир по вайбкодингу. Тут нет людей, которые управляют процессом и итеративно закидывают промпты в агента. Его даже нельзя один-к-одному соотнести с SWE-bench из-за штрафа: в этом соревновании лучше ничего не выдавать в качестве ответа на задачу, нежели давать ответ, который не пройдёт тесты. Потому авторы решений намеренно закручивали гайки и строили пайплайны для само-проверки (через генерацию тестов), чтобы ни дай бог ошибочное решение не прошло. Кто знает, может без этого топ-решение дошло бы до 20% решений вместо 11%? ""тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины."" — это в целом верно, но в посте делается заключение на основе сравнения в неравных условиях. Помимо ограничения, описанного выше, Kaggle существенно ограничивает вычислительные мощности, выделяемые решению — всего 4 карты прошлого поколения L4. Этого хватает, чтобы уложить в топ-решение модель на... 32 миллиарда параметров — причём даже не рассуждающую, так как скорее всего не хватило бы времени (оно ограничено, на 120 задач выделяется 9 часов). (в посте есть ещё несколько фраз, которые показывают, что автор оригинального поста не понял, что это не соревнование по вайб-кодингу, а по автономным агентам, но всё переписывать не буду) Как ясно из описания, это очень, нет, ооооочень далеко от того, что вам доступно в Cursor / Codex и чем хвастаются Anthropic / OpenAI. Я решил найти, как бы сравнить, чтобы показать разницу — поэтому делать вывод «ну вот AI может решать 10%» неверно. Qwen 2.5 такая старая модель (ноябрь 2024-го), что её в большом количестве актуальных бенчмарков и нет уже."

Из этого канала