Вторая категория — агентские, с итерациями и обратной связью. Тут пока только… — @seeallochnaya

Вторая категория — агентские, с итерациями и обратной связью. Тут пока только два бенчмарка, про один, Vending Bench, я писал вчера. Второй — WeirdML, где Gemini 3.0 Pro взяла лидерство у моделей OpenAI, и снова с солидным отрывом. Что это за бенчмарк? Большинство бенчмарков по кодингу (тот же SWE-bench) проверяют умение модели писать код по спецификации. WeirdML заходит с другой стороны: он проверяет, способна ли модель анализировать данные и делать выводы. То есть не просто «напиши сетку для MNIST», а «вот тебе странный, нестандартный датасет, разберись в его свойствах и напиши с нуля пайплайн, который выбьет хороший скор». Автор бенчмарка заметил, что модели отлично справляются со стандартными задачами, решения которых лежат на StackOverflow или Kaggle, но ломаются на «странных» вводных, требующих понимания структуры данных, а не простого копирования рецептов. Модели дается описание задачи и доступ к контейнеру c GPU. Дальше: — Модель пишет код — Код исполняется — Модель видит выхлоп терминала (ошибки или логи) и точность на тестовом сете — У неё есть 5 итераций, чтобы исправить баги или улучшить архитектуру для максимизиаици точности Задачи из v2 закрыты, поэтому вот описание некоторых задач из v1, чтобы понять уровень «странности»: — Image Patch Shuffling: Картинку 27x27 пикселей разрезали на 9 кусочков и перемешали. Модели нужно собрать пазл обратно. В сложной версии (Hard) кусочки берутся из рандомного места большой картинки, поэтому просто по граничным пикселям собрать не выйдет — нужно понимать контекст изображения. — Chess Outcome: По текстовой записи ходов (e2e4 c7c5...) предсказать, кто победил. Модели нужно распарсить текст, придумать фичи (или скормить это в рекуррентную сеть) и понять логику игры. — Unsupervised Digits: Дано 16'000 картинок цифр, но разметку (какая это цифра) имеют только 26 из них. Нужно построить Semi-supervised пайплайн (здарова, Артур Кузин). В v1 это была задача с самым высоким процентом полных провалов — модели просто не могли написать рабочий код для такого сценария. И вот что примечательно — это не то что Gemini 3.0 Pro показывает солидный результат на топ-1, а то что она показывает улучшение от одной итерации к другой, делая выводы, что получилось, а что нет. До этого, со слов автора бенчмарка, так делала только GPT-5 — на картинке вы видите среднюю оценку по задачам на каждой итерации. И если на первой итерации разницы между G3 и GPT-5 нет, то дальше появляется разрыв, который растёт. В общем, жду модель на CodeClash, MLEBench от OpenAI (ну кто-то же когда-то должен померить?) и других подобных. Должно быть очень клёво. Основные результаты, если кому интересно, скинул в комменты

Из этого канала