О, и сегодня состоялся анонс бенчмарка ARC AGI 3 (третий, да; второй ещё не решен). Он заточен на примитивные 2D игры, у людей качество 100% (то есть для них задачки очень просты), но (V)LLM не смогут с ними справиться, 🥴 Agent уже зашел на сайт и смог решить первый пример, размещённый авторами. Поиграть самим: тут В августе появится ещё 3 игры, а в 2026-м, с запуском бенчмарка, планируется добавить 100 игр-головоломок. Каждая игра состоит из нескольких уровней (построенных по одному и тому же принципу, но с разной сложностью). В теории, агент должен демонстрировать возможность адаптироваться и схватывать на лету, и быстро применять выученные механики.