О, и сегодня состоялся анонс бенчмарка ARC AGI 3 (третий, да; второй ещё не решен). Он заточен на примитивные 2D игры, у людей качество 100% (то есть для них задачки очень просты), но (V)LLM не смогут с ними справиться, 🥴 Agent уже зашел на сайт и смог решить первый пример, размещённый авторами. Поиграть самим: тут В августе появится ещё 3 игры, а в 2026-м, с запуском бенчмарка, планируется добавить 100 игр-головоломок. Каждая игра состоит из нескольких уровней (построенных по одному и тому же принципу, но с разной сложностью). В теории, агент должен демонстрировать возможность адаптироваться и схватывать на лету, и быстро применять выученные механики.
О, и сегодня состоялся анонс бенчмарка ARC AGI 3 (третий, да; второй ещё не…
Из этого канала
- #2676Пост плохо состарился — OpenAI объявили, что их внутренняя модель решила 5 из 6…
Пост плохо состарился — OpenAI объявили, что их внутренняя модель решила 5 из 6 задач этого IMO, не справившись лишь с самой сложной, последней задачей.
- #2677«Ну так конечно это ожидаемо, ничего удивительного» — скажет хрен с умным…
«Ну так конечно это ожидаемо, ничего удивительного» — скажет хрен с умным видом, поправляя очки.
- #2678Прочитал тред от Noam Brown, одного из ведущих исследователей OpenAI в части…
Прочитал тред от Noam Brown, одного из ведущих исследователей OpenAI в части reasoning-моделей.
- #2671Но есть ещё 4 главных бенчмарка, которые выпятили OpenAI, и все они — про…
Но есть ещё 4 главных бенчмарка, которые выпятили OpenAI, и все они — про экономически ценные задачи, основанные на анализе реальной ежедневной работы…
- #2669Вчера OpenAI анонсировали и выпустили Agent, нового агента, объединяющего в…
Вчера OpenAI анонсировали и выпустили Agent, нового агента, объединяющего в себе Deep Research + Operator, которого ещё и прокачали в работе с Excel и Power…