ARC Prize назвали победителей этого года На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM). LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление. Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь. Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году). Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений: 1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%. 2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое. arcprize.org/blog/arc-prize-2025-results-analysis
ARC Prize назвали победителей этого года На первом месте ребята с решением…
Из этого канала
- #8445Ян Лекун будет строить стартап в Европе, а не Америке По его словам,…
Ян Лекун будет строить стартап в Европе, а не Америке По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные…
- #8447Занятное интервью вышло у Демиса Хассабиса с изданием Axios Посмотреть…
Занятное интервью вышло у Демиса Хассабиса с изданием Axios Посмотреть полностью можно здесь.
- #8448Андрей Карпаты снова выдал красивую базу Он говорит, что нельзя забывать, что…
Андрей Карпаты снова выдал красивую базу Он говорит, что нельзя забывать, что LLM – симуляторы, а не самостоятельные сущности, и что это нужно учитывать при…
- #8443The Verge пишет, что GPT-5.2 должна выйти уже на следующей неделе, 9 декабря…
The Verge пишет, что GPT-5.2 должна выйти уже на следующей неделе, 9 декабря Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили…
- #8442Anthropic утверждают, что их сотрудники делегируют Claude уже 60% ежедневных…
Anthropic утверждают, что их сотрудники делегируют Claude уже 60% ежедневных задач Всего года назад этот показатель составлял около 28%.