ARC-AGI 2, фактически, можно признавать решенным: система от стартапа Poetiq выбила ~75% Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность. То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд. Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека. Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу. Код от Poetiq
ARC-AGI 2, фактически, можно признавать решенным: система от стартапа Poetiq…
Из этого канала
- #8546«Плотность ИИ на гигабайт в Tesla на порядок выше, чем где бы то ни было» –…
«Плотность ИИ на гигабайт в Tesla на порядок выше, чем где бы то ни было» – Илон Маск Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo…
- #8547Профессиональный жаргон теперь выглядит так
Профессиональный жаргон теперь выглядит так
- #8548Сэм Альтман про конкуренцию с Google ➖ В 2023 году Google могла бы легко снести…
Сэм Альтман про конкуренцию с Google ➖ В 2023 году Google могла бы легко снести OpenAI, если бы компания отнеслась к стартапу серьезно и сфокусировалась на ИИ.
- #8544Google релизнули новую версию своего «LLM-микроскопа» – Gemma Scope 2 Это…
Google релизнули новую версию своего «LLM-микроскопа» – Gemma Scope 2 Это модель, а точнее набор инструментов (interpretability tools), предназначенный для…
- #8543Команда ML Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1…
Команда ML Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1 Основной фокус релиза — улучшение точного следования инструкциям (Instruction…