На ночь глядя под конец года Epoch.AI посчитали оценку GPT-5.2 Pro на FrontierMath Tier 4. Система решила 14 задач из 48. Напомню, что Tier 4 появился полгода назад потому, что авторы поняли, что в первых трёх (выпущенных за полгода до этого 😳) тирах модели уже делают хороший прогресс. Tier 4 включает в себя задачи исследовательского уровня, с которыми сталкиваются профессиональные математики в ходе работы, в частности тех, которые ещё не опубликованы (поэтому модели не могли ни найти, ни обучиться на этом). В Tier 5 видимо включат только те задачи, для которых решений нет 😳 Всего за год модели сделали колоссальный прорыв в математике, и уже находятся на границе meaningful contribution в задачах исследовательского уровня. 🤩 каким же будет 2026-й, компании наперегонки будут заявлять о прорывах тут и там. Уже вижу, как у части сообщетсва будет бомбить, что это хайп, маркетинг и на самом деле ничего такого 🙂
На ночь глядя под конец года Epoch.AI посчитали оценку GPT-5.2 Pro на…
Из этого канала
- #3234Пора бы начать думать, какую LLM мы отправим в первую автономную миссию на Марс…
Пора бы начать думать, какую LLM мы отправим в первую автономную миссию на Марс для локального управления развертыванием базы.
- #3235Claude выращивает томат. 🍅 Интересный эксперимент, где Claude вот уже 37 дней…
Claude выращивает томат. 🍅 Интересный эксперимент, где Claude вот уже 37 дней выращивает томат в контролируемой среде.
- #3236🥹 почему так много интересных ссылок решили выпустить именно в ночь на 31…
🥹 почему так много интересных ссылок решили выпустить именно в ночь на 31 декабря 😔 😣
- #3232Или вот широко известный в узких кругах Апанасик пишет: «Лид продакт в Google…
Или вот широко известный в узких кругах Апанасик пишет: «Лид продакт в Google AI Studio [Logan] вон вообще обещал, что к концу года каждый сможет сделать себе…
- #3231Думаю, что во время стрима с Валерой по обсуждению высказвания CEO Anthropic…
Думаю, что во время стрима с Валерой по обсуждению высказвания CEO Anthropic про то, что ИИ будет писать 90-100% кода, очень точно попал в некоторые аспекты…