o3 и o3-mini - разрыв бенчмарков Это ещё не AGI, но точно SOTA на всём что только можно. Стоимость тоже гигантская - на решение одного единственного таска могут уйти тысячи долларов. 🎓 SOTA результаты по Frontier Math выросли с 2% до 25%. 💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%. 👨💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO. 🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить. Авторы уже партнёрятся с OpenAI чтобы создать вторую версию бенча. 👨🎓 На GPQA и AIME тоже очень хороший прогресс. Сегодня дают доступ ресёрчерам безопасности к o3-mini, простым смертным доступ к o3-mini дадут в конце января, к o3 чуть позже. @ai_newz
o3 и o3-mini - разрыв бенчмарков Это ещё не AGI, но точно SOTA на всём что…
451 viewsОткрыть в Telegram →
Из этого канала
- #90ChatGPT o3 Сдержанная формулировка: по некоторым, довольно важным тестам,…
ChatGPT o3 Сдержанная формулировка: по некоторым, довольно важным тестам, модель o3 продемонстрировала способность к рассуждениям на уровне топовых экспертов в…
- #91Разработка с AI в начале 2025. Выбор IDE (1/2) С чего начать разработку с…
Разработка с AI в начале 2025. Выбор IDE (1/2) С чего начать разработку с помощью ИИ в начале 2025? Скоро длинные выходные и кто-то наверняка будет что-то…
- #92Разработка с AI в начале 2025. Выбор IDE (2/2) Почему не плагин к моей IDE? Я…
Разработка с AI в начале 2025. Выбор IDE (2/2) Почему не плагин к моей IDE? Я так к ней привык...
- #84"Страхи разработчиков перед ИИ В продолжение предыдущего поста. Читаю тут…
"Страхи разработчиков перед ИИ В продолжение предыдущего поста. Читаю тут разное в сети и общаюсь с разработчиками на тему внедрения ИИ в работу, так что решил…
- #83"Разработчики-староверы ""Страшно, очень страшно! Мы не знаем, что это такое,…
"Разработчики-староверы ""Страшно, очень страшно! Мы не знаем, что это такое, если б мы знали что это такое, но мы не знаем, что это такое"" - примерно так…