o3 и o3-mini - разрыв бенчмарков Это ещё не AGI, но точно SOTA на всём что только можно. Стоимость тоже гигантская - на решение одного единственного таска могут уйти тысячи долларов. 🎓 SOTA результаты по Frontier Math выросли с 2% до 25%. 💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%. 👨‍💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO. 🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить. Авторы уже партнёрятся с OpenAI чтобы создать вторую версию бенча. 👨‍🎓 На GPQA и AIME тоже очень хороший прогресс. Сегодня дают доступ ресёрчерам безопасности к o3-mini, простым смертным доступ к o3-mini дадут в конце января, к o3 чуть позже. @ai_newz