А вот и первые независимые бенчи o4-mini Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается. В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4. @ai_newz
А вот и первые независимые бенчи o4-mini Artificial Analysis уже протестили…
Из этого канала
- #3851Релиз Gemini 2.5 Flash Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro…
Релиз Gemini 2.5 Flash Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее.
- #3852Нейродайджест за неделю (#65) Жаркая неделя для ЛЛМ LLM - GPT-4.1 — превосходит…
Нейродайджест за неделю (#65) Жаркая неделя для ЛЛМ LLM - GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- #3853🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨…
🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨 Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где…
- #3845o3 и o4-mini от OpenAI релизятся Главная фишка — новые модели натренировали…
o3 и o4-mini от OpenAI релизятся Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга.
- #3844"Через o3 минуты стрим у OpenAI Обещают показать ""новые модели"" из линейки o,…
"Через o3 минуты стрим у OpenAI Обещают показать ""новые модели"" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.