Новые LLM в reasoning бенчмарке на бизнес-задачах - o3-mini и o4-mini очень… — @llm_under_hood

Новые LLM в reasoning бенчмарке на бизнес-задачах - o3-mini и o4-mini очень хороши - gemini flash preview в thinking режиме заняла третье место - версии gpt-4.1 (базовая и мини) достаточно хороши, чтобы их использовать из коробки вместо 4o. OpenAI продолжает лидировать, но Google прямо последовательно дышит в спину. А если учитывать, что OpenAI зависит от NVidia + Microsoft, а Google обучает на своих TPU процессорах, то будущее прямо интересно. Плюс Google, в отличие от OpenAI, периодически выкладывает открытые модели для использования. За них стоит поболеть отдельно. Ваш, @llm_under_hood 🤗 PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий. PPS: __А прямо сейчас у меня открыто окно SAP и я выстраиваю reasoning workflow агента для автоматического заполнения Purchase Orders в соответствии с внутренними требованиями компаниями. И шаги из этого процесса пойдут в RPA колонку данного бенчмарка.__

Из этого канала