Новые LLM в reasoning бенчмарке на бизнес-задачах - o3-mini и o4-mini очень хороши - gemini flash preview в thinking режиме заняла третье место - версии gpt-4.1 (базовая и мини) достаточно хороши, чтобы их использовать из коробки вместо 4o. OpenAI продолжает лидировать, но Google прямо последовательно дышит в спину. А если учитывать, что OpenAI зависит от NVidia + Microsoft, а Google обучает на своих TPU процессорах, то будущее прямо интересно. Плюс Google, в отличие от OpenAI, периодически выкладывает открытые модели для использования. За них стоит поболеть отдельно. Ваш, @llm_under_hood 🤗 PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий. PPS: __А прямо сейчас у меня открыто окно SAP и я выстраиваю reasoning workflow агента для автоматического заполнения Purchase Orders в соответствии с внутренними требованиями компаниями. И шаги из этого процесса пойдут в RPA колонку данного бенчмарка.__
Новые LLM в reasoning бенчмарке на бизнес-задачах - o3-mini и o4-mini очень…
Из этого канала
- #563"Простой пример, почему не так просто добиться стабильной работы…
"Простой пример, почему не так просто добиться стабильной работы агентов/операторов на практике. Смотрите на вот эту тестовую картинку.
- #564"Когда говорят про AI Coding, люди делятся на два лагеря: Одни говорят, что…
"Когда говорят про AI Coding, люди делятся на два лагеря: Одни говорят, что вайб кодинг - это невероятно круто.
- #566"Как одним промптом решить задачу, которую AI coding агенты будут пилить 30-90…
"Как одним промптом решить задачу, которую AI coding агенты будут пилить 30-90 минут? Вот примеры промптов, которые решают упражнение из предыдущего поста, где…
- #561"Наш чатбот популярен, но как жить дальше? Кейс. В одной компании сделали…
"Наш чатбот популярен, но как жить дальше? Кейс. В одной компании сделали внутреннего чат-бота для крупной организации, он стал популярным, им пользуются…
- #560"История про AI R&D Lab Pass У меня есть несколько клиентов-компаний, которые…
"История про AI R&D Lab Pass У меня есть несколько клиентов-компаний, которые внедряют LLM в бизнес в EU/USA.