"OpenAI o3-mini Анонс, System card Это продолжение линейки рассуждающих моделей… — @etechlead

"OpenAI o3-mini Анонс, System card Это продолжение линейки рассуждающих моделей (ризонеров) от OpenAI (предыдущими были модели o1 и o1-mini). Вышла в 3 вариантах: o3-mini-low, o3-mini-medium и o3-mini-high. По сути, это одна и та же модель, которая работает с разными уровнями ""усердия"" при рассуждениях - чем выше уровень, тем больше времени и токенов модель тратит на ""обдумывание"" ответа. Разница в способностях между уровнями очень заметная - чем больше модели давать рассуждать, тем лучше она решает задачи. В чем она лучше предшественников? * большой прирост в производительности в задачах, связанных с наукой, математикой, программированием (STEM-like); * существенное снижение стоимости при схожей с o1 производительности (API дешевле в 10+ раз); * увеличенная скорость ответов - как времени до первого токена, так и последующей генерации. Модель уже доступна в API (для Tier 3+), на сайте ChatGPT, а также в Cursor (+ Agent!). Пройдёмся по скриншотам 1 - твит Cursor о том, что o3-mini можно пока что использовать бесплатно, но при этом их собственные разработчики всё ещё предпочитают Sonnet :) (__хехе, и я тоже, об этом ниже__) 2 - бенчмарк Aider Polyglot - видно, что o3-mini-high забралась довольно высоко, но при этом стоит обратить внимание на столбец ""__Percent using correct edit format__"" - процент задач, в которых модель следовала заданному формату редактирования - по этому параметру модель выглядит не так хорошо. 3 - результаты тестирования на автономность при симуляции работы инженера-исследователя OpenAI: в этом случае модель показывает нулевые результаты - предположительно из-за того, что она плохо следовала инструкциям и путала инструменты. Можно надеяться на то, что это будет исправлено в будущем и результаты будут намного лучше. 4 - результаты решения задач Codeforces - видно, что производительность сильно выросла, даже опережает ""взрослую"" o1. 5 - задачи из LiveBench на олимпиадное программирование ""с нуля"" и на продолжение кода частичного решения олимпиадной задачи. Тут можно отметить 2 вещи: high-модель лучше всех и там, и там, а low-модель сильно проваливается на частичных решениях. Личные впечатления (предварительные) Я пока что провел с ней всего несколько часов, но позже докину новых впечатлений, если что-то поменяется. Плюс, при работе с существующей кодовой базой я использовал модель в Cursor, и там неизвестно, какой именно её вариант подключен, а это сильно влияет на результаты. Итак, с т.з. разработки - это модель-олимпиадник :) Отлично решает задачи на логику, математику, алгоритмы, и если у вас в коде есть что-то, что требует работы ""вглубь"" и на узком участке кода - однозначно стоит её использовать, это практически лучшая модель сейчас для таких задач (именно high-версия). А вот с задачами ""вширь"" справляется не так успешно: * когда в рамках задачи нужно поправить код сразу в нескольких местах - вносит ограниченное количество изменений, ломая проект; * не очень хорошо учитывает мелкие детали, разбросанные в разных местах кодовой базы; * удаляет код, который не нужно удалять, в процессе внесения своих изменений; * в Cursor Agent упорно не использует инструменты, которые легко использует тот же Sonnet; * на архитектурных задачах тоже не так хороша, как, к примеру, R1. Очень странно, что она фейлится на задачах, связанных со structured outputs и function calling (SO/FC) - её специально на это затачивали, судя по анонсу, но что-то пошло не так. Так что __предварительно__, для повседневного кода все ещё рулит Sonnet 3.5, а o3-mini достаётся роль отличного ризонера для небольших и глубоких задач. Что дальше? * ждём следующей модели от Claude - мне нравится Sonnet, но сколько уже можно-то; * ждём большой o3; * __кажется__, что проблема c SO/FC - низко висящий фрукт, и её могут пофиксить довольно быстро; * хочется выбор high/medium/low-версии в Cursor (на их форуме народ уже просит такую фичу); * надо потратить 100 баксов в API OpenAI, чтобы добраться до Tier 3, на котором станет можно использовать o3-mini - тогда можно будет опробовать модель по API в Cline/Aider :) #ai #news #development #model"

Из этого канала