Google выкатили Deep Think в подписку Ultra за $250/месяц. Это аналог o3-pro,… — @seeallochnaya

Google выкатили Deep Think в подписку Ultra за $250/месяц. Это аналог o3-pro, где модель в параллель генерирует несколько разных решений (или даже этапов решений, детали системы не раскрываются), а затем формирует финальный ответ. За счёт этого качество, а самое главное надёжность, вырастают. Картинки бенчмарков можно глянуть тут (сравнения с o3 pro и Grok 4 Heavy нет). Важно отметить, что это не та же самая система, что выиграла золотую медаль — она работает быстрее (а значит перебирает меньше вариантов => хуже результаты), но на бронзу на IMO '25 наскребла. Более продвинутая версия уже доступна некоторым математикам для тестирования, а полноценный релиз может случиться позже в этом году. Я пока, пожалуй, не буду перекатываться с ChatGPT Pro за $200 — достаточно редко нужна o3-pro (и, соответственно, замена ей), почти со всем справляется о3. Часто бывает так, что я отправляю запрос в два чата, получаю ответ от o3, и всё работает — в результаты o3 pro смотрю разве что ради интереса. Одна из причин — уж очень долго работает, 10-15 минут. Если есть чем заняться в это время — то не критично, но иногда важно получить ответ и продолжить решать задачу, а не переключать контекст. Хочется получать крутые результаты побыстрее... === И вы прочитали самую длинную подводку в мире, поздравляю! Этот пост — про Cerebras, компанию, которая делает огромные чипы, позволяющие достигать безумных скоростей в генерации текста LLM. Сегодня они развернули у себя совсем свежий Qwen3 Coder на 480 миллиардов параметров (в MoE, активных 35B). Cerebras говорят, что скорость генерации достигает 2000 токенов в секунду. Да-да, примерно в 15-20 раз быстрее условного Claude 4 Sonnet. Большинство ответов и генераций будут возвращаться ещё до того, как вы откроете новую вкладку и вобьёте название сайта. Это принципиально новый user experience. И даже цена — не задрана вверх, $2 за миллион токенов на входе и выходе. В среднем на OpenRouter есть предложения подешевле (~$1.5), НО ДВЕ ТЫСЯЧИ ТОКЕНОВ В СЕКУНДУ, КАРЛ! это 5 страниц текста Вместе с этим Cerebras представили Cerebras Code, это подписка на использование сверхбыстрого Qwen3 Coder. За $50 в месяц вы получаете до тысячи сообщений в день — идеально, чтобы дёргать агента в IDE (можно делать запросы по API хоть где, Cursor, Continue.dev, Cline, RooCode, Aider, ...). Так вот, это я всё к чему. Очень жду, когда и для o3 Pro / Gemini Deep Think или сравнимых открытых систем появится схожая возможность получать невероятно качественные ответы за 3-5 секунд, а не 10+ минут. Это будет ЖОСТКА, особенно учитывая развитие LLM в следующие 1-2 года. 🥇 excited for Cerebras

Из этого канала