Google выкатили Deep Think в подписку Ultra за $250/месяц. Это аналог o3-pro, где модель в параллель генерирует несколько разных решений (или даже этапов решений, детали системы не раскрываются), а затем формирует финальный ответ. За счёт этого качество, а самое главное надёжность, вырастают. Картинки бенчмарков можно глянуть тут (сравнения с o3 pro и Grok 4 Heavy нет). Важно отметить, что это не та же самая система, что выиграла золотую медаль — она работает быстрее (а значит перебирает меньше вариантов => хуже результаты), но на бронзу на IMO '25 наскребла. Более продвинутая версия уже доступна некоторым математикам для тестирования, а полноценный релиз может случиться позже в этом году. Я пока, пожалуй, не буду перекатываться с ChatGPT Pro за $200 — достаточно редко нужна o3-pro (и, соответственно, замена ей), почти со всем справляется о3. Часто бывает так, что я отправляю запрос в два чата, получаю ответ от o3, и всё работает — в результаты o3 pro смотрю разве что ради интереса. Одна из причин — уж очень долго работает, 10-15 минут. Если есть чем заняться в это время — то не критично, но иногда важно получить ответ и продолжить решать задачу, а не переключать контекст. Хочется получать крутые результаты побыстрее... === И вы прочитали самую длинную подводку в мире, поздравляю! Этот пост — про Cerebras, компанию, которая делает огромные чипы, позволяющие достигать безумных скоростей в генерации текста LLM. Сегодня они развернули у себя совсем свежий Qwen3 Coder на 480 миллиардов параметров (в MoE, активных 35B). Cerebras говорят, что скорость генерации достигает 2000 токенов в секунду. Да-да, примерно в 15-20 раз быстрее условного Claude 4 Sonnet. Большинство ответов и генераций будут возвращаться ещё до того, как вы откроете новую вкладку и вобьёте название сайта. Это принципиально новый user experience. И даже цена — не задрана вверх, $2 за миллион токенов на входе и выходе. В среднем на OpenRouter есть предложения подешевле (~$1.5), НО ДВЕ ТЫСЯЧИ ТОКЕНОВ В СЕКУНДУ, КАРЛ! это 5 страниц текста Вместе с этим Cerebras представили Cerebras Code, это подписка на использование сверхбыстрого Qwen3 Coder. За $50 в месяц вы получаете до тысячи сообщений в день — идеально, чтобы дёргать агента в IDE (можно делать запросы по API хоть где, Cursor, Continue.dev, Cline, RooCode, Aider, ...). Так вот, это я всё к чему. Очень жду, когда и для o3 Pro / Gemini Deep Think или сравнимых открытых систем появится схожая возможность получать невероятно качественные ответы за 3-5 секунд, а не 10+ минут. Это будет ЖОСТКА, особенно учитывая развитие LLM в следующие 1-2 года. 🥇 excited for Cerebras
Google выкатили Deep Think в подписку Ultra за $250/месяц. Это аналог o3-pro,…
Из этого канала
- #2712Вот так вот выглядит генерация ответа в Windsurf. Видео не ускорено :) И нет,…
Вот так вот выглядит генерация ответа в Windsurf. Видео не ускорено :) И нет, вы не подумайте — под капотом достаточно большая и умная модель, а не глупая…
- #2713"🌠 Используем GPT-5 в Perplexity Работает только у пользователей с подпиской…
"🌠 Используем GPT-5 в Perplexity Работает только у пользователей с подпиской Pro и Max 🧭 Поочерёдность действий: 1. Устанавливаем расширение Requestly; 2.
- #2714^ подписчик говорит, что, вероятно, нашел способ делать запросы к GPT-5 в…
^ подписчик говорит, что, вероятно, нашел способ делать запросы к GPT-5 в Perplexity.
- #2710OpenAI... снова привлекают деньги: NYT пишет, что в копилку скоро капнут 8,3…
OpenAI... снова привлекают деньги: NYT пишет, что в копилку скоро капнут 8,3 млрд долларов инвестиций (по той же оценке, что и раньше — 300 млрд долларов).
- #2709OpenAI объявили о втором партнёрстве (из десяти) со страной в рамках проекта…
OpenAI объявили о втором партнёрстве (из десяти) со страной в рамках проекта Stargate — Норвегия.