2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая а) быстрее б) существенно дешевле в) поддерживает 2 миллиона токенов контекста. Модель доступна в двух версиях, с рассуждениями и без. По традиции, я не доверяю бенчмаркам от xAI, указанным на лендинге, и интересно посмотреть на независимые замеры попозже. Хотя вот Long Context Reasoning Benchmark от Artificial Analysis достаточно свежий, на нём модель слегка выше 2.5 Flash и чуть ниже Claude 4 Sonnet. И IFBench тоже вышел недавно, и модель примерно там же по уровню. Зато на других чуть ли не на равных с Grok 4 / Claude 4 Opus / GPT-5. По данным OpenRouter, средняя скорость генерации сейчас примерно 150 токенов/сек, что много (Gemini 2.5 Flash сейчас держится на уровне 75-90). И цена в 2.5-5 раз ниже! В общем, почти уверен, что модель найдёт свою нишу. На лендинге модели большой упор делается на бенчмарки, требующей работы с инструментами и конкретно поиском информации. Как раз на них модель превосходит Grok 4 — на 6 бенчмарках из 6! А на других 4 бенчмарках на математику показывают, что цепочки рассуждений для получения ответа стали короче. И тут я как раз хотел поговорить про то, почему так может быть, почему это естественно и какой из этого вывод. Если модель кратно меньше фронтир-модели, то с ней можно сделать гораздо больше итераций RL-дообучения, или как раз обучения рассуждениям и вызовам инструментов/поиску. Чем более задача требовательна к рассуждениям и чем меньше знаний для неё нужно (а это как раз базовые математика/программирование) — тем больше модель разгонится. Банально потому, что за X вычислительных мощностей можно сделать условно Y проходов по корпусу задач для фронтир-модели, и 10 * Y — для маленькой. За счёт большего количества попыток рассуждать LLM может и научиться это делать более эффективно (короткие цепочки рассуждений), и формировать длинные цепочки вызовов и вычислений. То же наблюдалось у OpenAI — до сих пор есть несколько бенчмарков, где o4-mini в топе и/или совсем слегка уступает свежим моделям. За'RL'или по самое не могу 😂 Вообще, я верю в маленькие специализированные рассуждающие модели, и интересно, где они окажутся года через 2.
2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая…
Из этого канала
- #2895👏 сегодня объявляю марафон разборов статей. Tongyi, одна из команд AliBaba,…
👏 сегодня объявляю марафон разборов статей. Tongyi, одна из команд AliBaba, занимающихся AI/ML, на прошлой неделе выпустила Tongyi DeepResearch — систему на…
- #2896🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем…
🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic…
- #2899Я уже один раз писал про сборник песен с радио GTA IV — и даже получил…
Я уже один раз писал про сборник песен с радио GTA IV — и даже получил благодарности в личку за то, что поделился ❤️ Сегодня у нас снова играет Vladivostok FM…
- #2891Чуть больше недели назад в Cursor обновили Tab-модель — это которая…
Чуть больше недели назад в Cursor обновили Tab-модель — это которая подсказывает вам код прямо когда вы его пишете, без длительного ожидания генерации.
- #2890Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за…
Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за 2'000 долларов, про который писали больше полугода назад?