2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая… — @seeallochnaya

2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая а) быстрее б) существенно дешевле в) поддерживает 2 миллиона токенов контекста. Модель доступна в двух версиях, с рассуждениями и без. По традиции, я не доверяю бенчмаркам от xAI, указанным на лендинге, и интересно посмотреть на независимые замеры попозже. Хотя вот Long Context Reasoning Benchmark от Artificial Analysis достаточно свежий, на нём модель слегка выше 2.5 Flash и чуть ниже Claude 4 Sonnet. И IFBench тоже вышел недавно, и модель примерно там же по уровню. Зато на других чуть ли не на равных с Grok 4 / Claude 4 Opus / GPT-5. По данным OpenRouter, средняя скорость генерации сейчас примерно 150 токенов/сек, что много (Gemini 2.5 Flash сейчас держится на уровне 75-90). И цена в 2.5-5 раз ниже! В общем, почти уверен, что модель найдёт свою нишу. На лендинге модели большой упор делается на бенчмарки, требующей работы с инструментами и конкретно поиском информации. Как раз на них модель превосходит Grok 4 — на 6 бенчмарках из 6! А на других 4 бенчмарках на математику показывают, что цепочки рассуждений для получения ответа стали короче. И тут я как раз хотел поговорить про то, почему так может быть, почему это естественно и какой из этого вывод. Если модель кратно меньше фронтир-модели, то с ней можно сделать гораздо больше итераций RL-дообучения, или как раз обучения рассуждениям и вызовам инструментов/поиску. Чем более задача требовательна к рассуждениям и чем меньше знаний для неё нужно (а это как раз базовые математика/программирование) — тем больше модель разгонится. Банально потому, что за X вычислительных мощностей можно сделать условно Y проходов по корпусу задач для фронтир-модели, и 10 * Y — для маленькой. За счёт большего количества попыток рассуждать LLM может и научиться это делать более эффективно (короткие цепочки рассуждений), и формировать длинные цепочки вызовов и вычислений. То же наблюдалось у OpenAI — до сих пор есть несколько бенчмарков, где o4-mini в топе и/или совсем слегка уступает свежим моделям. За'RL'или по самое не могу 😂 Вообще, я верю в маленькие специализированные рассуждающие модели, и интересно, где они окажутся года через 2.

Из этого канала