Вышел Grok 4 SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4 Opus, 15.9% против 8,6%. Но больше всего xAI гордятся Humanity's Last Exam, которому посвятили почти половину презентации. Результаты и правда хорошие — с максимальным компьютом и с доступом к инструментам модель выдаёт 44,4% (50.7% на текстовой части). Без тулюза всё ещё SOTA, но с меньшим отрывом — модель выбивает 25.4%, против 21.6% у Gemini 2.5 Pro. Базовая модель та же самая что у Grok 3 (Grok 4 изначально хотели запустить как Grok 3.5, но решили потренировать подольше). Основное отличие — на тренировку ризонингу потрачено в 10x больше компьюта. Теперь компьют на RL примерно равен компьюту на претрейн, с чем я вас и поздравляю 🥳. Что важно — модель теперь нативно учат тулюзу во время RL, как и o3 с o4-mini. С мультимодальностью всё не очень — бенчмарки показали почти исключительно текстовые, а на HLE видна заметная просадка. Илон это обещает поправить уже со следующей версией базовой модели. А вот контекст удвоили до 256k. Запустили и API, цена за токен такая же как у Grok 3 и Claude Sonnet, но модель очень разговорчивая — на реальных задачах она стоит почти как Claude Opus 4. Grok 4 Mini не состоялся, а жаль — Grok 3 Mini крайне хорошая модель за свою цену, хотелось бы апдейта. А тем временем компьют xAI расширяется с неслыханными темпами — Илон говорит что они собираются начать тренировку своей видеомодели на 100k+ GB200 через 3-4 недели. Уже есть деньги и на следующее расширение Colossus — в конце прошлого месяца компания привлекла 10 миллиардов долларов. Половину от инвесторов, а половину — в долг. @ai_newz
Вышел Grok 4 SOTA на нескольких бенчах — выбивает идеальный результат на…
Из этого канала
- #4021Что лучше чем подписка за $200? Подписка за $300! Только бы такие инновации в…
Что лучше чем подписка за $200? Подписка за $300! Только бы такие инновации в бизнес модели не начали копировать другие компании. @ainewz
- #4022Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая…
Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное…
- #4024Мы живем в абсолютно проклятое время 😁 @ainewz
Мы живем в абсолютно проклятое время 😁 @ainewz
- #4015SmolLM 3 — полностью открытая 3B модель от Huggingface Это самая сильная 3B…
SmolLM 3 — полностью открытая 3B модель от Huggingface Это самая сильная 3B модель — она опережает Llama-3-3B и Qwen 2.5-3B, но отстаёт от более крупных 4B…
- #4014"Там чет мунвели тизерят свою видео-генерацию для киноиндустрии,…
"Там чет мунвели тизерят свою видео-генерацию для киноиндустрии, натренированную на ""чистых данных"". Ну, ну. Посмотрим. Пока модель потыкать нельзя. @ainewz"