Ramanujan-1 — совсем без Nvidia Стартап Essential AI, основанный Ashish Vaswani, тем самым что [Vaswani et al., 2017], выпустил свою первую модель. Тренировали эту 8B модель на смеси AMD MI300x и Google TPU v5p, при этом вся тренировка работает у них на Jax. Команда хвастается MFU в 50% на MI300x, правда речь, похоже, идёт о bf16. На претрейн и инстракт бенчах модель выдаёт результаты сопоставимые с Qwen 3 8B, несмотря на то что на её тренировку было использовано в 4 раза меньше компьюта. Но по настоящему она сияет в агентском кодинге — на SWE-bench Verified Ramanujan-1 выдаёт феноменальные для такого размера 20,8. Другие модели в этой весовой категории выдают околонулевые результаты, поэтому их на таком сложном бенчмарке обычно не тестят. Команда стартапа всего около 20 человек, так что релиз очень сфокусированный — модель выпустили всего в одном размере, на стоковой архитектуре Gemma, без ризонинг варианта и с крохотным контекстом в 32к. Но фундамент для будущих релизов заложен хороший, ждём пока ребята заскейлятся. Веса Блогпост Демо @ai_newz
Ramanujan-1 — совсем без Nvidia Стартап Essential AI, основанный Ashish…
Из этого канала
- #4307Привет, фаундеры в чате есть? Как вы искали себе Executive Assistant и как…
Привет, фаундеры в чате есть? Как вы искали себе Executive Assistant и как собеседовали? Буду благодарен советам.
- #4308"Обычно с дизайном мерча, который компании раздают на всех технических конфах,…
"Обычно с дизайном мерча, который компании раздают на всех технических конфах, все довольно грустно.
- #4312Devstral 2 — локальный вайбкодинг После разочаровывающего релиза Mistral Large…
Devstral 2 — локальный вайбкодинг После разочаровывающего релиза Mistral Large 3, компания показала что не всё потеряно.
- #4305Нейродайджест за неделю (#97) LLM - DeepSeek V3.2 и V3.2 Speciale — Новые…
Нейродайджест за неделю (#97) LLM - DeepSeek V3.2 и V3.2 Speciale — Новые модели, сравнимые с GPT-5 High.
- #4301Kling's Omni Launch Week: разбираем все анонсы Kling провели свою «Omni Launch…
Kling's Omni Launch Week: разбираем все анонсы Kling провели свою «Omni Launch Week», в ходе которой ежедневно выкатывали по фиче.