Ramanujan-1 — совсем без Nvidia Стартап Essential AI, основанный Ashish… — @ai_newz

Ramanujan-1 — совсем без Nvidia Стартап Essential AI, основанный Ashish Vaswani, тем самым что [Vaswani et al., 2017], выпустил свою первую модель. Тренировали эту 8B модель на смеси AMD MI300x и Google TPU v5p, при этом вся тренировка работает у них на Jax. Команда хвастается MFU в 50% на MI300x, правда речь, похоже, идёт о bf16. На претрейн и инстракт бенчах модель выдаёт результаты сопоставимые с Qwen 3 8B, несмотря на то что на её тренировку было использовано в 4 раза меньше компьюта. Но по настоящему она сияет в агентском кодинге — на SWE-bench Verified Ramanujan-1 выдаёт феноменальные для такого размера 20,8. Другие модели в этой весовой категории выдают околонулевые результаты, поэтому их на таком сложном бенчмарке обычно не тестят. Команда стартапа всего около 20 человек, так что релиз очень сфокусированный — модель выпустили всего в одном размере, на стоковой архитектуре Gemma, без ризонинг варианта и с крохотным контекстом в 32к. Но фундамент для будущих релизов заложен хороший, ждём пока ребята заскейлятся. Веса Блогпост Демо @ai_newz

Из этого канала