Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он скептичен: у зелёного гиганта есть куда двигаться по всем осям. У них огромная наценка, они могут начать её уменьшать и оставаться конкурентными. У них лучше настроены цепочки поставок, у них огромные объёмы — поэтому себестоимость производства банально ниже. Но самый главый козырь Nvidia — это софт, который позволяет компаниям учить и применять LLM. Dylan ещё давно говорил и писал, что в AMD инженеры не хуже; их железо, сами видеокарты, сравнимы с Nvidia по цифрам, но как дело доходит до использования в масштабе сотен-тысяч карт — всё сильно хуже. То есть AMD тратит больше денег, чтобы сделать начинку лучше, но из-за разницы в ПО не может раскрыть его на полную. Мне было интересно понять, насколько заметен эффект от улучшения софта у Nvidia, и вот SemiAnalysis выложили интересные цифры замеров. Они пробовали тренировать аналог GPT-3, то есть большую модель без использования микстуры экспертов (сейчас так почти не делают), с актуальными версиями библиотек на разные моменты времени, с января по декабрь 2024-го. Использовали GPU H100, которые на момент начала эксперимента уже год как были на рынке и устанавливались в ДЦ — кажется, что софт уже должен быть готов и дописан? Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%! Ничего в железе не поменялось, просто обновили драйвера, библиотеки, и стало работать гораздо более эффективно. Основные улучшения, согласно статье — в CuDNN/CuBLAS и NCCL. (Если вам интересно, то это в BF16, в FP8 29.5%->39.5%, рост на 34%. Тренировка на 128 GPU) Что это означает на практике? Помимо очевидного «тренировка становится дешевле» — компании на передовой, OpenAI, Anthropic, Google, все заинтересованы в выжимании максимума из своего железа. Подумайте сами, исследователь может придумать трюк в архитектуре, который улучшит обучение на 3-4-5%. А тут можно получать десятки процентов за счёт оптимизации софта! При запусках на сотни миллионов и миллиарды долларов это огромные цифры. Инженеры, могущие это делать, в огромном спросе. === И из той же заметки — про новые GB200 NVL72. Сейчас они только-только заходят на рынок и в датацентры. По словам SemiAnalysis, на них никто не тренирует модели, только делают инференс + занимаются отладкой. Софт пока не настолько отточен, и само железо часто выходит из строя. В одной такой стойке 72 видеокарты, как подсказывает название, но обучение, по плану Nvidia, должно производиться на 64 GPU. 8 соседних лежат готовенькие, чтобы прийти на смену выходящим из строя GPU и подхватить их нагрузку. В это время вы или теряете деньги, или можете их использовать для чего-то ещё (неприоритетные эксперименты, инференс, итд). Сейчас карты только-только сравнялись по перформансу на доллар с H100, весной они были хуже — потому что ПО от Nvidia было сырым. К концу года, по прогнозу Nvidia, в который SemiAnalysis, судя по цитированию, верят, GB200 будут в 2.7 раза более эффективны в пересчёте на доллар за единицу вычислений, по отношению к H100 (это с учётом того, что GB200 значимо дороже). Ждём, когда на них будут запускать тренировку фронтир-моделей 🥰
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для…
Из этого канала
- #2803Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning…
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть…
- #2804Пример работы Вверху указаны принципы (вручную написанные инструкции оценки,…
Пример работы Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ…
- #2805Всем тем, кто последние недели ждал нано-банану — праздник: Google официально…
Всем тем, кто последние недели ждал нано-банану — праздник: Google официально выпустили апдейт своей image-editing модели.
- #2801Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами,…
Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии.
- #2800Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё…
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%.