Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для… — @seeallochnaya

Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он скептичен: у зелёного гиганта есть куда двигаться по всем осям. У них огромная наценка, они могут начать её уменьшать и оставаться конкурентными. У них лучше настроены цепочки поставок, у них огромные объёмы — поэтому себестоимость производства банально ниже. Но самый главый козырь Nvidia — это софт, который позволяет компаниям учить и применять LLM. Dylan ещё давно говорил и писал, что в AMD инженеры не хуже; их железо, сами видеокарты, сравнимы с Nvidia по цифрам, но как дело доходит до использования в масштабе сотен-тысяч карт — всё сильно хуже. То есть AMD тратит больше денег, чтобы сделать начинку лучше, но из-за разницы в ПО не может раскрыть его на полную. Мне было интересно понять, насколько заметен эффект от улучшения софта у Nvidia, и вот SemiAnalysis выложили интересные цифры замеров. Они пробовали тренировать аналог GPT-3, то есть большую модель без использования микстуры экспертов (сейчас так почти не делают), с актуальными версиями библиотек на разные моменты времени, с января по декабрь 2024-го. Использовали GPU H100, которые на момент начала эксперимента уже год как были на рынке и устанавливались в ДЦ — кажется, что софт уже должен быть готов и дописан? Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%! Ничего в железе не поменялось, просто обновили драйвера, библиотеки, и стало работать гораздо более эффективно. Основные улучшения, согласно статье — в CuDNN/CuBLAS и NCCL. (Если вам интересно, то это в BF16, в FP8 29.5%->39.5%, рост на 34%. Тренировка на 128 GPU) Что это означает на практике? Помимо очевидного «тренировка становится дешевле» — компании на передовой, OpenAI, Anthropic, Google, все заинтересованы в выжимании максимума из своего железа. Подумайте сами, исследователь может придумать трюк в архитектуре, который улучшит обучение на 3-4-5%. А тут можно получать десятки процентов за счёт оптимизации софта! При запусках на сотни миллионов и миллиарды долларов это огромные цифры. Инженеры, могущие это делать, в огромном спросе. === И из той же заметки — про новые GB200 NVL72. Сейчас они только-только заходят на рынок и в датацентры. По словам SemiAnalysis, на них никто не тренирует модели, только делают инференс + занимаются отладкой. Софт пока не настолько отточен, и само железо часто выходит из строя. В одной такой стойке 72 видеокарты, как подсказывает название, но обучение, по плану Nvidia, должно производиться на 64 GPU. 8 соседних лежат готовенькие, чтобы прийти на смену выходящим из строя GPU и подхватить их нагрузку. В это время вы или теряете деньги, или можете их использовать для чего-то ещё (неприоритетные эксперименты, инференс, итд). Сейчас карты только-только сравнялись по перформансу на доллар с H100, весной они были хуже — потому что ПО от Nvidia было сырым. К концу года, по прогнозу Nvidia, в который SemiAnalysis, судя по цитированию, верят, GB200 будут в 2.7 раза более эффективны в пересчёте на доллар за единицу вычислений, по отношению к H100 (это с учётом того, что GB200 значимо дороже). Ждём, когда на них будут запускать тренировку фронтир-моделей 🥰

Из этого канала