Nvidia Rubin CPX — чипы для ИИ всё более специализируются Инференс современных… — @ai_newz

Nvidia Rubin CPX — чипы для ИИ всё более специализируются Инференс современных LLM состоит из двух стадий: prefill и decoding, которые крайне отличаются по своим требованиям. Префил требует вычислительную мощность чтобы сгенерировать KV кэш, а для декодинга нужна пропускная способности памяти, чтобы грузить KV кэш и веса на чип. Из-за такой разницы, на нодах которые занимаются префилом, простаивает самая дорогая часть современных датацентровых GPU — HBM память, которая сейчас составляет 50%+ всей стоимости GPU. К тому же она всё ещё в дефиците и является чуть ли не основным ограничителем производства видеокарточек. Решение от Nvidia — сделать специальные, более дешёвые, карточки для префила. В качестве памяти — 128 гигабайт GDDR7 (против 288GB HBM4 у VR200), пропускной способность в 2 терабайта в секунду вполне достаточна для префила. Кроме этого экономят на других штуках вокруг чипа — вместо дефицитного CoWoS-L используют более бюджетный FC-BGA, а связываются карточки друг с другом по PCIe вместо NVLink. Большой плюс — упаковать в одну стойку можно 144 таких видеокарты, против всего 72 GPU в NVL144. При этом такая стойка с Rubin CPX будет не просто иметь больше компьюта, но и кушать меньше энергии. Так как префил в больших деплойментах и так делают на отдельных нодах, на высоком уровне мало что изменится — просто машины для префила переедут на специальное железо. Главный минус — такие GPU перекидывать между тренировкой и инференсом вряд-ли выйдет, но это явно будет компенсировано разницей в цене и доступности. @ai_newz

Из этого канала