Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых… — @seeallochnaya

Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку, сделанную на основе технологий недавно «купленного» стартапа Groq. Groq специализировались на быстрой генерации токенов за счёт того, что в их картах не было HBM — очень быстрой, но всё ещё относительно медленной памяти. Вся модель и ваши токены жили в SRAM — супер-быстрой памяти (в 15+ раз быстрее), с которой напрямую взаимодействуют вычислительные юниты. Но она очень дорогая, и её мало — видеокарта GB200, использующаяся в датацентрах, имеет всего 126 МегаБайт SRAM (и это на 2 чипа внутри, то есть 63 МБ/чип). (это было одной из проблем Groq — они не могли запускать очень большие модели, SRAM не хватало) Теперь модуль Groq 3 LPX будет частью серверных стоек, которые предлагает Nvidia — специально для сценариев, где нужна сверх-быстрая генерация. Nvidia рассчитывает, что современные GPT (якобы размером в 2 триллиона параметров) смогут бегать на скорости в 400 токенов в секунду. В одной стойке LPX (на второй картинке) будет 128 GB SRAM – то есть огромное количество, по сравнению с обычными картами. Но этого всё равно не хватит, чтобы считать всё — поэтому Nvidia предлагает считать там только FFN/MOE, а Attention продолжать на картах Nvidia (картинка 4). О, и на последней картинке — Nvidia планирует сделать чип архитектуры Vera Rubin (следующее поколение, уже представлено, но ещё не продаётся) специально для космоса, с вниманием к выделяемому теплу. 🚀 🚀 🚀

Из этого канала