Ночью на выставке CES Nvidia официально представила новые видеокарты для… — @seeallochnaya

Ночью на выставке CES Nvidia официально представила новые видеокарты для ИИ-датацентров в линейке Vera Rubin. Как и всегда, всё мощнее, быстрее, главное накидывают больше памяти, так что производительность больших моделей вырастает (картинка 1), а цены снижаются. Интересно, что прирост в пропускной способности 10x показали не на уровне 50 токенов-в-секунду, как обычно нам предоставляют сервисы вроде ChatGPT, а около 225 — именно там наибольший прирост для моделей размера в 1 триллион параметров. В теории, может быть для платных пользователей сервисов будет увеличенная скорость генерации — я вот мечтаю, что GPT-5.2 Pro будет работать не за 20 минут, а за 5. И отдельно представили специальный вид железа под названием Context Memory Storage Platform (картинка номер 2). Это очень быстрый SSD, подключающийся напрямую к GPU так, что загрузка данных игнорирует CPU и оперативную память. Этот SSD, судя по предыдущим новостям, будет иметь скорость в 100 миллионов операций чтения и записи случайных данных в секунду. Это очень много — ChatGPT говорит, что хорошие SSD в игровых компьютерах выдают 1-3 миллиона. Это всё равно существенно медленнее оперативной памяти, но зато объёмы выше. Сходу смог придумать три применения для этих дисков, все три предполагают дальнейший рост длины чатов/цепочек рассуждений: 1) выгружать ваш чат из памяти, пока вы читаете и печатаете ответ (расширение функциональности кэширования) 2) выгружать состояние GPU для того, чтобы быстро загружать его обратно в будущем (это позволяет ускорить запуск виртуальных машин, чтобы не инициализировать что-то с нуля; альтернативно, можно загружать персонализированные LoRA-адаптеры, которые немного дообучены под вас или один из сотен доменов) 3) самое интересное — позволить моделям во время обучения писать гораздо более длинные цепочки рассуждений, в миллионы-десятки миллионов токенов. Сейчас модели так просто не могут, но если бы могли, то быстро упёрлись в количество памяти на GPU. Я могу представить, как условный DSA от DeepSeek ложится на это решение — быстрые индексы для поиска релевантных токенов живут в GPU, и по ним определяется, какие части предыдущей истории загружать с SSD. Акции Nvidia после презентации не выросли.... (non 🔼)

Из этого канала