В IEEE Spectrum прикольная статья про то, как LLM меняют современные лэптопы:… — @gonzo_ML

В IEEE Spectrum прикольная статья про то, как LLM меняют современные лэптопы: https://spectrum.ieee.org/ai-models-locally С необходимостью локального инференса моделей старые подходы требуют переосмысления. Например, разделение на системную память и видеопамять, связанные через не самую быструю шину. Современный ноутбук для LLM (или ноутбук ближайшего будущего) — это ноутбук с большим объёмом консолидированной быстрой памяти, отдельным NPU — теперь у нас уже совсем гетерогенная система, включающая CPU, GPU и NPU (вспоминаются старые времена, когда математический сопроцессор был отдельным девайсом и ставился рядом с основным, типа Intel 80286/287), работающие совместно, а в идеале ещё и на общем чипе, чтобы укоротить физические пути к памяти и между собой, и с умным управлением потребляемой мощностью. Я когда-то создавал большие посты про железо для deep learning, у меня были отдельные секции про CPU , GPU и ASIC. По-хорошему, конечно, надо написать современные версии про это всё, тут и TPU уже 7-й версии, а там только 4-й, и GPU несколько поколений сменилось, и в CPU интересные вещи творятся. Например, у AMD прикольный топовый 4нм чип AMD Ryzen™ AI Max+ 395 c 16 ядрами Zen5 (и 32 тредами), частотой до 5.1 ГГц, до 128 Гб 256-bit LPDDR5x памяти, с графикой Radeon 8060S Graphics (которая вроде бьёт отдельную 3060 или ноутовую 4060) и, самое интересное, со встроенным NPU в 50 TOPS (в сочетании со всем остальным 126 TOPS) и всего 55 Вт потребления. Производительность конечно далека от ~3300 TOPS у 5090, но ведь и энергии жрёт в десять раз меньше, и дешевле. Я видел комменты на реддите, где народ пишет, что запускает на машинах с этим процом gpt-oss-120b на 40+ токенов в секунду и оно под нагрузкой жрёт меньше энергии, чем другие их сервера при простое. На этом же чипе от AMD есть прикольный EVO-X2 от GMKtec , который на инференсе сравним (где-то лучше, где-то хуже) с NVIDIA DGX Spark. В серверных процессорах тоже вроде что-то интересное происходит и у Интела, и у АМД. Прикольный движ.

Из этого канала