HuggingFace 🤗 выложили The Ultra-Scale Playbook: Training LLMs on GPU Clusters https://huggingface.co/spaces/nanotron/ultrascale-playbook - это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит. Под что память выделяется и как рассчитывается, про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism), как атеншены вычисляются и оптимизируются, Flash Attention 1-3, овервью того как GPUшки работают, как кернелы оптимизировать и много всякого полезного Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек. Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже) — PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim