HuggingFace 🤗 выложили The Ultra-Scale Playbook: Training LLMs on GPU Clusters https://huggingface.co/spaces/nanotron/ultrascale-playbook - это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит. Под что память выделяется и как рассчитывается, про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism), как атеншены вычисляются и оптимизируются, Flash Attention 1-3, овервью того как GPUшки работают, как кернелы оптимизировать и много всякого полезного Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек. Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже) — PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
HuggingFace 🤗 выложили The Ultra-Scale Playbook: Training LLMs on GPU Clusters…
Из этого канала
- #966Там это... Ребята из Саканы выложили своего оптимизатора торч кода для…
Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт. The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and…
- #967"🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸…
"🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸 #nlp #проnlp #nlppapers Сегодня, под конец этой насыщенной недели, мы с коллегами…
- #968rl... rl всегда возвращается это еще из очень олдовых экспериментов хардмару,…
rl... rl всегда возвращается это еще из очень олдовых экспериментов хардмару, но ржомба Если убрать все ограничения конструкции, оптимизатор придумал…
- #964Qwen2.5-7B-Instruct-Tool-Planning-v0.1 Первый vikhr обученный на Function…
Qwen2.5-7B-Instruct-Tool-Planning-v0.1 Первый vikhr обученный на Function Calling а так же Tool planing! Модель обучена преимущественно на английском и это…
- #963Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку…
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно…