NanoGPT теперь спидранят за 116 секунд Последний раз я писал о спидране чуть больше года назад — тогда они только-только прошли планку в 8 минут на 8xH100. За это время в репозиторий внесли гигантское количество оптимизаций на всех уровнях, ускорив тренировку в четыре раза. Наибольший эффект от одной оптимизации внесло использование Flex Attention — так получилось срезать время с 7 до 5 минут. Такие спидраны дают доступный стандартный бейзлайн для обкатывания оптимизаций для тренировки, который могут воспроизвести все. Как результат — модели тренируются быстрее и дешевле. Конечно же, не все оптимизации масштабируются на модели побольше, но это заметно лучше существующей ситуации с воспроизводимостью. Ну и именно из этих спидранов появился Muon — главный кандидат на замену Adam в роли стандартного оптимизатора. __Как думаете, через сколько времени на спидран будет уходить меньше минуты?__ https://github.com/KellerJordan/modded-nanogpt @ai_newz
NanoGPT теперь спидранят за 116 секунд Последний раз я писал о спидране чуть…
Из этого канала
- #4351"Нейродайджест за неделю (#100) Юбилейный и последний перед новым годом, с…
"Нейродайджест за неделю (#100) Юбилейный и последний перед новым годом, с наступающими! LMM - NanoGPT за 116 секунд — Тренировка NanoGPT ускорились в четыре…
- #4352И ещё немного о современном ML-образовании Недавно делился мыслями про…
И ещё немного о современном ML-образовании Недавно делился мыслями про подготовку AI-кадров в США, Китае и России.
- #4353MAI-UI — GUI агент на основе Qwen Alibaba Tongyi Lab выпустила MAI-UI —…
MAI-UI — GUI агент на основе Qwen Alibaba Tongyi Lab выпустила MAI-UI — семейство агентов для управления интерфейсами смартфонов.
- #4349"Nvidia ""покупает"" Groq за $20 миллиардов Сделка обёрнута как ""соглашение о…
"Nvidia ""покупает"" Groq за $20 миллиардов Сделка обёрнута как ""соглашение о лицензировании технологий"", в рамках которого Nvidia получает все технологии…
- #4348Как себя сегодня чувствует ML-образование Наткнулся на исследование J'son &…
Как себя сегодня чувствует ML-образование Наткнулся на исследование J'son & Partners о подготовке AI-кадров в США, Китае и России.