NanoGPT теперь спидранят за 116 секунд Последний раз я писал о спидране чуть больше года назад — тогда они только-только прошли планку в 8 минут на 8xH100. За это время в репозиторий внесли гигантское количество оптимизаций на всех уровнях, ускорив тренировку в четыре раза. Наибольший эффект от одной оптимизации внесло использование Flex Attention — так получилось срезать время с 7 до 5 минут. Такие спидраны дают доступный стандартный бейзлайн для обкатывания оптимизаций для тренировки, который могут воспроизвести все. Как результат — модели тренируются быстрее и дешевле. Конечно же, не все оптимизации масштабируются на модели побольше, но это заметно лучше существующей ситуации с воспроизводимостью. Ну и именно из этих спидранов появился Muon — главный кандидат на замену Adam в роли стандартного оптимизатора. __Как думаете, через сколько времени на спидран будет уходить меньше минуты?__ https://github.com/KellerJordan/modded-nanogpt @ai_newz