Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь… — @gonzo_ML

Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь асинхронная версия! Можно не блокироваться на поломанных воркеров в большом обучении, и даже миксовать разнородное железо. Может и не строго нужны будут огромные ДЦ с тоннами одинаковых чипов. Decoupled DiLoCo for Resilient Distributed Pre-training __Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Nova Fallen, Ayush Dubey, Ionel Gog, Josef Dean, Blake Woodworth, Zachary Garrett, Nate Keating, Jenny Bishop, Henry Prior, Edouard Yvinec, Arthur Szlam, Marc’Aurelio Ranzato, Jeff Dean__ Статья: https://arxiv.org/abs/2604.21428 Ревью: https://arxiviq.substack.com/p/decoupled-diloco-for-resilient-distributed # TL;DR ЧТО сделали: Авторы представили Decoupled DiLoCo — фреймворк для распределённого предобучения, который заменяет жёстко связанную парадигму Single Program Multiple Data (SPMD) на полностью асинхронную архитектуру. Вычисления делятся на независимых воркеров (learners), которые передают фрагменты параметров центральному синхронизатору (syncer) на CPU. Использование минимального кворума и адаптивного grace-окна позволяет изолировать аппаратные сбои и избавиться от барьеров жёсткой синхронизации. ПОЧЕМУ это важно: Традиционный подход SPMD фундаментально ограничен надёжностью железа на больших масштабах: отказ одного чипа или случайная задержка сети могут застопорить весь гигантский кластер. Исследователи подошли к предобучению как к задаче распределённых систем, поставив доступность (availability) и устойчивость к разделению (partition tolerance) выше строгой консистентности параметров. Это обеспечивает нулевой глобальный даунтайм и почти оптимальный goodput даже при массовых сбоях оборудования. Метод позволяет использовать географически распределённое, разнородное и прерываемое (preemptible) железо без падения итогового качества моделей. Для практиков: Работа даёт готовый рецепт, как преодолеть лимиты надёжности оборудования при обучении передовых моделей. Позволяя частям кластера работать независимо и синхронизироваться асинхронно, можно собирать вместе более дешёвые, менее надёжные или физически удалённые чипы (и даже миксовать разные поколения железа) для обучения масштабных LLM без простоев. Координироваться тут: https://t.me/gonzo_ML_podcasts/3401

Из этого канала