Если сделать грубую прикидку, то DeepSeek потратили на предтренировку DSv4 Pro… — @seeallochnaya

Если сделать грубую прикидку, то DeepSeek потратили на предтренировку DSv4 Pro примерно 10^25 FLOPs (оценка на основе количества токенов, написанных в статье, и количества активных параметров). Для сравнения, уже появляются датацентры, где устанавливают по 100'000 видеокарт (например, у Elon Musk и xAI — правда карты предыдущего поколения, Hopper, а не Blackwell. Прямо как у DeepSeek). На таком объеме с утилизацией 22% (что ниже достижимого) 10^25 FLOPs можно выжать за...18 часов. То есть такую модель можно обучить ЗА СУТКИ😦. Китайцы там поди пару месяцев потели-высиживали тренировку. Понятно, что нужно настроить инфраструктуру, подготовить данные, написать очень эффективную тренировку, но всё это так и так делается и будет делаться дальше. Плюс после предтренировки нужно ещё запускать SFT, RL, дистилляцию — заняться есть чем. И всё же... the compute gap real.

Из этого канала