DeepSeek за $6 млн? Вот что на самом деле скрыли китайцы Давно сохранил эту… — @egoshin_kedprof

DeepSeek за $6 млн? Вот что на самом деле скрыли китайцы Давно сохранил эту картинку - она как нельзя лучше передаёт тот фурор, который устроила китайская модель DeepSeek в технологическом мире и на фондовых рынках. И вот наконец появился повод: аналитическая компания SemiAnalysis выпустила исследование, подробно разобравшее, во сколько на самом деле обошлось обучение DeepSeek. 📖 Предыстория: В начале 2025 года китайская компания DeepSeek опубликовала сенсационную новость: они обучили языковую модель уровня GPT‑4 всего за $6 млн. Это заявление вызвало фурор. Акции западных лидеров индустрии — от NVIDIA до OpenAI-партнёров — на короткое время просели. Инвесторы всерьёз начали обсуждать: «А может, вся эта американская гонка вооружений переоценена?» DeepSeek преподносили свой успех как доказательство эффективности: мол, можно обойтись без миллиардных инвестиций, и всё равно построить модель уровня GPT-4. Но за громкими заголовками скрывается совершенно иная картина. 📉 Что на самом деле стояло за цифрой $6 млн? Заявленная сумма — это стоимость одного конкретного обучения финальной версии модели (DeepSeek-V2/V3). В неё вошли лишь: - аренда 2048 GPU H800 (или аналогичных) на 2 месяца; - прямые вычислительные расходы на эту одну тренировку; - без учёта инженерной работы, подготовки данных или дообучения. Что осталось за кадром: ✅ Подготовка инфраструктуры: дата-центры, сети, системы хранения. ✅ Закупка или долгосрочная аренда десятков тысяч GPU (DeepSeek по разным данным использует от 50 000 до 60 000 GPU, включая H800 от NVIDIA и китайские аналоги). ✅ Зарплаты команде (инженеры, исследователи, ML-операторы). ✅ Создание и чистка тренировочного корпуса (сотни миллиардов токенов). ✅ Проведение десятков промежуточных обучений (до финального запуска). ✅ Оценка и тестирование модели, включая RLHF. 🔎 По расчётам аналитиков SemiAnalysis, реальные затраты DeepSeek на создание всей модели превышают $2 млрд, включая: ~$1.6 млрд на оборудование; ~$900 млн на операционные издержки за несколько лет; - плюс непубличные R&D-расходы. ⚖️ А сколько тратят OpenAI и Anthropic? Часто звучат оценки, что OpenAI потратила на обучение GPT-4 порядка $63–100 млн. Но эти цифры - это в лучшем случае оценка стоимости одного финального обучения, аналогично тому, как DeepSeek озвучила свои $6 млн. Однако, если сравнивать честно, то нужно учитывать следующее: Модель: GPT-4 (OpenAI) Стоимость финального обучения: $63–100 млн Стоимость общей инфраструктуры и R&D (оценочно): $1.5 млрд+ Модель: Claude 3 (Anthropic) Стоимость финального обучения: ~$100 млн Стоимость общей инфраструктуры и R&D (оценочно): 1.5 млрд+ Модель: DeepSeek V3 Стоимость финального обучения: $6 млн (заявлено) Стоимость общей инфраструктуры и R&D (оценочно): ~$2–2.5 млрд Иными словами, реальных «суперэкономий» нет. Все ведущие команды работают в одном бюджете — вопрос лишь в том, какую часть расходов они считают нужным афишировать. 🧠 Почему эта история важна? ❗ Сама по себе цифра в $6 млн - не ложь, но и не вся правда. Она отражает лишь верхушку айсберга. Ключевая проблема: такие заявления создают иллюзию, что любой может «обучить GPT‑4 за копейки». На практике же масштабные ИИ-прорывы требуют: - доступа к десяткам тысяч GPU, - команд из сотен специалистов, - времени (модели тренируются месяцами), - и миллиарда долларов вложений в совокупности. 📌 Вывод DeepSeek - важный игрок в новой волне китайского ИИ. Но не потому, что они обучили модель «за $6 млн». А потому, что сумели создать конкурентную LLM, вложив в это, по оценкам, более $2 млрд - вполне сравнимо с затратами OpenAI и Anthropic. 📉 Временное падение рыночной капитализации ИИ-компаний после этой новости - ещё одно напоминание: инфошум часто искажает реальную стоимость прорыва. Технологическое превосходство сегодня не покупается за $6 млн. Оно строится на стратегической воле, инвестициях в инфраструктуру и способности превращать модели в устойчивые продукты. 🎱 Егошин | Кеды профессора

Из этого канала