Свежий материал SemiAnalysis про TPU, специализированные чипы от Google для… — @seeallochnaya

Свежий материал SemiAnalysis про TPU, специализированные чипы от Google для обучения и применения нейросетей. По-моему, это один из самых длинных постов за всю историю, прочитал и выбрал главное. Перед прочтением важно узнать, что такое TCO (Total cost of ownership) — совокупная стоимость владения, включающая начальную цену покупки + все сопутствующие расходы за весь срок службы: затраты на внедрение, электричество, обслуживание, ремонт и даже убытки от простоев. В контексте ИИ-чипов низкий TCO означает, что вы получаете больше реальных вычислений за каждый вложенный доллар, даже если само «железо» не самое мощное на рынке. Итак: — Gemini 3 полностью обучена и развёрнута на TPU, собственных чипах компании. Для людей в твиттере это стало шоком, у Nvidia даже акции упали — но люди просто, как обычно, не знали, что и Gemini 2, и Gemini 1, и многие предыдущие модели тоже были обучены на TPU. Но TPU всегда существовали для внутренних нужд Google, никаких крупных внешних пользователей почти не было. Теперь же Anthropic используют их для своих моделей Claude (в статье говорится, что части обучения были на TPU, в чём я немного сомневаюсь, но вот что инференс на них есть — 100%) — в октябре об этом было объявлено официально. — сейчас Google разворачивает TPU в сторону предоставления внешним пользователям, в том числе прямым конкурентам. В очереди за заказами находятся xAI, META и даже OpenAI, Anthropic используют их более полугода и сделали заказ на один миллион чипов на 2026й. Причём 400 тысяч из них пойдут напрямую в их датацентр, а не Google, они сами будут платить за установку и обслуживание (заплатят ~$10B за покупку), и ещё 600 тысяч будут в облаке Google (сумма сделки примерно ~$42B — обратите внимание на разницу). — На 3-й квартал 2025-го года вычислительные мощности Anthropic состоят лишь на 50% из GPU, на 20% из чипов Amazon Trainium (тут недавно как раз новый датацентр запустили) и на целых 30% из TPU. На бумаге TPU 7-го поколения чуть слабее GPU от Nvidia — почему же тогда все хотят их использовать? Дело как раз в TCO: Nvidia, как я уже говорил несколько раз, имеет сумасшедшую наценку в 300%. — Google тихо вмешалась и захватила лидерство по производительности в одной из сложнейших аппаратных задач — поистине впечатляющее достижение для компании, чей основной бизнес не связан (или, правильнее сказать, не был связан) с железом. Я недавно слушал подкаст, не помню какой, и там как раз обсуждали тему TPU: если бы рынок понимал спрос на чипы, то Google стоил бы на несколько триллионов больше, точно опережал бы Nvidia. Чипы вообще могли бы стать основным бизнесом компании. — С релизом Gemini 3 Google показали, что TPU прошли проверку масштабирования тренировки LLM. Компания делала большой упор на надежность, доступность и удобство обслуживания инфраструктуры. Они предпочли жертвовать абсолютной пиковой производительностью ради большего времени бесперебойной работы. Работа оборудования на пределе возможностей означает более частые поломки, что влияет на TCO. И вот у карт Nvidia с этим не всё так же хорошо. — Вот тут очень интересный инсайд от SemiAnalysis: они утверждают, что в OpenAI не завершали успешной полномасштабной тренировки для новой фронтир-модели со времен GPT-4o, вышедшей в мае 2024 года. Но для меня это странно — их автор пояснил, что GPT-4.5 не считалась фронтиром и/или не была успешной. Даже если так — формально они всё равно смогли как-то отмасштабировать тренировку и побороть проблемы с надёжностью. В общем, пока непонятно.

Из этого канала