— Хотя Google закупает TPU через Broadcom и платит значительную маржу, она… — @seeallochnaya

— Хотя Google закупает TPU через Broadcom и платит значительную маржу, она существенно меньше той маржи, которую Nvidia получает не только с продажи GPU, но и со всей системы, включая CPU, коммутаторы, сетевые карты, системную память и кабели. С точки зрения Google, это приводит к тому, что полный TCO на один чип TPU v7 в полной конфигурации на ~44% ниже, чем TCO сервера с Nvidia GB200. Это с лихвой компенсирует ~10% отставания по пиковым FLOPs. При этом из-за со-разработки TPU, LLM и всей системы вокруг Google может выжимать из железа утилизацию выше, так что даже реальные FLOPs могут быть выше. — У сторонних клиентов типа Anthropic нет этих преимуществ, но даже если они смогут выжать утилизацию всего лишь 15%, то TCO (с учётом маржи Google за предоставление доступа) уже сравняется с картами Nvidia. Однако SemiAnalysis дают оценку, что скорее всего удастся достичь утилизации в 40% из-за оптимизаций — то есть это будет гораздо выгоднее GPU (TCO меньше на ~52%). Бонусом упоминают, что в Anthropic работает как минимум один инженер, работавший над TPU на заре создания этих чипов. — вернёмся к OpenAI: они ещё даже не получили свои первые TPU, а уже сэкономили ~30% на всём закупках у Nvidia (выбили скидку, угрожая конкурентами). Это демонстрирует, насколько сильно преимущество TPU по соотношению «производительность в пересчёте на доллар TCO»: вы получаете выгоду от внедрения TPU еще до того, как подключите хотя бы один чип 😂 Стоит ли Nvidia переживать? Зелёные — всё??? — у Nvidia огромная ценность в открытой экосистеме, на которой построено куча всего подряд. Почти весь код для TPU закрыт, они не поддерживаются никакими библиотеками. Но Google хочет не отстать: прямо сейчас идёт работа по «нативной» поддержке PyTorch на TPU + огромные усилия кинуты на по поддержку TPU в движках инференса vLLM/SGLang (SemiAnalysis отслеживают репозитории и авторов изменений). Это делается в основном для Meta, у которой возник интерес к покупке TPU и которая не хочет переходить на JAX (ведь PyTorch — их детище). Но из-за этого условно через год вы сможете в одну кнопку разворачивать DeepSeek на TPU так же легко, как сегодня это делают разные сервисы с использованием GPU. И скорость будет выше, и цена меньше. — Хотя TPU v7 является настоящим конкурентом карт Blackwell, Nvidia снова наносит ответный удар с чипом нового поколения Vera Rubin. Rubin обеспечит огромный прирост производительности в вычислениях, памяти и сети, в то время как улучшения в TPU v8 будут гораздо скромнее в силу нескольких причин. Первая — это желание Google сменить партнёров на переправе, что приводит к изменениям в архитектуре, задержкам, большому количеству дополнительной работы. — Вторая — это активность Nvidia. Конечно вчерашняя самая дорогая компания мира не собирается проигрывать. Изначально у Nvidia была гораздо менее агрессивная цель для Rubin, но они подняли мощность с 1800 Вт до 2300 Вт, чтобы улучшить мощности ядер и скорость памяти. Это произошло во многом из-за паранойи Nvidia и конкурентного давления со стороны AMD и Google. Если это агрессивное увеличение мощностей в последний момент сработает, то TPU от Google превратится из конкурентоспособного решения в неконкурентоспособное (если судить по TCO) на момент выхода TPU v8, так как Google была слишком сдержанна в выборе архитектурных решений. Причём не исключена ситуация, что ТСО будет хуже даже для внутренних нагрузок (где нет маржи), не говоря уже про продажу наружу. На картинке: количество мощностей, производимых в год GPU Nvidia, TPU от Google и чипами AMD. У Nvidia рост конечно невероятный запланирован, что влечёт для нас более интересные модели и сценарии их использования.

Из этого канала