Новая 5.3-Codex была задизайнена, натренирована и развёрнута на стойках… — @seeallochnaya

Новая 5.3-Codex была задизайнена, натренирована и развёрнута на стойках GB200-NVL72 с чипами Blackwell (которые начали поступать в середине прошлого года). Частично этим объясняется ускорение новой Codex-модели. Почти 3 года назад, почти сразу после бума ChatGPT и выхода GPT-4, OpenAI отправили в Nvidia свои хотелки по тому, как должны выглядеть чипы, видеокарты и серверные стойки (сеть внутри них и так далее). И вот только сейчас мы видим плоды этой проделанной работы — настолько длинный цикл. Помню, в статье DeepSeek v3 китайцы тоже давали много советов Nvidia, правда почти уверен, что ничего из этого не повлияло на решения зелёных: потому что большинство фичей уже было анонсировано как раз таки из-за того, что придумали крупнейшие заказчики Nvidia, включая OpenAI. Для меня это отчасти служит аргументом, что наработки DeepSeek по архитектуре могут быть очень похожи на решения фронтир-лабораторий: в конечном итоге ведь оптимизируют под железо, которое оптимизируют под вон те запросы. Но пойди пойми, это они сами придумали, или услышали в кафе/на вечеринке, или догадались из первых принципов глядя на то, как устроены новые железки?

Из этого канала