"Я хотел бы уметь так писать, как эти ребята! (Часть 1) Когда 2 недели назад я… — @aivkube

"Я хотел бы уметь так писать, как эти ребята! (Часть 1) Когда 2 недели назад я взялся за перевод и редактирование, я еще не знал, какое наслаждение испытаю в процессе. Скажу честно, последний раз такой кайф от технической литературы я ловил, когда читал ""Дедлайн"" Том Демарко и ""Программист-прагматика"" Ханта и Томаса. На первый взгляд SMOL Playbook от HuggingFace, которым мы обязаны почти всем в AI-опенсорсе - это эссе размером в 2️⃣0️⃣0️⃣➕ страниц о том, как обучать большие модели. Но для меня это - изысканный десерт весом в полтонны, которым никак не можешь наесться. Слой за слоем я читал и находил все новые и новые инсайты, многие из которых подтверждали мои предположения и опыт, но бОльшая часть была ошеломляюще новой. __Например, мне стал понятен успех Kimi, инженеры которой просто внимательнее других отнеслись к оптимизации. __ Все это перемежалось тонким юмором и совершенно неожиданной честностью. А еще там внутри оказалось столько незнакомых терминов, сокращений и отсылок, что я решил: лучший способ разобраться - это перевести. И вот что я понял... Обычно истории про большие модели звучат как саги о том, как собрать своего Оптимуса Прайма. Но авторы Smol сходу завляют: а может, вам вообще не нужно обучать собственную модель?💁🏻 И вообще, давайте засучим рукава и посмотрим, как обстоят дела в машинном цехе. А там нас ждут вместо успешного успеха ночные падения серверов, странные всплески лосса и тот самый ""незаметный баг в тензорном параллелизме"", который портит месяцы работы. Полированный научный PDF обычно заканчивается на ""...и тогда наша модель стала новым стандартом"". Но этот текст постоянно напоминаем о том, что гигантомания в большим моделях - это зло. Всякая индустрия любит флаги, но AI-рынок особенно. У всех больших ребят должна быть своя обученная модель, свои бенчмарки, и, желательно, свой xGPT. Playbook предлагает вместо флага 🧭компас: ""почему▶️что▶️как"" ... и задает крайне неловкий вопрос ""Зачем вам вообще тренировать модель, когда каждый день появляются Qwen, Gemma, DeepSeek, Llama и ещё десяток имён, которые вчера никто не знал, а сегодня они уже новая надежда и убийца OpenAI""? И сразу идет абзац, который не могу не процитировать: ""Кто-то (если повезёт) получает доступ к кластеру GPU, возможно, через исследовательский грант или через свободные мощности компании, и ход мыслей примерно такой: «У нас есть 100 H100 на три месяца. Давайте обучим модель!» Размер модели выбирается произвольно, датасет собирается из всего, что доступно. Обучение начинается. И спустя шесть месяцев, исчерпав вычислительный бюджет и моральный дух команды, полученная модель остаётся неиспользованной, потому что никто так и не спросил почему..."" Продолжение ниже👇"

Из этого канала