"👆(Часть 3) В этой истории есть важный культурный слой: авторы не экономят на признании собственных ошибок. Это не привычный ""мы всё сделали идеально"", а ""мы наступили на кучу грабель, вот карта мест, где валяются самые болезненные"". Такой стиль в технических текстах редок - и именно поэтому ценен. И даже когда часть про претрейн пройдена, можно было бы ожидать что-то про ""вот наши метрики, вот наши победы"". Но текст разворачивается дальше, в сторону пост-тренинга - туда, где модель перестаёт быть просто предсказателем следующего токена и становится чем-то, напоминающим ассистента. Авторы честно признают: почти любой пайплайн начинается с SFT - скучной, дешёвой и надёжной супервизии. Никакого романтизма RLHF, никакой магии GRPO, пока модель не научилась хотя бы просто внятно разговаривать. Дальше - слой за слоем: предпочтения, DPO и его многочисленные родственники, осторожные эксперименты с RL. И снова - не как ""мы придумали идеальный рецепт"", а как ""вот что у нас сработало, вот где мы переобучились, вот где модель начала ""хакать"" награду, вместо того чтобы решать задачи"". Интересно, что здесь снова всплывает базовый мотив Компаса из первой части: прежде чем думать, как вы будете делать RL, спросите себя, зачем он вам. Нужен ли вам вообще RL, если у вас нет ни проверяемых версий задач, ни устойчивой reward-модели, ни команды, готовой неделями возиться с нестабильностью обучения? 👩‍🎤__Кто-нибудь, остановите меня петь оды этому тексту! __ Если попробовать в одном предложении описать дух Smol Training Playbook, он звучал бы так: ""меньше показной храбрости, больше профессиональной скромности"". Вместо ""мы героически выдержали месяц обучения"" — ""мы три раза перезапускали прогон, потому что сами напортачили, и вот что мы из этого поняли"" - и все в таком духе. В каком-то смысле этот текст — не только руководство по построению LLM, но и манифест взросления индустрии. Мир, в котором стало нормально не тренировать свою модель, если она не нужна. Как 70 лет назад, на заре компьютерной индустрии, когда инженерная честность важнее пресс-релиза. Где каждую новую архитектурную фишку сначала пропускают через маленькую, скучную абляцию, прежде чем выделить под неё сотни H100. И, возможно, самая здоровая версия будущего ИИ не там, где каждая компания стремится к своему монолитному мозгу, а там, где великое ремесло — построить работающую, аккуратную, честную систему из уже существующих кирпичей. А собственную модель всё-таки тренировать. Но только тогда, когда после всех неприятных вопросов к себе и к миру Компас всё ещё указывает в ту же сторону. Поскольку оригинальный вебный текст дичайше тормозит из-за своего объема даже на моем игровом ноуте, я сделал не лонгрид, а PDF. Полный материал на русском можно скачать по ссылке https://t.me/aivkube/573 Отдельная благодарность: 💗Transmonkey за черновой перевод (без него я бы ковырялся пару месяцев) 💙Марии Кондратьевой за дизайн и верстку (а еще Маша создает бесподобные деревянные игрушки - посмотрите в ее инстаграме) 💚Мое любимой жене Наташе за безграничное терпение и поддержку во время бессонных ночей"