"👆(Часть 3) В этой истории есть важный культурный слой: авторы не экономят на признании собственных ошибок. Это не привычный ""мы всё сделали идеально"", а ""мы наступили на кучу грабель, вот карта мест, где валяются самые болезненные"". Такой стиль в технических текстах редок - и именно поэтому ценен. И даже когда часть про претрейн пройдена, можно было бы ожидать что-то про ""вот наши метрики, вот наши победы"". Но текст разворачивается дальше, в сторону пост-тренинга - туда, где модель перестаёт быть просто предсказателем следующего токена и становится чем-то, напоминающим ассистента. Авторы честно признают: почти любой пайплайн начинается с SFT - скучной, дешёвой и надёжной супервизии. Никакого романтизма RLHF, никакой магии GRPO, пока модель не научилась хотя бы просто внятно разговаривать. Дальше - слой за слоем: предпочтения, DPO и его многочисленные родственники, осторожные эксперименты с RL. И снова - не как ""мы придумали идеальный рецепт"", а как ""вот что у нас сработало, вот где мы переобучились, вот где модель начала ""хакать"" награду, вместо того чтобы решать задачи"". Интересно, что здесь снова всплывает базовый мотив Компаса из первой части: прежде чем думать, как вы будете делать RL, спросите себя, зачем он вам. Нужен ли вам вообще RL, если у вас нет ни проверяемых версий задач, ни устойчивой reward-модели, ни команды, готовой неделями возиться с нестабильностью обучения? 👩🎤__Кто-нибудь, остановите меня петь оды этому тексту! __ Если попробовать в одном предложении описать дух Smol Training Playbook, он звучал бы так: ""меньше показной храбрости, больше профессиональной скромности"". Вместо ""мы героически выдержали месяц обучения"" — ""мы три раза перезапускали прогон, потому что сами напортачили, и вот что мы из этого поняли"" - и все в таком духе. В каком-то смысле этот текст — не только руководство по построению LLM, но и манифест взросления индустрии. Мир, в котором стало нормально не тренировать свою модель, если она не нужна. Как 70 лет назад, на заре компьютерной индустрии, когда инженерная честность важнее пресс-релиза. Где каждую новую архитектурную фишку сначала пропускают через маленькую, скучную абляцию, прежде чем выделить под неё сотни H100. И, возможно, самая здоровая версия будущего ИИ не там, где каждая компания стремится к своему монолитному мозгу, а там, где великое ремесло — построить работающую, аккуратную, честную систему из уже существующих кирпичей. А собственную модель всё-таки тренировать. Но только тогда, когда после всех неприятных вопросов к себе и к миру Компас всё ещё указывает в ту же сторону. Поскольку оригинальный вебный текст дичайше тормозит из-за своего объема даже на моем игровом ноуте, я сделал не лонгрид, а PDF. Полный материал на русском можно скачать по ссылке https://t.me/aivkube/573 Отдельная благодарность: 💗Transmonkey за черновой перевод (без него я бы ковырялся пару месяцев) 💙Марии Кондратьевой за дизайн и верстку (а еще Маша создает бесподобные деревянные игрушки - посмотрите в ее инстаграме) 💚Мое любимой жене Наташе за безграничное терпение и поддержку во время бессонных ночей"
"👆(Часть 3) В этой истории есть важный культурный слой: авторы не экономят на…
Источник
https://t.me/aivkube/573Канал AI в кубе |AI³ | Сергей Долгов · опубликовано 18 нояб. 2025 г.
Из этого канала
- #575"А тем временем в твиттере появился слитый системный промт новой гугловской…
"А тем временем в твиттере появился слитый системный промт новой гугловской платформы для продвинутой разработки Antigravity (качнуть промпт здесь).
- #576"<identity> You are agentic coding assistant working in pair-programming with a…
"<identity> You are agentic coding assistant working in pair-programming with a USER to solve their software task (new code, modify/debug existing code, or…
- #577<artifacts> Maintain living documents (prefer AGENTHOME under a session…
<artifacts> Maintain living documents (prefer AGENTHOME under a session folder): - task.md → detailed checklist of the task; mark `[ ]` todo, `[/]`…
- #571"(Часть 2) Следом - совершенно неожиданный и лично для меня возвращающий веру в…
"(Часть 2) Следом - совершенно неожиданный и лично для меня возвращающий веру в людей поворот: в мире, помешанном на оптимизации, авторы предлагают чаще…
- #570"Я хотел бы уметь так писать, как эти ребята! (Часть 1) Когда 2 недели назад я…
"Я хотел бы уметь так писать, как эти ребята! (Часть 1) Когда 2 недели назад я взялся за перевод и редактирование, я еще не знал, какое наслаждение испытаю в…