"(Часть 2) Следом - совершенно неожиданный и лично для меня возвращающий веру в… — @aivkube

"(Часть 2) Следом - совершенно неожиданный и лично для меня возвращающий веру в людей поворот: в мире, помешанном на оптимизации, авторы предлагают чаще задавать себе вопросы: 💠 Где проходит граница знания, которую вы хотите сдвинуть? 💠 Что такого в вашей реальности, чего не вытянуть ни промптами, ни тонкой пост-тренировкой на уже существующей модели? 💠 Если вы играете в открытую экосистему - какой конкретный пробел вы собираетесь закрыть? И хотя в книге множество графиков и технических подробностей, ответы на эти вопросы, на мой взгляд, лежат, скорее, в области психотерапии - про нашу способность выдерживать фрустрацию. Потому что это очень стремно - честно сказать: ""мне не нужен собственный претрейн"" и при этом не чувствовать, что я отстал от всего мира. Что мне еще понравилось - это глава про абляции. В то время как в презентациях большие игроки любят говорить о ""нашей уникальной архитектуре"", авторы начинают с аккуратного 1B-прокси, на котором за 1,5 дня прогоняют по 45B токенов и смотрят, что происходит. А происходит, как правило, что-то странное, например, то, что кажущееся ""самое качественное"" подмножество данных внезапно ухудшает модель, как в кейсе с arXiv. __Использование всей мудрости цивилизации приводит к тому, что небольшая модель начинает писать тяжёлым академическим языком и при этом теряет хватку в обычном тексте. __ Когда я какое-то время назад зарылся в абляция, то был уверен, что это основной механизм подтверждение гипотез. Но у авторов это способ убедиться, что мы не обманываем сами себя. Если на малом масштабе что-то ухудшает обучение, это почти наверняка не спасёт ситуацию на большом. И даже если улучшает — вообще не факт, что не придётся проверять заново. SMOL, на мой взгляд, задает новую этику инженерной работы: вместо культивации гениальных идей - суровая дисциплина🧙‍♂️ ""не менять всё и сразу"" и ""не влюбляться в архитектурные фишки, если за них нет стабильных метрик"". Для меня было сюрпризом, что почти все - от Qwen до DeepSeek - живут на одной и той же трансформерной основе, а различия — в аккуратной настройке деталей. В какой-то момент Playbook делает почти кощунственное признание: если вы просто возьмёте хорошую baseline-архитектуру и грамотно обучите её на приличном миксе данных, вы уже будете в ""клубе"". Никакой магии, только скучная последовательность правильных шагов🧑🏻‍💻 Самая человеческая часть текста - там, где начинается 🏃‍♂️""марафон обучения"". В прологе любого ML-пейпера эта часть обычно скрыта: мы видим только красивые кривые и финальную таблицу. Здесь же нам показывают непривлекательную правду: - как пропускная способность внезапно падает из-за того, что файловая система решает, какие данные держать ""горячими"", а какие выгрузить - как dataloader растит гигантский индекс и роняет производительность просто потому, что никто не думал, что кто-то захочет столько шагов подряд - как приходится вводить запасной узел в резервацию, чтобы не тратить по 1,5-2 часа на перекачку 24-терабайтного датасета. В какой-то момент вмешивается ещё один тихий злодей😈 - тензорный параллелизм. Модель, казалось бы, тренируется, лосс падает, оценки растут, но медленнее, чем должны. И только сравнение с 1.7B-версией без TP позволяет заметить, что что-то ""едва-едва заметно не так"". Оказывается, сиды инициализации были одинаковыми на разных TP-рангах, и это достаточно, чтобы испортить весь праздник. 👇"

Из этого канала