Ещё про скиллы. Любопытная работа: Compute Optimal Scaling of Skills: Knowledge vs Reasoning __Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes__ Статья: https://arxiv.org/abs/2503.10061 На ручное ревью меня не хватает, но если кратко, то scaling laws разные для разных типов задач. Для Knowledge QA лучше модель побольше, а для ризонинга (конкретно кодогенерации) лучше побольше данных. Типа, наверное, можно делать хорошие ризонеры меньшего размера, если их больше обучать. Автоматическое ревью тут: * Английский TL;DR * Русский автообзор