Я в итоге прокопал в модели побольше. У малых моделей проблемы пока что как с мозгами, так и с тул-колингом. Qwen 27b уже имеет смысл пробовать. Или gemma 4