Команда ML Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1 Основной фокус релиза — улучшение точного следования инструкциям (Instruction Following) и Tool Calling. Для достижения результата команда разработала собственный пайплайн генерации синтетических данных для обучения и применила RL-обучение (GRPO) с гибридной reward-функцией, которая одновременно проверяет формальную корректность и осмысленность ответа, что позволило избежать проблемы “reward hacking”. В результате дообучения на синтетических данных и применения RL-обучения с гибридным ревардом модели стали стабильнее в продакшене, точнее держат заданный формат, увереннее работают в многошаговых агентских сценариях и при этом сохраняют скорость и общее качество генерации. T-Pro 2.1 (32B) позиционируется как оптимальный выбор для сложных русскоязычных систем, а T-Lite 2.1 (8B) — как практичное решение для развертывания с ограниченными ресурсами. Обе модели доступны под открытой лицензией Apache 2.0.