"Опубликовали статью ""Confidence Is All You Need"" о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. В этой работе получилась интересная (хоть и простая) математика, и потенциально такая работа может дать возможность улучшать качество моделей даже без награды. Апвоутнуть можно тут."