Интересная работа про Energy-based трансформеры: https://t.me/gonzo_ML_podcasts/633 Модель выучивает энергетическую функцию, и далее генеря что-то, может оценивать это же по энергетической функции и оптимизировать результат градиентным спуском. Результат выглядит неплохо.