Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из alphaXiv сделали красивейший интерактивный RL Visualizer На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы. Например, можно посмотреть, в чем практическая разница между PPO и GRPO. Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво. www.alphaxiv.org/labs/rl-playground