На GPU Mode недавно вышла 3-х часовая лекция про RL, Агентов и фреймворк для создания и работы со средами OpenEnv. Выступают рассказчики из unsloth, лицехватс и разработчики торча. Довольно содержательно и познавательно. В частности, разбираются характерные нюансы и проблемы обучения с подкреплением.