"Reconstruction-free magnetic control of DIII-D plasma with deep reinforcement learning Authors: __G F Subbotin, D I Sorokin, M R Nurgaliev, A A Granovskiy, I P Kharitonov, E V Adishchev, E N Khairutdinov, R Clark, Η Shen, W Choi, J Barr, D M Orlov__ Paper: https://arxiv.org/abs/2506.13267 ### TL;DR Что сделано? Авторы разработали и экспериментально проверили контроллер, управляющий формой плазмы в токамаке DIII-D — крупнейшей в северной америке установке для исследований в области управляемого термоядерного синтеза. Этот контроллер использует нейронную сеть, обученную с помощью алгоритма обучения с подкреплением Soft Actor-Critic (SAC). При обучении контроллера использовалась асимметричная архитектура Actor-Critic, в которой нейронная сеть Actor получает данные близкие к тому, что увидит контроллер во время разряда, а в нейронную сеть Critic идёт привилегированная информация: точные значения диагностик а также ряд характеристик плазмы, недоступных в режиме реального времени. Нейронная сеть Actor учится напрямую отображать сырые данные с магнитных датчиков в команды для актуаторов, полностью обходя традиционный, вычислительно затратный этап реконструкции равновесия плазмы. Отличительная черта данного исследования от похожей работы выполненной исследователями из DeepMind на токамаке TCV в том, что разработан пайплайн обучения не зависящий от конкретного токамака. Пайплайн основан на симуляторе NSFsim, который моделирует магнитную и кинетическую эволюцию плазмы,. При обучении использовались рандомизации в наблюдениях агента и динамике плазмы для достижения устойчивого управления в разных состояниях и переноса из виртуальной среды на реальную установку (sim-to-real transfer). Почему это важно? Этот метод, не требующий реконструкции положения плазмы, позволяет значительно ускорить управление (в экспериментах использовалась частота 4 кГц) и повысить надёжность управления плазмой, что критически важно для работы со сложной нелинейной динамикой в существующих и будущих термоядерных установках. Разработанный контроллер в экспериментах на токамаке DIII-D показал удержание целевой формы плазмы с точностью до 1.5 см. В отличии от традиционных подходов RL контроллер не требует ручной настройки результатам «пробных» разрядов что является большим преимуществом разработанного подхода. Эта работа прокладывает путь к более эффективным, масштабируемым и автономным системам управления, приближая эпоху коммерческой термоядерной энергетики. ### Подробности ⚛️ Новые методы управления плазмой На протяжении десятилетий управление нагретой до экстремальных температур плазмой внутри токамака было искусством тонкой балансировки, которое в основном опиралось на двухэтапный процесс: сначала с помощью данных магнитных датчиков реконструировалась форма и положение плазмы, а затем на основе отклонения реконструированных значений от целевых рассчитывались управляющие воздействия на магнитные катушки. Процесс реконструкции параметров плазмы является вычислительно узким местом которое ограничивает скорость и адаптивность управления плазмой. Данная статья демонстрируя подход основанный на машинном обучении, может существенно изменить принципы эксплуатации термоядерных реакторов. Работа представляет первое успешное применение глубокого обучения с подкреплением для прямого магнитного контроля на токамаке DIII-D, одной из ведущих мировых исследовательских установок. Ключевая инновация — это контроллер, работающий без реконструкции (""reconstruction-free""), который обучается сквозному (end-to-end) управлению, используя сырые данные с датчиков напрямую для вычисления команд для актуаторов. Это смещает парадигму управления плазмой с модели «наблюдать, реконструировать, затем действовать» на «наблюдать, затем действовать». 🤖 Более умный подход к сложной задаче"