"Авторы формулируют задачу управления плазмой как частично наблюдаемый марковский процесс принятия решений (POMDP). Проблема «частично наблюдаемая», потому что контроллер имеет доступ только к показаниям магнитных датчиков и текущим значениям токов в катушках, в то время как поведение плазмы также зависит от внутренних кинетических параметров (таких как температура и давление), которые невозможно измерить в реальном времени. В основе системы лежит Soft Actor-Critic (SAC), алгоритм, хорошо подходящий для задач управления с непрерывными действиям. Однако архитектура здесь не стандартная. Авторы используют асимметричную архитектуру Actor-Critic. Во время обучения нейронная сеть ""Actor"" (именно она будет работать на реальном токамаке) учится действовать, используя только зашумлённые данные с датчиков, доступные в реальном времени. Параллельно нейронная сеть ""Critic"", имеет доступ к «привилегированной информации» из симулятора, такой как точная граница плазмы и её производные по времени. Эта стратегия обеспечивает чистый, стабильный обучающий сигнал для оценки функции ценности состояний и действий (Q-функции), что стабилизирует обучение и улучшает качество получающегося контроллера. Ключевым фактором успеха проекта является среда обучения. Авторы используют симулятор NSFsim - высокоточный симулятор, сочетающий в себе решение стандартных уравнений равновесия Града-Шафранова с 1D транспортным солвером. Это позволяет учитывать при симуляции не только магнитную форму плазмы, но и эволюцию ее кинетических параметров. Авторы подчёркивают, что для разработки надежного контроллера необходима комплексная стимуляция учитывающая различные аспекты физики плазмы. Чтобы преодолеть разрыв между симуляцией и реальностью (sim-to-real gap), процесс обучения включает в себя обширную рандомизацию начальных состояний плазмы и шумов датчиков. Это заставляет агента выучивать стратегию управления, которая устойчива к неопределённостям и вариациям в наблюдаемых данных, присущих реальному эксперименту. 🔬 От симуляции к эксперименту Финальная проверка любого контроллера — это работа на реальной физической установке.. RL-контроллеры, внедренные в Систему управления плазмой токамака DIII-D (Plasma Control System — PCS) смогли успешно управлять формой плазмы, достигнув средней погрешности в пределах 1,5 см по отклонению формы плазмы и 1 см по отклонению положения магнитного центра. Это достаточно высокая точность. Она достигается благодаря точному моделированию работы токамака в симуляторе NSFSim и процессу обучения RL-контроллера с привилегированной информацией. Контроллер заработал как надо с первой экспериментальной попытки это достижение, которое существенно ускоряет темп проведения экспериментов по управлению плазмой. Эксперименты показывают, что агент поддерживает форму плазмы стабильной во время событий, вносящих большие возмущения, таких как изменения мощности инжекции нейтрального пучка (NBI), инжекция пеллет и переходы между H- и L-модами, и всё это без какой-либо ручной настройки. Такой уровень адаптивности, полностью выученный в симуляции, развивает предыдущие успехи предыдущих работ и демонстрирует успех на более крупном и сложном токамаке. 🚀 Влияние и будущие работы Значение этого исследования выходит за рамки установки DIII-D. Продемонстрировав качество управления без этапа реконструкции состояния плазмы, эта работа предоставляет основу для разработки быстрых, масштабируемых и автономных систем управления, необходимых для будущих термоядерных электростанций."