У нас тут бегущий по ризонингу Ребята потренили Qwen 1.5B на то чтобы проходить… — @AGI_and_RL

У нас тут бегущий по ризонингу Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела. Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами. И вот в блоге https://homebrew.ltd/blog/alpha-maze пишут про этот датасет. И там много подробностей с ревардами и сетапом. Но вообще в статье пишут AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO https://arxiv.org/abs/2502.14669 что для SFT был 500к датасет для SFT, 16к для GRPO и евал был на 30к сете. Чего тогда только 100к выложили - не пон. Вполне возможно что разные эксперименты описываются. На вход подается только текстовое описание задачи (но в датасете нагенерили и картинки). А моделька должна сгенерить в качестве ответа путь прохождения вида: <|down|><|left|><|left|><|down|><|right|><|right|><|right|> Вообще всего в описании лабиринта участвуют следующие маркеры: Координаты: <row-col> (например, <0-0>, <2-4>) для идентификации каждой клетки в сетке. Стены: Токены, такие как <no_wall>, <up_wall>, <down_wall> и т.д., указывающие на наличие или отсутствие стен в каждом направлении. Это позволяет модели «видеть» структуру лабиринта. Движение: <up>, <down>, <left>, <right> для обозначения возможных действий, которые может совершить модель. Специальные маркеры: <origin> и <target> для обозначения начальной и конечной точек. В статье пишут, что исходная моделька на евале показала 0% акураси. Ребята сделали SFT на своем сете (добились 86%), а потом GRPO сверху 1600 шагов (подняли до 93%). А вот если учить без ризонинга напрямую генерить решение - то акураси тот же 0% будет. То есть для решения лабиринта нужно учить решать задачу по шагам с размышлениями. Надо больше экспериментов и с лабиринтами разных размеров. Вообще прохождение лабиринтов - это большая задача и в обычном RLе, без ллмок, там много этим занимаются. И бОльшие лабиринты проходят и в 3D, ну у ллмок все впереди похоже. Так понял. Ризонинг делать нада. покайфу собираем статьи и всякое полезное в том числе и по ризонингу (много) тут: https://t.me/researchim

Из этого канала