Учим модельки решать интегралы через декомпозицию задач и обучение на более… — @AGI_and_RL

Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же. Подход называется Learning through Autonomous Difficulty-Driven Example Recursion (LADDER). Моделька генерирует более простые версии сложных задач, которые становятся всё проще на каждом шаге. Возникает градация сложности и моделька учится сначала на самых простых вариантах, а потом переходит ко все более сложным. Генерация вариантов (Variant Generation) - Для каждой сложной задачи модель генерирует упрощенные варианты. Эти варианты организуются в виде дерева, где каждая ветка представляет переход от сложной задачи к её упрощённой версии. Используются заранее подготовленные математические трансформации ( упрощение показателей, замена функций и т.д.). Применяются техники для увеличения разнообразия вроде temperature cycling (меняют температуру от 0.8 до1.4) и persona-based prompting (модель пытается вести себя как математик). Рекурсивный процесс: генерация идет по уровням (ограничено, например, тремя уровнями), чтобы сохранить релевантность задачи. Проверка решения (Solution Verification) - Для проверки корректности решений применяется численная интеграция: Решения сравниваются с исходным интегралом по пяти точкам на интервале от -10 до 10. Используются адаптивные квадратурные методы, обработка особенностей функций или потенциальные численные ошибки. Еще верификация нужная быстрая – введены ограничения по времени (таймауты) и методика повторного отбора точек при возникновении проблем. Учимся с RLем (GRPO). Награды: Accuracy reward - Проверка правильности решения через численную верификацию. Format reward - Дополнительное вознаграждение за правильное форматирование ответа (вроде заключения ответа в специальные теги <ANSWER></ANSWER>). т.е. учим модельку и правильно решать и формат соблюдать. В целом так щас часто и делают. применяется еще Test-Time Reinforcement Learning (TTRL): Даже после обучения по LADDER остаются задачи, на которые модель отвечает неверно. TTRL позволяет на этапе тестирования генерировать дополнительные варианты конкретной проблемной задачи и проводить короткое обучение RLем, чтобы моделька подучилась именно на этом примере. Количество шагов TTRL варьируется от 3 до 30 в зависимости от задачи авторы пишут. С LADDER Llama 7B улучшилась с 2% до 73% (это Pass@1), а применение еще TTRL улучшило с 73% до 90% на MIT Integration Bee 2025 (но с TTRL это Pass@100, как я понял - т.е. нужно сгенерить 100 решений чтобы решить задачку). Так понял. В общем - важно уметь декомпозить и упрощать задачки (ну и усложнять тоже важно уметь). Теперь надо пробовать этот подход к другим задачкам. Конечно эффективность будет зависеть от того насколько умная базовая моделька LADDER: Self-Improving LLMs Through Recursive Problem Decomposition https://arxiv.org/abs/2503.00735 PS всякое крутое по rlю и ризонингам собираем (а еще всякие там проектики делаем) в https://t.me/researchim

Из этого канала