Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же. Подход называется Learning through Autonomous Difficulty-Driven Example Recursion (LADDER). Моделька генерирует более простые версии сложных задач, которые становятся всё проще на каждом шаге. Возникает градация сложности и моделька учится сначала на самых простых вариантах, а потом переходит ко все более сложным. Генерация вариантов (Variant Generation) - Для каждой сложной задачи модель генерирует упрощенные варианты. Эти варианты организуются в виде дерева, где каждая ветка представляет переход от сложной задачи к её упрощённой версии. Используются заранее подготовленные математические трансформации ( упрощение показателей, замена функций и т.д.). Применяются техники для увеличения разнообразия вроде temperature cycling (меняют температуру от 0.8 до1.4) и persona-based prompting (модель пытается вести себя как математик). Рекурсивный процесс: генерация идет по уровням (ограничено, например, тремя уровнями), чтобы сохранить релевантность задачи. Проверка решения (Solution Verification) - Для проверки корректности решений применяется численная интеграция: Решения сравниваются с исходным интегралом по пяти точкам на интервале от -10 до 10. Используются адаптивные квадратурные методы, обработка особенностей функций или потенциальные численные ошибки. Еще верификация нужная быстрая – введены ограничения по времени (таймауты) и методика повторного отбора точек при возникновении проблем. Учимся с RLем (GRPO). Награды: Accuracy reward - Проверка правильности решения через численную верификацию. Format reward - Дополнительное вознаграждение за правильное форматирование ответа (вроде заключения ответа в специальные теги <ANSWER></ANSWER>). т.е. учим модельку и правильно решать и формат соблюдать. В целом так щас часто и делают. применяется еще Test-Time Reinforcement Learning (TTRL): Даже после обучения по LADDER остаются задачи, на которые модель отвечает неверно. TTRL позволяет на этапе тестирования генерировать дополнительные варианты конкретной проблемной задачи и проводить короткое обучение RLем, чтобы моделька подучилась именно на этом примере. Количество шагов TTRL варьируется от 3 до 30 в зависимости от задачи авторы пишут. С LADDER Llama 7B улучшилась с 2% до 73% (это Pass@1), а применение еще TTRL улучшило с 73% до 90% на MIT Integration Bee 2025 (но с TTRL это Pass@100, как я понял - т.е. нужно сгенерить 100 решений чтобы решить задачку). Так понял. В общем - важно уметь декомпозить и упрощать задачки (ну и усложнять тоже важно уметь). Теперь надо пробовать этот подход к другим задачкам. Конечно эффективность будет зависеть от того насколько умная базовая моделька LADDER: Self-Improving LLMs Through Recursive Problem Decomposition https://arxiv.org/abs/2503.00735 PS всякое крутое по rlю и ризонингам собираем (а еще всякие там проектики делаем) в https://t.me/researchim
Учим модельки решать интегралы через декомпозицию задач и обучение на более…
Из этого канала
- #987Там походу на редите засветились 4090 96гб Нада 😱…
Там походу на редите засветились 4090 96гб Нада 😱 https://www.reddit.com/r/LocalLLaMA/s/gHde13Isqx
- #988Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото…
Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а…
- #993ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.…
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio. Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и…
- #982хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день…
хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день будет отличным
- #981AMD выложили 3B модельки трененые на MI300X…
AMD выложили 3B модельки трененые на MI300X https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html…