Интересная работа. Некоторым моделям учить проще, чем делать самим :) В целом красивый подход, жаль что вычислительно тяжёлый. Модель-учитель создаёт куррикулум для ученика, помогая ему решить неизвестные сложные задачи, которые сходу решить нельзя. Примеры учителя может и странные, но работают. Что-то в этом есть. Так и до сатори недалеко. Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability __Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe__ Статья: https://arxiv.org/abs/2601.18778 Ревью: https://arxiviq.substack.com/p/teaching-models-to-teach-themselves Code: N/A # TL;DR ЧТО сделали: Авторы представили SOAR (Self-Optimization via Asymmetric RL) — фреймворк двухуровневого meta-RL, где модель-«учитель» генерирует синтетические задачи для обучения модели-«ученика». В отличие от классического self-play, оптимизирующего исход игры, или внутренней любознательности, здесь учитель получает награду исключительно за реальный прогресс ученика на наборе заведомо нерешаемых сложных задач. ПОЧЕМУ это важно: Подход решает проблему «холодного старта» в RLVR (RL с проверяемыми наградами). Когда модель имеет 0% успеха на сложных задачах, градиенту просто неоткуда взяться. SOAR доказывает, что у моделей есть скрытые «педагогические» способности (отличные от умения решать задачи), которые можно прокачать через meta-RL. Это позволяет создавать автоматические curriculum learning планы, по которым ученик добирается до решений, ранее недоступных без размеченных человеком данных. Подробнее: https://t.me/gonzo_ML_podcasts/2256
Интересная работа. Некоторым моделям учить проще, чем делать самим :) В целом…
Из этого канала
- #4677METR обновили свои бенчмарки Time Horizon до версии 1.1 Модели после 2023 года…
METR обновили свои бенчмарки Time Horizon до версии 1.1 Модели после 2023 года ускоряются быстрее, а после 2024 ещё быстрее.
- #4681"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна…
"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна из них. Работа любопытная, в ней сразу несколько идей.
- #4687"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую…
"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую разобранную (Reinforcement Learning via Self-Distillation), вышла даже чуть…
- #4672Всем спокойной ночи :) https://www.moltbook.com/
Всем спокойной ночи :) https://www.moltbook.com/
- #4671Wow! DeepMind выложил Genie 3 как проект (доступен только с подпиской Ultra)…
Wow! DeepMind выложил Genie 3 как проект (доступен только с подпиской Ultra) https://deepmind.google/models/genie/ Promptable world model это интересно...