Интересная работа. Некоторым моделям учить проще, чем делать самим :) В целом красивый подход, жаль что вычислительно тяжёлый. Модель-учитель создаёт куррикулум для ученика, помогая ему решить неизвестные сложные задачи, которые сходу решить нельзя. Примеры учителя может и странные, но работают. Что-то в этом есть. Так и до сатори недалеко. Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability __Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe__ Статья: https://arxiv.org/abs/2601.18778 Ревью: https://arxiviq.substack.com/p/teaching-models-to-teach-themselves Code: N/A # TL;DR ЧТО сделали: Авторы представили SOAR (Self-Optimization via Asymmetric RL) — фреймворк двухуровневого meta-RL, где модель-«учитель» генерирует синтетические задачи для обучения модели-«ученика». В отличие от классического self-play, оптимизирующего исход игры, или внутренней любознательности, здесь учитель получает награду исключительно за реальный прогресс ученика на наборе заведомо нерешаемых сложных задач. ПОЧЕМУ это важно: Подход решает проблему «холодного старта» в RLVR (RL с проверяемыми наградами). Когда модель имеет 0% успеха на сложных задачах, градиенту просто неоткуда взяться. SOAR доказывает, что у моделей есть скрытые «педагогические» способности (отличные от умения решать задачи), которые можно прокачать через meta-RL. Это позволяет создавать автоматические curriculum learning планы, по которым ученик добирается до решений, ранее недоступных без размеченных человеком данных. Подробнее: https://t.me/gonzo_ML_podcasts/2256