Забавная работа, обучаем модели специальному языку для ризонинга. ORION:… — @gonzo_ML

Забавная работа, обучаем модели специальному языку для ризонинга. ORION: Teaching Language Models to Reason Efficiently in the Language of Thought Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee Статья: https://arxiv.org/abs/2511.22891 Код: https://github.com/Hippocratic-AI-Research/Orion Ревью: https://arxiviq.substack.com/p/orion-teaching-language-models-to # TL;DR ЧТО сделали: Представили ORION — фреймворк, сжимающий траектории рассуждений (reasoning traces) больших рассуждающих моделей (LRM) в символический «Язык мысли» (*Mentalese*). Процесс двухэтапный: сначала SFT на датасете из 40 тысяч сжатых примеров, затем применение нового метода обучения с подкреплением SLPO (Shorter Length Preference Optimization), который динамически награждает за краткость без ущерба для точности. ПОЧЕМУ это важно: Современные модели (DeepSeek-R1, OpenAI o1) достигают высоких результатов за счёт масштабирования вычислений во время инференса (test-time compute), часто генерируя многословные и дорогие ответы. ORION показывает, что модель на 1.5B параметров может сравняться или превзойти гигантов вроде GPT-4o и Claude 3.5 Sonnet в математике, генерируя цепочки рассуждений в 10–20 раз короче. Это снижает задержку и стоимость обучения (в 7–9 раз), открывая путь к быстрым рассуждающим агентам. Подробнее: https://t.me/gonzo_ML_podcasts/1682

Из этого канала