Забавная работа, обучаем модели специальному языку для ризонинга. ORION: Teaching Language Models to Reason Efficiently in the Language of Thought Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee Статья: https://arxiv.org/abs/2511.22891 Код: https://github.com/Hippocratic-AI-Research/Orion Ревью: https://arxiviq.substack.com/p/orion-teaching-language-models-to # TL;DR ЧТО сделали: Представили ORION — фреймворк, сжимающий траектории рассуждений (reasoning traces) больших рассуждающих моделей (LRM) в символический «Язык мысли» (*Mentalese*). Процесс двухэтапный: сначала SFT на датасете из 40 тысяч сжатых примеров, затем применение нового метода обучения с подкреплением SLPO (Shorter Length Preference Optimization), который динамически награждает за краткость без ущерба для точности. ПОЧЕМУ это важно: Современные модели (DeepSeek-R1, OpenAI o1) достигают высоких результатов за счёт масштабирования вычислений во время инференса (test-time compute), часто генерируя многословные и дорогие ответы. ORION показывает, что модель на 1.5B параметров может сравняться или превзойти гигантов вроде GPT-4o и Claude 3.5 Sonnet в математике, генерируя цепочки рассуждений в 10–20 раз короче. Это снижает задержку и стоимость обучения (в 7–9 раз), открывая путь к быстрым рассуждающим агентам. Подробнее: https://t.me/gonzo_ML_podcasts/1682
Забавная работа, обучаем модели специальному языку для ризонинга. ORION:…
Из этого канала
- #4364И для разнообразия про другие Gemini. В эти выходные максимум метеорного потока…
И для разнообразия про другие Gemini. В эти выходные максимум метеорного потока Геминиды:…
- #4365Наука скейлинга агентов. Towards a Science of Scaling Agent Systems Yubin Kim,…
Наука скейлинга агентов. Towards a Science of Scaling Agent Systems Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A.
- #4369"Сегодня супердлинный жанр. Computational Life: How Well-formed,…
"Сегодня супердлинный жанр. Computational Life: How Well-formed, Self-replicating Programs Emerge from Simple Interaction Blaise Agüera y Arcas, Jyrki…
- #4360Выкатили. https://openai.com/index/introducing-gpt-5-2/
Выкатили. https://openai.com/index/introducing-gpt-5-2/
- #4357Walrus: A Cross-domain Foundation Model for Continuum Dynamics Michael McCabe,…
Walrus: A Cross-domain Foundation Model for Continuum Dynamics Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet,…