Очень обсуждаемая сейчас работа от исследователей из Apple про ризонинг модели: https://t.me/gonzo_ML_podcasts/234 Из интересного, авторы постарались уйти от контаминированных датасетов для оценки ризонинга и сумели оценивать не только конечный результат, но и промежуточные шаги. Выводы нетривиальны и очень интересны: для простых задач LLM лучше LRM, для задач средней сложности LRM особенно хороши, а на сложных задачах LRM (как и LLM) фейлятся капитально. При этом по мере усложнения задачи LRM может не особо стараться и просто сдаться в какой-то момент, даже если бюджета хватает.