За последнее время выходила куча работ по ризонингам Среди них было много по тюну 1.5B моделек. И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024. В репорте там писали что на AIME 43.1% выбили https://t.me/AGI_and_RL/958, а тут ребята намерили 37.0 Хотя из всех остальных работ именно дипскелер показывает самые большие результаты. По остальным работам тоже можно глянуть, кому интересно. Во-первых есть лидерборд https://bethgelab.github.io/sober-reasoning/ Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024. A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility https://arxiv.org/abs/2504.07086 Код https://github.com/bethgelab/sober-reasoning А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали PS собираемся и собираем AI статейки тута: https://t.me/researchim