За последнее время выходила куча работ по ризонингам Среди них было много по тюну 1.5B моделек. И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024. В репорте там писали что на AIME 43.1% выбили https://t.me/AGI_and_RL/958, а тут ребята намерили 37.0 Хотя из всех остальных работ именно дипскелер показывает самые большие результаты. По остальным работам тоже можно глянуть, кому интересно. Во-первых есть лидерборд https://bethgelab.github.io/sober-reasoning/ Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024. A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility https://arxiv.org/abs/2504.07086 Код https://github.com/bethgelab/sober-reasoning А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали PS собираемся и собираем AI статейки тута: https://t.me/researchim
За последнее время выходила куча работ по ризонингам Среди них было много по…
Из этого канала
- #1030Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту…
Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)
- #1031Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу. Я…
Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу. Я думал что может Gemma 3 27B или QwQ.
- #1032Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в…
Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B…
- #1027Что мы знаем про дифузионные LLM? Я только то, что им теперь завезли GRPO…
Что мы знаем про дифузионные LLM? Я только то, что им теперь завезли GRPO (diffu-GRPO) дифузионные ллмщики думали что вас не заденет? Сюдааа d1: Scaling…
- #1026Там кстати разрабы ARC AGI походу работают над платформой для…
Там кстати разрабы ARC AGI походу работают над платформой для веб-приложунек/окружений/игр Открыли вакуху на WebGL Unity разраба https://arcprize.org/jobs Я…