Там еще один фреймворк делают чтобы ллмы RLем учить https://github.com/agentica-project/rllm А еще потюнили 14B модельку (из Deepseek-R1-Distilled-Qwen-14B) DeepCoder-14B-Preview https://huggingface.co/agentica-org/DeepCoder-14B-Preview https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51 Во время обучения GRPO+ (взяли модификации из DAPO + пишут что убрали KL,Entropy лосы) тестили модельку юниттестами. И если во время тюна код не проходит хотя бы 1 тест, то ревард 0, а если все проходит - то 1 (так понял) Применяли увеличение длины контекста во время трена 1.5B: 8K→16K→24K 33%→38%→43% на AIME (и типа превзошли на AIME o1-preview, их предыдущая работа) В этой работе: 14B: 16k → 32k 54%→58% на AIME Но при этом на евале для 14B модельки с 64к контекстом смогли получить 60.6% Pass@1 и это как o3-mini-2025-01-031 (Low) получается. (ну они пишут) В целом я уже писал про их предыдущую работу с DeepScaler (https://t.me/AGI_and_RL/958), тут тот же подход, но больше PS собираемся, собираем крутые статьи и проектики делаем в https://t.me/researchim
Там еще один фреймворк делают чтобы ллмы RLем учить…
Из этого канала
- #1020На архив приедут аудио саммари…
На архив приедут аудио саммари https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/ Пока доступны для High Energy…
- #1021Учимся с GRPO генерить длинные тексты В работе тюнят Qwen-2.5 7B-Instruct-1M и…
Учимся с GRPO генерить длинные тексты В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B. Представим что мы хотим научить ллмку книги писать.
- #1025https://ai-2027.com/ Кто-нибудь читал? Стоит вообще открывать?
https://ai-2027.com/ Кто-нибудь читал? Стоит вообще открывать?
- #1018Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его…
Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его https://github.com/InexperiencedMe/NaturalDreamer
- #1017В nature решили вспомнить про Dreamer, прикольно…
В nature решили вспомнить про Dreamer, прикольно https://www.nature.com/articles/d41586-025-01019-w https://danijar.com/project/dreamerv3/ Кстати увидел, что…