В модельках дома большие апдейты - завезен английский язык, куча багов… — @AGI_and_RL

В модельках дома большие апдейты - завезен английский язык, куча багов пофикшена. https://github.com/researchim-ai/models-at-home И докручивается библиотечка-енв для генерации синтетических задач по математике (и физике) с решениями для sft ризонинга и рля для ллмок. Этому проекту вообще год. Можно генерить данные с размышлениями (think, answer тегами), формулы можно генерить в латехе. Поддержка сложности задач 1 - 10 (условно по количеству шагов). Есть английский и русский сейчас, просто выбирается язык. Там есть ноутбуки в примерах. Щас активно пилится https://github.com/researchim-ai/re-rl Там сейчас 81 вид задачек, и добавляются multiturn генерация. В результате в качестве эксперимента была потюнена 150м моделька на fineweb2 и наверное 200к семплов арифметики из re-rl за денек и получил на 2x3090 себе убогий калькулятор который может перемножить 5*5 и 1*1. Кайф :) Короче вполне можно уже сейчас эксперименты проводить у себя дома. re-rl скоро будет встроен прямо в студию чтобы можно было на отдельной страничке генерить себе данные для тюнов и рля и прост сразу эксперименты запускать на них. За проектами следить можно тут (там еще иинфа собирается :) https://t.me/researchim

Из этого канала