Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте… — @AGI_and_RL

Genius: Когда языковая модель начинает учиться сама __Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.__ Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки. Почему это вообще возможно? Обычно, чтобы прокачать LLM в задачах рассуждения, нужно: • или разметить гигантский корпус с цепочками рассуждений (дорого), • или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно), • или обе опции вместе (что делают OpenAI, Anthropic и Google). Genius идёт другим путём. Авторы говорят: __а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?__ Как это работает? Ключевой приём — Stepwise Foresight Re-sampling: 1. Модель отвечает не сразу — а по шагам. 2. На каждом шаге она пробует несколько вариантов следующего действия. 3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути? 4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них. Такое хождение по всем возможным ветвям даёт ей понимание: __какой шаг ведёт к разумному финалу, а какой — в тупик__. Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization: • Он сравнивает не только “награду” текущего шага, но и то, __насколько он лучше предыдущего__. • Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается. • Это делает обучение более устойчивым, без переобучения на случайные успехи. А теперь самое интересное — результаты. • Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024. • Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре. • Не ломает базовые знания: на MMLU и WikiBench — стабильность. • Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding. Статья

Из этого канала