Genius: Когда языковая модель начинает учиться сама __Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.__ Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки. Почему это вообще возможно? Обычно, чтобы прокачать LLM в задачах рассуждения, нужно: • или разметить гигантский корпус с цепочками рассуждений (дорого), • или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно), • или обе опции вместе (что делают OpenAI, Anthropic и Google). Genius идёт другим путём. Авторы говорят: __а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?__ Как это работает? Ключевой приём — Stepwise Foresight Re-sampling: 1. Модель отвечает не сразу — а по шагам. 2. На каждом шаге она пробует несколько вариантов следующего действия. 3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути? 4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них. Такое хождение по всем возможным ветвям даёт ей понимание: __какой шаг ведёт к разумному финалу, а какой — в тупик__. Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization: • Он сравнивает не только “награду” текущего шага, но и то, __насколько он лучше предыдущего__. • Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается. • Это делает обучение более устойчивым, без переобучения на случайные успехи. А теперь самое интересное — результаты. • Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024. • Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре. • Не ломает базовые знания: на MMLU и WikiBench — стабильность. • Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding. Статья
Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте…
Из этого канала
- #1044Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть…
Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть https://github.com/xufangzhi/Genius
- #1045Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и…
Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и они выпустили кодового агента https://github.com/openai/codex Но я пока все же на…
- #1046Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab…
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone…
- #1042так смешнее
так смешнее
- #1040Один раз исследователи не написали обзорку по агентам, больше их никто не видел…
Один раз исследователи не написали обзорку по агентам, больше их никто не видел Эти написали.