"Spurious Rewards Paradox Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали классные метрики на Qwen-2.5, но вообще не генерализовались на модели вроде Olmo-2 или Llama-3. Было дофига как многообещающих методов (Spurious Rewards, RL with one example, VeriFree, Entropy Minimization, Can LRM Self-Train), так и драмы по их поводу (Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims). Общая идея этих методов — что для RLVR либо надо мало данных, либо вообще можно обойтись без ревардов. Просто жжём электричество на роллауты, а дальше метрики квена сами поползут вверх. В самой интересной, имхо, статье из ""списка многообещающих методов"" говорится: модель будет учиться даже если мы будем выдавать ей неверные реварды. Например, если мы будем выдавать всегда 0 или 1, если мы будем называть верные решения неверными или ревард вообще будет рандомным, метрики на, к примеру, MATH500 могут вырасти аж на 25%. Из этого можно сделать два альтернативных вывода: либо RLVR работает как эксплорейшн, а модель сама разберётся на чём учиться (то есть, верификатор не нужен), либо кое-кто очень удачно пролил тест в трейн и теперь модель так интересно оверфитится на бенчи. В сегодняшней статье авторы используют мехинтёрп, чтобы доказать, что всё же ситуация с Qwen-2.5 ближе ко второму варианту. В статье есть целых шесть страниц с описанием разных методик мехинта и чтобы нормально объяснить, что происходит и что они доказывают, надо дать немного объяснений по поводу используемых методов. Авторы используют: - Path Patching — заменяем активации в модели, считаем логиты, смотрим на разницу. Если разница большая — часть модели с заменёнными активациями важна для изменения логитов => используется для получения результата. - Logit Lens — хидден по всей модели, как правило, стандартного размера, так что мы можем наложить LM Head на модель и посмотреть на эволюцию предсказанного токена по слоям. Это полезно, потому что можно увидеть, с какого слоя модель начинает быть уверена в том или ином ответе. - Neural ODE — в резнете (в том числе в трансформере) к резидуал стриму добавляется сигнал из блоков этого самого резнета, так что мы можем записать формулу хиддена на каждом слое как h_{t+1} = h_t + f(h_t, \theta), что, по сути, есть метод эйлера для решения ОДУ с шагом 1. Если так, мы можем переформулировать резнет в диффур dh/dt = f(h, t, \theta) и анализировать __непрерывную__ эволюцию хидденов в любом интересном нам разрешении (а не только по слоям!) через любые солверы, которые мы хотим — к примеру, Рунге-Кутта. - Partial Prompt Evaluation (PPE) — суём в модель часть промпта из вопроса, смотрим на exact match вопроса и ответа. Если вспомнит — в модель это пролили. Из прикольного, по нашим внутренним экспериментам gpt-oss-120b вспоминает почти весь MMLU :)"