Очень интересная статья от MIT про дообучение моделей после деплоя Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно 🤨 Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models. Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего. Звучит немного запутанно, поэтому разбираемся: 1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE). Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца). 2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего. Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте). 3. Чем лучше SE обучил модель, тем больший reward он получает. Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными. То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя. Красиво, да? И работает неплохо. Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов. В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна. Есть, конечно, и парочка НО. Например: – Это адски дорого. Одна оценка self-edit занимает примерно 30–45 секунд. 750 итераций – это 6 часов на двух H100. Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM. Это уже не так интересно, и метрики чуть хуже, но как вариант. – Для тестов требуется разметка. Хотя тут, опять же, можно генерировать. – Модели показывают деградацию на прошлых задачах по мере числа обновлений. Это частично лечится reward shaping, но полностью проблема не исчезает. Стоит ли игра свеч, пока непонятно. Но идея прикольная. Статья полностью здесь -> https://arxiv.org/abs/2506.10943
Очень интересная статья от MIT про дообучение моделей после деплоя Фанфэкт:…
Из этого канала
- #8606Агент Axiom Prover решил 12 из 12 задач на самом сложном математическом…
Агент Axiom Prover решил 12 из 12 задач на самом сложном математическом экзамене в мире Возможно, вы помните, что это за система.
- #8607У Суцкевера «нашли» 4 миллиарда долларов в акциях OpenAI Все новые и новые…
У Суцкевера «нашли» 4 миллиарда долларов в акциях OpenAI Все новые и новые интересные детальки пазла несет нам иск Илона Маска против OpenAI.
- #8608Есть две новости от Anthropic, и одна из них, предупреждаем, болезненная На…
Есть две новости от Anthropic, и одна из них, предупреждаем, болезненная На самом деле, они обе про одно и то же: Anthropic с разных концов затягивает гайки в…
- #8603К вопросу о прогрессе. Агент от SakanaAI занял уверенное первое место на…
К вопросу о прогрессе. Агент от SakanaAI занял уверенное первое место на соревновании по кодингу.
- #8602Первые отзывы на ChatGPT Health полетели
Первые отзывы на ChatGPT Health полетели