Learn your reference model for real good alignment Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации. Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512. Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики. Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ. Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей. Пейпер @ai_newz
Learn your reference model for real good alignment Ресерчеры из T-Bank AI…
Из этого канала
- #3858OpenAI дали бесплатный доступ к облегчённому Deep Research Новая lightweight…
OpenAI дали бесплатный доступ к облегчённому Deep Research Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже…
- #3859Runway GEN-4 References🔥🔥🔥 К конкурсу видео фильмов GEN-48 Runway раскатили…
Runway GEN-4 References🔥🔥🔥 К конкурсу видео фильмов GEN-48 Runway раскатили новую старую фичу references, которую презентовали на релизе.
- #3860Нейродайджест за неделю (#66) OpenAI - API для Image Generation через GPT — на…
Нейродайджест за неделю (#66) OpenAI - API для Image Generation через GPT — на высоких настройках качества очень дорого, но конкурентов по функционалу нет.
- #3856OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик Теперь у подписчиков…
OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300…
- #3855OpenAI запустили API для генерации картинок через GPT Модель обозвали…
OpenAI запустили API для генерации картинок через GPT Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high.