И теперь самое интересное — масштабирование датасетов для агентского RL.… — @seeallochnaya

И теперь самое интересное — масштабирование датасетов для агентского RL. Разнообразный набор задач имеет решающее значение для повышения надежности и генерализуемости модели. DeepSeek собирали и ссинтезировали 85 тысяч агентных задач в 4 категориях: Поисковый агент (Search Agent): Сделали мультиагентную систему на базе DeepSeek-V3.2 для генерации разнообразных и высококачественных обучающих данных. Сначала вычленяют сущности из «длинного хвоста» в различных доменах из опубликованных веб-корпусов, хранящих сотни тысяч интернет-страниц. Затем агент по конструированию вопросов исследует каждую сущность, используя инструмент поиска, консолидируя найденную информацию в пары вопрос-ответ. Используется несколько разных агентов — это разные чекпоинты моделей DeepSeek, с разными системнми промптами, разными конфигурациями поиска (вглубь/вширь) и т.д. К сожалению, деталей нет — мне кажется это очень горячее направление, и мы будем видеть много работ в ближайшее время по автоматическому составлению задач на основе доступных данных. После этого Агент-верификатор проверяет все ответы в несколько проходов, оставляя только те образцы, где ответ достоверен. Эти данные охватывают множество языков, доменов и уровней сложности. К вопросам генерируются рубрики, используемые для оценки ответов. Кодинг-агент (Code Agent): По сути, воспроизводят SWE-Bench/ReBench, извлекая миллионы пар «issue — Pull Request (PR)» из GitHub. Этот набор данных тщательно фильтруется с использованием эвристик и запромпченных LLM для обеспечения высокого качества; требовалось, чтобы каждая запись содержала разумное описание проблемы, «золотой патч» (код функциональности / фикса) и набор тестов для валидации. DeepSeek использовали автоматизированныго агента на базе DeepSeek-V3.2 для настройки среды: установки пакетов, разрешение зависимостей и прогон тестов. То есть то, что вы обычно делаете руками на своей машине, чтобы понять, сломал ваш код что-то или нет, тут автоматизировано. Я не видел, чтобы про это писали где-то в статьях, мб пропустил, но знаю, что несколько компаний так уже делают. Дальше среды фильтруются, оставляют только то, где применение «золотого» патча с исправлением приводит к увеличению количеству проходящих тестов, без падения любых тестов, которые проходили до применения патча. Используя этот конвейер, DeepSeek создали десятки тысяч воспроизводимых сред, охватывающих несколько языков программирования, включая Python, Java, JavaScript, TypeScript, C, C++, Go и PHP. Общий агент (General Agent): И снова используют агента, чтобы генерировать синтетику, чтобы учить... агента 👁. Работает так: 1. Собирают большой набор категорий, в которых агент должен работать. 2. Получив категорию задачи (например, планирование маршрута путешествия) и виртуальную машину, оснащенную инструментом командной строки и инструментом поиска, агент сначала использует эти инструменты для генерации или извлечения релевантных данных из Интернета и сохранения их в базе данных. 3. Затем агент пишет код для набора специфичных для задачи инструментов, каждый из которых реализован как функция. 4. Чтобы создать задачи, которые одновременно сложны и поддаются автоматической проверке, агент сначала предлагает простую задачу на основе текущей базы данных вместе с ее решением и функциями проверки, реализованными на Python. Если решение не проходит валидацию, агент модифицирует решение или функции проверки, пока вывод решения не пройдет проверку. Затем агент итеративно увеличивает сложность задачи (видимо, выраженное как количество вызовов инструмента) и обновляет соответствующие решение и функции проверки. В ходе этого итеративного процесса, если текущего набора инструментов недостаточно для решения задачи, агент сам дописывает инструментарий. Есть ещё категория Code Interpreter Agent, но про неё ничего не написано по сути, так что пропускаем.

Из этого канала