А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов. Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов. Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант. The V-IRL Environment (первая картинка): Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных. Цель — добраться до целевого местоположения, следуя набору инструкций. Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам. The GeneralPoints Environment: (Пример на 2м скрине) Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз. Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются). Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста. 3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах. SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано) SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training https://arxiv.org/abs/2501.17161v1 https://tianzhechu.com/SFTvsRL/ кстати для статей по RLю и многому другому есть https://t.me/researchim
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на…
Из этого канала
- #954Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем…
Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели…
- #955Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1 https://huggingface.co/blog/open-r1/update-1
- #956Первая экспериментальная Ruadapt ризонинг модель:…
Первая экспериментальная Ruadapt ризонинг модель: RuadaptQwen2.5-14B-R1-distill-preview-v1 Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT…
- #949Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот…
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот так вот верь им теперь.
- #948Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpotrainer.md Вообще…