А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов. Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов. Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант. The V-IRL Environment (первая картинка): Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных. Цель — добраться до целевого местоположения, следуя набору инструкций. Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам. The GeneralPoints Environment: (Пример на 2м скрине) Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз. Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются). Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста. 3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах. SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано) SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training https://arxiv.org/abs/2501.17161v1 https://tianzhechu.com/SFTvsRL/ кстати для статей по RLю и многому другому есть https://t.me/researchim