Обучаться во время экзамена — зыко! Что отдельно интересно, это слияние обучения с инференсом. Learning to Discover at Test Time __Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun__ Статья: https://arxiv.org/abs/2601.16175 Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time Модель: https://huggingface.co/openai/gpt-oss-120b # TL;DR ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы. ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую `gpt-oss-120b`, авторы улучшили границы в задаче Эрдёша и написали GPU-ядра эффективнее человеческих экспертов. Подробнее: https://t.me/gonzo_ML_podcasts/2212