Интересная работа, при этом мне кажется очень полезная для large-scale… — @gonzo_ML

Интересная работа, при этом мне кажется очень полезная для large-scale оптимизации и ускорения исследований. Сейчас она про предсказание будущих метрик качества через сетку, а не степенные законы. Хорошая модель такого рода позволяет более эффективно выбрать гиперпараметры в начале обучения и сэкономить кучу ресурсов. Это явно не предел. Следующий шаг — универсальная модель такого рода, не зависящая от фиксированных валидационных датасетов. Ещё на шаг-другой в будущее — нейро-оптимизатор, который и градиенты даёт лучше адама. Я уже давно писал, что логи обучения — это актив, вот наконец оно материализуется. Neural Neural Scaling Laws __Michael Y. Hu, Jane Pan, Ayush Rajesh Jhaveri, Nicholas Lourie, Kyunghyun Cho__ Статья: https://arxiv.org/abs/2601.19831 Ревью: https://arxiviq.substack.com/p/neural-neural-scaling-laws Код: https://github.com/michahu/neuneu # TL;DR ЧТО сделали: Представили NeuNeu — нейросетевой предсказатель производительности языковых моделей на целевых задачах (downstream tasks). В отличие от традиционных законов масштабирования, которые подгоняют жесткие параметрические кривые под агрегированные метрики, NeuNeu решает задачу как экстраполяцию временных рядов. Система использует трансформер, обусловленный историей обучения и, что критически важно, полным распределением лоссов на валидации, а не просто средним значением. ПОЧЕМУ это важно: Подход снижает ошибку предсказания на 38% по сравнению со стандартными методами и успешно прогнозирует немонотонное поведение (например, инверсное масштабирование), которое ломает привычные формулы. Работа доказывает, что форма распределения лоссов содержит богатый сигнал о будущих способностях модели, который теряется при усреднении в одно число перплексии. Подробнее: https://t.me/gonzo_ML_podcasts/2348

Из этого канала