Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы. Мы все знаем про пользу ансамблирования. Кажется, на Каггле это традиционно был универсальный рецепт -- в любой непонятной ситуации делай ансамблирование. Обучая несколько (`K`) независимых моделей фиксированного размера и усредняя их логиты, они достигают значительно более низкой асимптоты лосса. Например, ансамбль моделей на 300M параметров даёт асимптоту 3.34, что лучше, чем 3.43 (цифры как назло такие, что легко перепутать), достигаемая при масштабировании одной модели до бесконечного числа параметров. Авторы объясняют это, ссылаясь на гипотезу «множественных представлений» (multi-view) от Allen-Zhu и Li (https://arxiv.org/abs/2012.09816). Идея в том, что для данного датасета может существовать много различных наборов предсказательных признаков. Одна модель часто склонна выучивать только одно из этих представлений, в то время как независимо обученные члены ансамбля с большей вероятностью выучат разные. Усреднение их выходов позволяет уловить более полный сигнал. Это, кстати, неплохо перекликается с другой недавней работой про то, как лучше выучивать хорошие фичи (https://t.me/gonzo_ML/4009), там тоже рецепт был в обучении нескольких моделей и их конкатенации. Это означает, что при достаточно большом общем количестве параметров эффективнее обучать кучу небольших моделей, чем одного монолитного гиганта. Авторы также обнаружили, что оптимальные гиперпараметры для членов ансамбля (настроенные для предела K → ∞) предпочитают большее количество эпох и меньшее затухание весов по сравнению с одиночной моделью. Интуитивно это позволяет каждому члену ансамбля стать слегка переобученным «специалистом». Объединение этих двух стратегий -- совместный рецепт масштабирования, где и количество параметров каждого члена (`N`), и число членов ансамбля (`K`) стремятся к бесконечности, — даёт наименьшую возможную асимптоту лосса, оценённую в 3.17 для датасета в 200M токенов. Интересно, кстати, какое место здесь занял бы MoE, он выглядит как более срединный путь. Эти алгоритмические улучшения приводят к значительному выигрышу в эффективности использования данных. На масштабе 200M токенов совместный рецепт масштабирования оказывается в 5.17 раз более эффективным по данным, чем стандартный. Анализируя масштабирование на более крупных датасетах (до 1.6B токенов), авторы показывают, что этот прирост эффективности, по прогнозам, останется постоянным, поскольку законы масштабирования по данным для всех рецептов убывают с одинаковой скоростью. И тут начинается особенно интересная часть. Вычислительные затраты на обучение и запуск больших ансамблей могут показаться непрактичными. Однако статья демонстрирует, что эти улучшения производительности можно упаковать в меньшие, эффективные модели с помощью дистилляции. Про виды дистилляции мы писали много (https://t.me/gonzo_ML/117), поищите поиском по каналу. Здесь рассматриваются два: * Дистилляция ансамбля: Ансамбль из 8 членов (с общим числом параметров 2.4B) был дистиллирован в одну модель-студента на 300M параметров. Этот студент, с в 8 раз меньшим бюджетом на инференс, сохранил 83% улучшения лосса ансамбля по сравнению с лучшей регуляризованной 300М-моделью и даже превзошёл асимптоту регуляризованного рецепта.
Хотя регуляризация решает проблему масштабирования одной модели, авторы…
Из этого канала
- #4040 Самодистилляция: Ещё более удивительно, что авторы показывают, как…
Самодистилляция: Ещё более удивительно, что авторы показывают, как самодистилляция (тоже упоминалась в канале не раз, один из интересных кейсов тут…
- #4053Мы уже писали про варианты JEPA, например, JEPA для time series…
Мы уже писали про варианты JEPA, например, JEPA для time series (https://t.me/gonzoMLpodcasts/513) или для видео, типа V-JEPA (https://t.me/gonzoML/3501) и…
- #4055Когда же уже R2 наконец?! DeepSeek-V3.1 → DeepSeek-V3.1-Terminus ✨ What’s…
Когда же уже R2 наконец?! DeepSeek-V3.1 → DeepSeek-V3.1-Terminus ✨ What’s improved? 🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
- #4038Pre-training under infinite compute Konwoo Kim, Suhas Kotha, Percy Liang,…
Pre-training under infinite compute Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto Статья: https://arxiv.org/abs/2509.14786 Код:…
- #4037А вот и Навье-Стокс от Дипмайнда подоспел…
А вот и Навье-Стокс от Дипмайнда подоспел https://deepmind.google/discover/blog/discovering-new-solutions-to-century-old-problems-in-fluid-dynamics/