Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв. Неожиданно результат лучше и не нужен отдельный лосс балансировки. Path-Constrained Mixture-of-Experts __Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly__ Статья: https://arxiv.org/abs/2603.18297 Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts # TL;DR ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв. ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур. Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias. Назначать экспертов здесь: https://t.me/gonzo_ML_podcasts/2991
Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом…
Из этого канала
- #5073"Свежая интересная работа про биологические вычисления. Мы уже упоминали работу…
"Свежая интересная работа про биологические вычисления. Мы уже упоминали работу ""The forest as a neutrino detector"" (https://t.me/gonzoML/2735), текущая…
- #5077"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать!…
"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО…
- #5081Интересная работа про природу вещей — трансформеры имеют встроенный байес к…
Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.
- #5062Seoul World Model — это прикольно! Grounding World Simulation Models in a…
Seoul World Model — это прикольно! Grounding World Simulation Models in a Real-World Metropolis Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi,…
- #5060"Статья небольшая, но содержательная (3 страницы текста + 2 ссылок). Такую…
"Статья небольшая, но содержательная (3 страницы текста + 2 ссылок). Такую комментировать и обозревать -- только портить. Так что лучше почитайте оригинал.