"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО прокси-учителя, он выравнивает все репрезентации и потом наконец можно это нормально дистиллировать в маленького студента. Сразу в маленького студента нельзя, он не справится. К вопросу о важности хороших учителей. Efficient Universal Perception Encoder __Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra__ Статья: https://arxiv.org/abs/2603.22387v1 Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder # TL;DR ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного ""proxy-учителя"" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента. ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур. Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера. Сжимать и разжимать тут: https://t.me/gonzo_ML_podcasts/3014"
"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать!…
Из этого канала
- #5081Интересная работа про природу вещей — трансформеры имеют встроенный байес к…
Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.
- #5087Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный…
Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный вход и оставить только текстовый промпт, она может считать, что картинка у неё…
- #5090Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не…
Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не отражают реальное распределение на рынке труда.
- #5073"Свежая интересная работа про биологические вычисления. Мы уже упоминали работу…
"Свежая интересная работа про биологические вычисления. Мы уже упоминали работу ""The forest as a neutrino detector"" (https://t.me/gonzoML/2735), текущая…
- #5067Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом…
Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв.