"А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО прокси-учителя, он выравнивает все репрезентации и потом наконец можно это нормально дистиллировать в маленького студента. Сразу в маленького студента нельзя, он не справится. К вопросу о важности хороших учителей. Efficient Universal Perception Encoder __Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra__ Статья: https://arxiv.org/abs/2603.22387v1 Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder # TL;DR ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного ""proxy-учителя"" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента. ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур. Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера. Сжимать и разжимать тут: https://t.me/gonzo_ML_podcasts/3014"