Почему омни-модели — это больше про инфраструктуру, чем про архитектуру Последние пару лет вся индустрия пытается склеить модели: текст с изображениями, речь с текстом, диффузию с трансформерами. Со стороны это выглядит как архитектурная задача. Берем несколько моделей, склеим друг с другом, учим на мультимодальных данных — готово. На практике все оказывается сильно сложнее. На примере собственного опыта это отлично показал Роман Исаченко в докладе. Роман отвечает за базовые технологии ART и VLM в Яндекс R&D, и вот что он рассказывает о том, как на самом деле обстоят дела с омни-моделями: Первый bottleneck на уровне предобучения — не архитектура, а инфраструктура мультимодального обучения. На тысячах GPU это превращается в сложную систему с несколькими видами параллелизмов. Любая неэффективность сразу стоит скорости. В докладе был хороший пример про картиночный энкодер: в нем половина времени уходит не на основные вычисления, а на операции типа резидуалов и сложения байесов. Такое ловится только через глубокий профайлинг. Вторый важный нюанс уже на уровне алайнмента. Здесь RL становится ключевой частью системы. Нужно проектировать реворды под разные модальности и следить, чтобы полученная система ревордов обладала свойством независимости, то есть отдельные реворды были нескорелированными между модальностями. Ну и куда же без данных. Смешивание данных для обучения — отдельная история, тут очень важны пропорции. Нельзя просто добавить картинки к тексту и надеяться, что все заработает. Это долгий путь экспериментов, где подбор правильной микстуры занимает огромное количество времени. Отсюда главный вывод: омни-модели — это не про новые архитектуры, а про умение обучать сложные системы. И именно на этом уровне сейчас происходит основной прогресс.