Почему омни-модели — это больше про инфраструктуру, чем про архитектуру Последние пару лет вся индустрия пытается склеить модели: текст с изображениями, речь с текстом, диффузию с трансформерами. Со стороны это выглядит как архитектурная задача. Берем несколько моделей, склеим друг с другом, учим на мультимодальных данных — готово. На практике все оказывается сильно сложнее. На примере собственного опыта это отлично показал Роман Исаченко в докладе. Роман отвечает за базовые технологии ART и VLM в Яндекс R&D, и вот что он рассказывает о том, как на самом деле обстоят дела с омни-моделями: Первый bottleneck на уровне предобучения — не архитектура, а инфраструктура мультимодального обучения. На тысячах GPU это превращается в сложную систему с несколькими видами параллелизмов. Любая неэффективность сразу стоит скорости. В докладе был хороший пример про картиночный энкодер: в нем половина времени уходит не на основные вычисления, а на операции типа резидуалов и сложения байесов. Такое ловится только через глубокий профайлинг. Вторый важный нюанс уже на уровне алайнмента. Здесь RL становится ключевой частью системы. Нужно проектировать реворды под разные модальности и следить, чтобы полученная система ревордов обладала свойством независимости, то есть отдельные реворды были нескорелированными между модальностями. Ну и куда же без данных. Смешивание данных для обучения — отдельная история, тут очень важны пропорции. Нельзя просто добавить картинки к тексту и надеяться, что все заработает. Это долгий путь экспериментов, где подбор правильной микстуры занимает огромное количество времени. Отсюда главный вывод: омни-модели — это не про новые архитектуры, а про умение обучать сложные системы. И именно на этом уровне сейчас происходит основной прогресс.
Почему омни-модели — это больше про инфраструктуру, чем про архитектуру…
Из этого канала
- #9004Некто реализовал хлыст, который бьет агента Claude, и Anthropic отправили ему…
Некто реализовал хлыст, который бьет агента Claude, и Anthropic отправили ему за это досудебную претензию Уже пару дней в Интернете вирусится цифровой хлыст…
- #9006"Meta показали первую языковую модель от нового подразделения Meta…
"Meta показали первую языковую модель от нового подразделения Meta Superintelligence Lab by Александр Ван И это...
- #9009Тем временем происходящее в новой соцсети Андрея Карпаты:
Тем временем происходящее в новой соцсети Андрея Карпаты:
- #9002О, Андрей Карпаты навайбкодил собственный Твиттер https://karpathytalk.com…
О, Андрей Карпаты навайбкодил собственный Твиттер https://karpathytalk.com Андрей заявил, что разочарован в X/Twitter, Threads и Substack, потому что качество…
- #9001Дьявол, как всегда, кроется в деталях. В нашем случае – в системной карте.…
Дьявол, как всегда, кроется в деталях. В нашем случае – в системной карте. TL;DR: в рамках тестирования Claude Mythos смог «сбежать из лаборатории» ✌️…