"Что происходит под капотом Алисы AI при генерации изображений — и как работают… — @data_secrets

"Что происходит под капотом Алисы AI при генерации изображений — и как работают «Объедини фото» и «Оживи фото» Генераторы изображений уже стали частью повседневности. Мы пользуемся ими и в работе, и просто для себя. Но как именно они устроены, обычно остается за кадром. Мы решили устроить небольшой ликбез на примере нейросети Алисы AI, которая умеет не только генерировать картинки, но и оживлять, объединять и редактировать их. В основе лежит диффузионная модель: она начинает генерацию с шума и шаг за шагом ""восстанавливает"" изображение. Это называется денойзингом. На первых итерациях появляется общая структура сцены, дальше – формы объектов, и только в конце – детали и текстуры. Это похоже на проявление полароида. Модель обучена на огромном датасете пар «картинка–описание» (порядка 1 млрд). Причем описания генерирует внутренняя VLM-модель, которая подробно расписывает содержимое изображения – вплоть до мелких объектов и контекста сцены. За счет этого диффузия лучше понимает, что именно должно оказаться в кадре, и хорошо следует инструкциям. Дальше на базе модели уже начинается более прикладная история: функции Редактирование изображения, Объедини фото или Оживи фото. Взгляните на пример наверху: вы можете подать на вход Alice AI два изображения и промпт, и модель объединит картинки по заданному запросу. Внутри, при этом, происходит следующее: изображения прогоняются через энкодер и превращаются в латентные представления, которые затем подаются в диффузионную модель как условие вместе с текстом. А дальше происходит знакомый процесс денойзинга с ограничениями: модель должна собрать сцену, согласованную с этими латентами. В ""Оживи фото"" та же логика переносится на видео. Используется диффузионная модель с архитектурой mixture-of-experts: разные эксперты отвечают за геометрию движения и за детализацию. Первый кадр кодируется в латенты и задает сцену, а дальше модель генерирует последовательность кадров по заданной логике. Все кадры видео, кстати, генерируются одновременно, а не по одному. Если кратко: в основе всего — диффузия, но уже не как абстрактная технология, а как хорошо упакованный прикладной инструмент. А попробовать функции Объединения или Оживления фото можно в приложении Алисы 👒"

Из этого канала