"Что происходит под капотом Алисы AI при генерации изображений — и как работают «Объедини фото» и «Оживи фото» Генераторы изображений уже стали частью повседневности. Мы пользуемся ими и в работе, и просто для себя. Но как именно они устроены, обычно остается за кадром. Мы решили устроить небольшой ликбез на примере нейросети Алисы AI, которая умеет не только генерировать картинки, но и оживлять, объединять и редактировать их. В основе лежит диффузионная модель: она начинает генерацию с шума и шаг за шагом ""восстанавливает"" изображение. Это называется денойзингом. На первых итерациях появляется общая структура сцены, дальше – формы объектов, и только в конце – детали и текстуры. Это похоже на проявление полароида. Модель обучена на огромном датасете пар «картинка–описание» (порядка 1 млрд). Причем описания генерирует внутренняя VLM-модель, которая подробно расписывает содержимое изображения – вплоть до мелких объектов и контекста сцены. За счет этого диффузия лучше понимает, что именно должно оказаться в кадре, и хорошо следует инструкциям. Дальше на базе модели уже начинается более прикладная история: функции Редактирование изображения, Объедини фото или Оживи фото. Взгляните на пример наверху: вы можете подать на вход Alice AI два изображения и промпт, и модель объединит картинки по заданному запросу. Внутри, при этом, происходит следующее: изображения прогоняются через энкодер и превращаются в латентные представления, которые затем подаются в диффузионную модель как условие вместе с текстом. А дальше происходит знакомый процесс денойзинга с ограничениями: модель должна собрать сцену, согласованную с этими латентами. В ""Оживи фото"" та же логика переносится на видео. Используется диффузионная модель с архитектурой mixture-of-experts: разные эксперты отвечают за геометрию движения и за детализацию. Первый кадр кодируется в латенты и задает сцену, а дальше модель генерирует последовательность кадров по заданной логике. Все кадры видео, кстати, генерируются одновременно, а не по одному. Если кратко: в основе всего — диффузия, но уже не как абстрактная технология, а как хорошо упакованный прикладной инструмент. А попробовать функции Объединения или Оживления фото можно в приложении Алисы 👒"
"Что происходит под капотом Алисы AI при генерации изображений — и как работают…
Из этого канала
- #8969Проект Марио или как DeepMind пытались накопить денег на уход от Google…
Проект Марио или как DeepMind пытались накопить денег на уход от Google Недавно вышла новая книга Себастьяна Маллаби «The Infinity Machine» про Демисса…
- #8970⚡️ Встречаем Gemma-4 – 4 размера: 31В Dense, 26B MoE А4В, E4B и E2B. Все с…
⚡️ Встречаем Gemma-4 – 4 размера: 31В Dense, 26B MoE А4В, E4B и E2B. Все с ризонингом.
- #8971Google выпустили Gemma 4 – новое поколение моделей с открытыми весами В релиз…
Google выпустили Gemma 4 – новое поколение моделей с открытыми весами В релиз вошли 4 модели: от компактной 2B до на 31B. По метрикам это новая открытая SOTA.
- #8966Праздник опенсорса (теперь уже официального) продолжается: Google намекают, что…
Праздник опенсорса (теперь уже официального) продолжается: Google намекают, что сегодня выйдет Gemma 4 🔥
- #8965Anthropic начали действовать и почти добились удаления 8000 репозиториев в…
Anthropic начали действовать и почти добились удаления 8000 репозиториев в кодом Claude Code Вчера они разослали DMCA-запросы на все известные копии и форки…