Chain-of-Frames или gpt-3 момент для визуала Вы наверное уже в своих фидах ощутили волну видео контента, запущенного veo3 & sora? Ну точно видели фаундера, переквалифицировавшегося в рэпера и тревел блогера :-) На днях я узнал про термин Chain-of-Frame - а-ля Chain-of-Thought для ризонинг моделей: видео модель, генерируя фрейм за фреймом, «рассуждает» и решает визуальные задачки так же, как LLM это делает текстом. И, благодаря такому визуальному рассуждению демонстрирует способности, которые не были заложены (!) в нее при тренировке: обнаружение границ обьектов на картинке, решение судоку задачек, решение лабиринтов и тп. Тут важно заметить, что для этих задачек есть специализированные модельки, и пока они показывают результаты лучше, чем фундаментальные видео модели а ля veo3. НО так же было и с gpt-2,3: и с масштабированием тренировки (данные, компьют) LLMки обошли специализированные модели. Собственно, этого же ожидают и с видео. Поэтому сейчас ресерчеры все чаще говорят, что наступает gpt-3 момент для визуальных моделей —> мы видим рождение фундаментальных визуальных моделей, которые смогут решать широкий класс визуальных задач на уровне или лучше специализированных моделей. Почитайте вот эту статью от Google. Еще мысль: если текстовой модели нужен текст в виде промпта, то видео модели - недостаточно текста, ей нужен фрейм для chain of frames, то есть картинка/последовательность оных, чтобы правильно запромптить. Это, имхо, важно помнить при работе с ними. А мне вот интересно - что же тогда будет “chatgpt в видео»? Как вы считаете? P.S. кстати, сегодня в 18мск расскажу об этом и другом в 4м GenAI апдейте этого года - приходите.