Chain-of-Frames или gpt-3 момент для визуала Вы наверное уже в своих фидах ощутили волну видео контента, запущенного veo3 & sora? Ну точно видели фаундера, переквалифицировавшегося в рэпера и тревел блогера :-) На днях я узнал про термин Chain-of-Frame - а-ля Chain-of-Thought для ризонинг моделей: видео модель, генерируя фрейм за фреймом, «рассуждает» и решает визуальные задачки так же, как LLM это делает текстом. И, благодаря такому визуальному рассуждению демонстрирует способности, которые не были заложены (!) в нее при тренировке: обнаружение границ обьектов на картинке, решение судоку задачек, решение лабиринтов и тп. Тут важно заметить, что для этих задачек есть специализированные модельки, и пока они показывают результаты лучше, чем фундаментальные видео модели а ля veo3. НО так же было и с gpt-2,3: и с масштабированием тренировки (данные, компьют) LLMки обошли специализированные модели. Собственно, этого же ожидают и с видео. Поэтому сейчас ресерчеры все чаще говорят, что наступает gpt-3 момент для визуальных моделей —> мы видим рождение фундаментальных визуальных моделей, которые смогут решать широкий класс визуальных задач на уровне или лучше специализированных моделей. Почитайте вот эту статью от Google. Еще мысль: если текстовой модели нужен текст в виде промпта, то видео модели - недостаточно текста, ей нужен фрейм для chain of frames, то есть картинка/последовательность оных, чтобы правильно запромптить. Это, имхо, важно помнить при работе с ними. А мне вот интересно - что же тогда будет “chatgpt в видео»? Как вы считаете? P.S. кстати, сегодня в 18мск расскажу об этом и другом в 4м GenAI апдейте этого года - приходите.
Chain-of-Frames или gpt-3 момент для визуала Вы наверное уже в своих фидах…
Из этого канала
- #1475"Как добиться разнообразия в ответах chatGPT? Я как-то шерил промпт для…
"Как добиться разнообразия в ответах chatGPT? Я как-то шерил промпт для генерации 100 идей продуктов, но некоторые жаловались, что многие идеи повторяются, не…
- #1478"Про доверие, полезное знание, и Нобелевку Помните, я писал о доверии и разнице…
"Про доверие, полезное знание, и Нобелевку Помните, я писал о доверии и разнице между оным к ""неизвестным другим"" между США и Россией? Когда я узнал, за что…
- #1479Учим Claude уму разуму или Claude Skills Помните, как в матрице Нео скачивает…
Учим Claude уму разуму или Claude Skills Помните, как в матрице Нео скачивает скиллы и фигачит в кунгфу и не только? Anthropic выпустил нечто похожее, но…
- #1473VCBench: предсказываем успех фаундера Коль есть такие бенчмарки как SWEBench -…
VCBench: предсказываем успех фаундера Коль есть такие бенчмарки как SWEBench - для оценки качества кодинга LLM-ками - то пора бы уже сделать и бенчмарки для…
- #1470"AI билдер от n8n Я уже показывал, как создать своего Телеграм бота за 10 мин…
"AI билдер от n8n Я уже показывал, как создать своего Телеграм бота за 10 мин на n8n, а буквально вчера учил делать AI агента для квалификации лидов.