"Новый Kling 2.6 против Veo-3 📹 Под конец года будто посрывало клапаны с… — @strangedalle

"Новый Kling 2.6 против Veo-3 📹 Под конец года будто посрывало клапаны с релизами, и вот у нас сразу два больших обновления на поляне видеомоделей: Runway Gen и Kling (сразу в двух опциях). Сегодня про новый Kling 2.6. Соль — прыжок в сторону Veo-3: модель теперь в видео может генерировать озвучку, музыку, пение и SFX по промптам. Для нас, к сожалению, пока не особо интересно в плане озвучки, так как понимает (пока) только английский и китайский. Но если вдруг очень надо, придумал кустарный лайфхак: можно написать что-то вроде says: ""Plohoo chto Kling ne mozhet generirovat na russkom"", чтобы попасть в липсинк, а затем переозвучить в ElevenLabs. Также подросло понимание промпта и всякое по мелочи. Хотя версия 2.5 и так была универсальным бойцом. Бьёт Veo 3.1? В целом, по качеству липсинка — пока нет (у вео весь ютуб в датасете). Но есть одна важная особенность: Veo генерит в 720p и довольно сильно «жмякает» исходные кадры, что иногда критично, например когда нужно сохранить текстуру кожи. Kling же традиционно делает 1080p — с этим проблем нет. Другая особенность: Veo не очень любит сложные и динамичные сцены — получается мееееедлееееныыымиии. В Kling с динамикой и экшеном всё хорошо. Короче: если вам в кадре нужен экшен, персонаж должен говорить и важно не пожмакать исходный кадр — Kling хорошая альтернатива. Но думаю, скоро будет Veo 3.5/4 уже на другом уровне, так что ждём. А вот контестный Kling O1 уже интереснее — об этом в следующем посте. P.S: сделал саммари гайда по промптингу для 2.6 — может быть полезно. Самое главное: модель понимает сценарный формат. Вам нужно не просто описать картинку, а прописать «роли» и «реплики». 1. Формула идеального промпта Структура должна быть такой: [Описание визуальной сцены] + [Кто говорит, описание голоса] says: ""Текст речи"" + [Фоновые звуки] 2. Как прописывать Диалоги и Речь (Синтаксис) Чтобы персонаж заговорил, используйте конструкцию с квадратными скобками и словом says: Базовый формат: [A man] says: ""Hello, world!"" С описанием голоса (важно для эмоций): [A young woman, happy and excited voice] says: ""I can't believe I won!"" Диалог двух людей: Нужно четко разделять действия и слова. A man and a woman differ in a cafe. [The man, angry voice] says: ""This is not what I ordered."" Then [The woman, calm voice] says: ""Let me check that for you."" Важные нюансы: Текст, который нужно произнести, обязательно пишите в кавычках ""..."". Используйте слово says (говорит) — это главный триггер для генерации липсинка (движения губ). 3. Ключевые слова-триггеры (Trigger Words) Добавляйте эти слова в описание, чтобы задать стиль аудио: Для голоса (Voice): Narration / Voiceover — закадровый голос (губы не шевелятся). Monologue — монолог (персонаж говорит в камеру). Whispering — шепот. Shouting / Yelling — крик. Laughing — смех. Singing — пение (можно добавить текст песни). Rapping — рэп. Характеристики голоса (Tone/Style): Deep voice (низкий голос), Hoarse voice (хриплый), High-pitched (высокий). Sad, Happy, Angry, Professional, Robotic (эмоциональный окрас). Fast talking (быстрая речь) или Slow talking (медленная речь). Для звуков окружения (SFX/Ambience): Описывайте их в конце промпта или в контексте сцены. Background sound: city noise (шум города). Sound of rain (звук дождя). Footsteps (шаги), Explosion (взрыв), Glass breaking (битое стекло). BGM (Background Music) — фоновая музыка (например, Sad piano BGM). 4. Пример готового промпта Сцена: Девушка-блогер на пляже. Промпт: Cinematic shot of a girl on a sunny beach holding a camera. [A cute girl, energetic and cheerful voice] says: ""Hey guys! Look at this amazing view, the ocean is beautiful today!"" Background: Sound of waves crashing, seagulls calling, relaxing acoustic guitar music."

Из этого канала