Google выпустили SOTA модель для генерации речи Вышла Gemini 3.1 Flash TTS – новое поколение голосового движка в экосистеме Gemini. Киллер-фича: суперточный контроль интонации. Возможно задавать стиль, темп, ударения и «атмосферу» речи через теги в тексте, почти как в режиссерских заметках для голоса. Плюс модель может работать с многоголосием с сохранением стиля голоса каждого персонажа, так что ее можно использовать для озвучки целых фильмов. Плюс скорость. По сравнению с более ранними TTS ускорение первого токена и общей задержки произошло на десятки процентов. Это уже близко к полноценным онлайн прод-сценариям. Озвучка, переводы, ИИ-подкасты и голосовые агенты скоро выйдут на совсем новый уровень blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
Google выпустили SOTA модель для генерации речи Вышла Gemini 3.1 Flash TTS –…
Из этого канала
- #9060Внезапно: новая Muse Spark от Meta демонстрирует самые высокие показатели…
Внезапно: новая Muse Spark от Meta[](https://telegra.ph/Prinadlezhit-Meta-09-18) демонстрирует самые высокие показатели evaluation awareness среди всех моделей…
- #9061Любимое видео сегодняшнего дня
Любимое видео сегодняшнего дня
- #9062Дженсен Хуанг сказал, что США должны сотрудничать с Китаем, потому что те уже…
Дженсен Хуанг сказал, что США должны сотрудничать с Китаем, потому что те уже могут сделать свой собственный Claude Mythos У Дваркеша Пателя вышло новое…
- #9058"GPT-5.4 Pro решила задачу Эрдеша номер 1196 Она была открыта с 1968, когда…
"GPT-5.4 Pro решила задачу Эрдеша номер 1196 Она была открыта с 1968, когда Эрдеш, Саркожи и Семереди поставили в своей работе вопрос о плотности так…
- #9057Освоить создание ИИ-агентов теперь можно в «Академии Yandex AI Studio» —…
Освоить создание ИИ-агентов теперь можно в «Академии Yandex AI Studio» — бесплатно и с практикой.