Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в… — @ai_newz

Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в Сбере запустили новое поколение голосового режима Гигачата. Голоса теперь собираются не из «универсального диктора», а из специализированных моделей: Freespeech для живого общения, голоса операторов колл-центров, подкастная и классическая дикторская подача. В результате ассистент говорит ближе к человеку, а не к автоответчику — со вздохами и с более естественной интонацией. Технически это полностью свой стек: GigaChat 3b в роли языковой модели, кастомный токенизатор звука и авторегрессионный синтез вместо диффузий. Команда отдельно поработала над токенизацией речи, системными промптами для стиля голоса, учетом длинного контекста и клонированием — за счёт этого новый синтез сильно обгоняет прошлое поколение по внутренним метрикам качества и естественности. На фоне конкурентов типа Алисы упор идёт не на «дикторский» голос, а на живость и выразительность речи. Статья на хабре @ai_newz

Из этого канала