"Голосовые технологии и виртуальные ассистенты Давайте немного отвлечемся от AI… — @cdo_club

"Голосовые технологии и виртуальные ассистенты Давайте немного отвлечемся от AI агентов и взглянем на тренды в области голосовых технологий. Компания Cartesia как раз опубликовала любопытный материал. Cartesia это компания работающая в области искусственного интеллекта, основанная в 2023 году группой исследователей из Стэнфордского университета. Основной продукт: Sonic - голосовой API с ultra-реалистичной генерацией речи. Какие тренды отмечают коллеги в своем отечете из того, что показалось мне интересным: ⁃ В первую очередь прорывом в части интеграции LLM в цепочку STT → LLM → TTS что в целом дало буст разговорным интерфейсам за счет того что боты стали общаться более адекватно, улучшилось понимание и генерация ответов. ⁃ Появились полностью дуплексные системы преобразования речи в речь. Эти модели ""всегда включены"", поскольку они могут слушать пользователя, пока модель говорит. Это дает возможность заглянуть в будущее мультимодальной озвучки, где модели будут постоянно слушать пользователя. ⁃ Появились новые архитектуры моделей для речи: на основе пространства состояний (SSM) с авторегрессионным обучением. Эти архитектуры представляют собой значительный отход от более традиционных моделей трансформеров на основе внимания, поскольку они обеспечивают большую гибкость в средах развертывания. Теперь возможны развертывания на устройствах с ограниченной памятью, а также улучшенное качество и задержки. • Речевые модели (имеется ввиду ASR/TTS) теперь поддерживают потоковую передачу данных, позволяя генерировать звук в реальном времени по мере получения данных от LLM, сохраняя при этом последовательность просодии (интонация, ритм, ударения, паузы) в сегментах речи. • Улучшилась поддержка интеграции голосовых моделей в платформах создания ботов и виртуальных ассистентов, что снижает порог сложности для их применения и создания мультимодальных интерфейсов • Эти же платформы становятся ключевым элементом общей инфраструктуры виртуальных ассистентов, объединяя в себя все элементы более “низкого” уровня технологического стека: ASR/TTS, LLM, RAG • Очень интересно, что нарисовался целый отдельный класс платформ (observability platforms) предназначенный для оценки и контроля работы виртуальных ассистентов. Это такие платформы как: Hamming, Coval, Vocera, and Canonical • С точки зрения бизнес-областей, использование голосовых ассистентов стало практически стандартом в рекрутинге, продажах и поддержке клиентов В 2025 году следует ожидать дальнейшее снижение задержи работы моделей, улучшение в понимание контекста и обработку различных артефактов естественной речи, такие как прерывание речи, паузы и тд. Так же модели лучше смогут работать на конечных устройствах и станут более компактными за счет новых архитектур, дистилляции и использования специализированных чипов. https://www.cartesia.ai/blog/state-of-voice-ai-2024"

Из этого канала