"На прошлой неделе послушал доклад Анны Байдиной из Revolut - технического… — @cdo_club

"На прошлой неделе послушал доклад Анны Байдиной из Revolut - технического лидера их voice team. Тема: dialogue management в голосовых агентах. Казалось бы, нишевая история. На практике - хороший срез того, где реально ломается большинство голосовых продуктов. Первый инсайт, который стоит зафиксировать: голос и текст - разные домены не по UX, а по физике. В текстовом чате лишние 3–4 секунды на ответ - нормально. В голосе те же 3–4 секунды - руинированная сессия и желание попросить живого оператора. Revolut ориентируется на P50 latency < 2 секунд. Это не KPI, это порог между ""работает"" и ""не работает"". Второй момент: большинство команд, которые строят голосовых агентов, думают что задача - это STT + LLM + TTS. Сложили три модели — готово. Но есть четвёртый слой, без которого первые три не имеют смысла. Это dialogue management. Что это такое? Это слой управления разговором, который решает один вопрос: сейчас говорить или слушать? Если STT — это уши, LLM — мозг, TTS — рот, то dialogue manager — это личность агента. Он определяет, перебивает ли агент пользователя, отвечает ли на правильный вопрос, или зависает в паузе и теряет нить. Конкретный пример из доклада: пользователь говорит ""я хочу купить... [пауза] ...пиво на 150 человек"". Без dialogue management агент слышит паузу после ""купить"", решает что фраза закончена, отвечает на неполный запрос. С dialogue management - понимает, что пауза внутри фразы, ждёт конца, отвечает по существу. Технически это решается через turn-taking - механизм определения конца реплики пользователя. Простое решение: VAD (Voice Activity Detector) + таймер. Молчание 700 мс — конец хода. Проблема: 700 мс из бюджета в 2 секунды — это огромная цена. Плюс ложные срабатывания на паузы внутри фраз. Более сильное решение — аудионативные модели типа SmartTurn. Они используют те же сигналы, которые использует человек в живом разговоре: падение питча, снижение энергии, замедление ритма речи. Transformer-архитектура (encoder от Whisper) + классификатор. Быстрее и точнее VAD-based подхода. Revolut использует его в продакшене как основной механизм, с VAD-based fallback на 2 секунды. Ещё одна деталь, которую легко пропустить: Revolut не смог просто переиспользовать свой существующий чатбот LLM внутри голосового агента. Архитектурно они сделали отдельный LLM + два вызова к chatbot API для получения ответов — именно чтобы вписаться в латентный бюджет. То есть задача оказалась не ""взять готовый AI и добавить голос"", а переосмыслить всю цепочку под жёсткое latency constraint. Это честная инженерная история: не про то какая модель умнее, а про то как архитектура определяет что вообще возможно. https://www.youtube.com/watch?v=onIFwG-5tuE"

Из этого канала