"Разговоры с голосовым AI На этой неделе много говорил с фаундерами компаний,… — @ProductsAndStartups

"Разговоры с голосовым AI На этой неделе много говорил с фаундерами компаний, которые делают голосовых ассистентов для разных задач + сам все больше обстукиваю об chatgpt идеи и мысли, поэтому решил поделиться наблюдениями: 1) Длинные разговоры - судя по всему, это не так просто реализовать. Тот же chatGPT теряет контекст или, наоборот, после 5-7 мин разговора начинает в ответах на 80% повторять все, что до этого говорил. Голосом это особенно напрягает, потому что не можешь пролистать, а вынужден слушать ""всю ту ересь, что вы несете, вместо того чтобы смонтировать ролик до вопроса и ответа"". Тут я подумал, что в этом ограничение архитектуры мультимодальных LLM по сравнению с архитектурой ""голос в текст —> текст в текст с помощью LLM —> текст в голос"", потому что в последней можно делать пост-обрботку: ""отрезать"" ненужную часть и подавать на озвучку только важное. Это релевантно и для пункта 3 ниже 2) Данные для тренировки - многие лабы тренировали свои модели на аудио-книгах, но проблема в том, что эти записи сильно отличаются от реальных разговоров с точки зрения интонации, пауз, перебиваний, и ""чистоты"" языка. Кстати, поэтому многие лабы на дешевых тарифах не дают возможности отказаться от тренировки на ваших данных. 3) Общий контекст - когда 2 профи или давних друга разговаривают о чем-то, то у них очень существенный общий контекст, и поэтому некоторые ненужные слова не говорятся, а подразумеваются. Очевидно, что надо делать пост-обработку. Также люди все чаще, заподозрив AI с другой стороны, просят человека. Я думаю, в некоторых контекстах это придется делать, но в некоторых - возможность для монетизации (хочешь поговорить с человеком - плати). Я бы порекомендовал каждому, хотя бы раз в неделю, уходить в длинный разговор с любимым AI ассистентом в режиме голоса - мало того, что голос быстрее текста, или в некоторых контекстах невозможно быть с экраном (за рулем), но и начинаешь лучше понимать ограничения и челленджи, стоящие перед разработкой оных. Вообще, имхо задача voice AI стартапа не научиться наиболее точно воспроизводить человеческий голос, а научиться ""режиссировать"" диалог: что скрыть, что оставить, и тп P.S. Кстати, подытоживая транскрипт разговора с другом на эту тему, chatgpt ""придумал"" новый термин: talk-to-code :)"

Из этого канала