"Разговоры с голосовым AI На этой неделе много говорил с фаундерами компаний, которые делают голосовых ассистентов для разных задач + сам все больше обстукиваю об chatgpt идеи и мысли, поэтому решил поделиться наблюдениями: 1) Длинные разговоры - судя по всему, это не так просто реализовать. Тот же chatGPT теряет контекст или, наоборот, после 5-7 мин разговора начинает в ответах на 80% повторять все, что до этого говорил. Голосом это особенно напрягает, потому что не можешь пролистать, а вынужден слушать ""всю ту ересь, что вы несете, вместо того чтобы смонтировать ролик до вопроса и ответа"". Тут я подумал, что в этом ограничение архитектуры мультимодальных LLM по сравнению с архитектурой ""голос в текст —> текст в текст с помощью LLM —> текст в голос"", потому что в последней можно делать пост-обрботку: ""отрезать"" ненужную часть и подавать на озвучку только важное. Это релевантно и для пункта 3 ниже 2) Данные для тренировки - многие лабы тренировали свои модели на аудио-книгах, но проблема в том, что эти записи сильно отличаются от реальных разговоров с точки зрения интонации, пауз, перебиваний, и ""чистоты"" языка. Кстати, поэтому многие лабы на дешевых тарифах не дают возможности отказаться от тренировки на ваших данных. 3) Общий контекст - когда 2 профи или давних друга разговаривают о чем-то, то у них очень существенный общий контекст, и поэтому некоторые ненужные слова не говорятся, а подразумеваются. Очевидно, что надо делать пост-обработку. Также люди все чаще, заподозрив AI с другой стороны, просят человека. Я думаю, в некоторых контекстах это придется делать, но в некоторых - возможность для монетизации (хочешь поговорить с человеком - плати). Я бы порекомендовал каждому, хотя бы раз в неделю, уходить в длинный разговор с любимым AI ассистентом в режиме голоса - мало того, что голос быстрее текста, или в некоторых контекстах невозможно быть с экраном (за рулем), но и начинаешь лучше понимать ограничения и челленджи, стоящие перед разработкой оных. Вообще, имхо задача voice AI стартапа не научиться наиболее точно воспроизводить человеческий голос, а научиться ""режиссировать"" диалог: что скрыть, что оставить, и тп P.S. Кстати, подытоживая транскрипт разговора с другом на эту тему, chatgpt ""придумал"" новый термин: talk-to-code :)"
"Разговоры с голосовым AI На этой неделе много говорил с фаундерами компаний,…
Из этого канала
- #1286Как Anthropic сами используют Claude Code В продолжение моих размышлений про…
Как Anthropic сами используют Claude Code В продолжение моих размышлений про уровни автономии сейлз и продуктовых команд, было очень интересно почитать, как в…
- #1287Помните я писал про AI user board-ы? В эту тему свежая статья от a16z про то,…
Помните я писал про AI user board-ы? В эту тему свежая статья от a16z про то, как AI меняет рыночные исследования.
- #1288Курс по Lovable Олег и Команда GoPractice намутили курс по AI прототипированию…
Курс по Lovable Олег и Команда GoPractice намутили курс по AI прототипированию на Lovable —> прошел его сегодня.
- #1284Коллеги, я удалил пост про бета тест, поскольку пока еще не смогли пофиксить…
Коллеги, я удалил пост про бета тест, поскольку пока еще не смогли пофиксить все проблемы.
- #1280Сегодня день рождения моего Учителя - Анатолия Гавердовского. К сожалению, его…
Сегодня день рождения моего Учителя - Анатолия Гавердовского. К сожалению, его больше с нами нет, но в качестве памяти я бы хотел поделиться его выступлением…