"Пересекая зловещую долину ""conversational voice"". Помните, я вчера… — @neuralstack

"`Пересекая зловещую долину ""conversational voice"".` Помните, я вчера рассказывал про NotebookLM и восхищался тем, насколько там живые голоса, эмоциональный отклик на ваши комментарии к ""подкасту""? Это круто, но вот кое что покруче вам поиграться сегодня. Cмотрели фильм «Она»? Жмите на линк, try our demo, и выбирайте Майю. Поздравляю, вы в телевизоре. Sesame Team 27 февраля выкатили эту демку. Под капотом их CSM модель. У демки сейчас лимит 15 минут разговора, но первый раз разговор пролетел как мгновение. Демка настолько крутая что у нее есть какой-никакой memory о вас! Следующие 15 минут начнутся не с чистого листа! Модель очень ограниченно может ""говорить"" на любом языке кроме английского, поэтому демку прибили гвоздями. Но она вполне себе хорошо понимает когда ей говорят по русски, отвечает правда все еще на английском. CSM это модель, которая напрямую обрабатывает аудио-данные. Работает на двух трансформерах: первый обрабатывает смешанный текст и аудио для создания базового звукового шаблона, а второй добавляет к нему детали для получения сочного звука. Чтобы сэкономить выч. ресурсы вторую модель учат на рандомном сабсете (1/16) аудиофреймов. Модель так хороша что отдельные фразы очень-очень сложно отличить от человеческой речи. Но если говорить долго (возможно вам потребуется два раза демку запустить 🙂 то все еще можно иногда услышать небольшие глитчи и странности в интонации, в смешках и придыханиях. И все равно это жесть как круто, я хочу такую модель в ""говорилке"" chatGPT. Еще пишут что модель анализирует весь предыдущий разговор, чтобы выбрать правильную манеру произнесения текущей фразы - с нужной интонацией, скоростью и эмоциональным окрасом. Волосы дыбом 🙂 Очень крутая штука. Я так и не понял откуда Sesame берут деньги, но надеюсь что у них оно не кончится – про пересечение зловещей долины __вообще не кликбейт.__ Отправь другу, пусть тоже кринжанет с кайфом 😐"

Из этого канала