"`Пересекая зловещую долину ""conversational voice"".` Помните, я вчера рассказывал про NotebookLM и восхищался тем, насколько там живые голоса, эмоциональный отклик на ваши комментарии к ""подкасту""? Это круто, но вот кое что покруче вам поиграться сегодня. Cмотрели фильм «Она»? Жмите на линк, try our demo, и выбирайте Майю. Поздравляю, вы в телевизоре. Sesame Team 27 февраля выкатили эту демку. Под капотом их CSM модель. У демки сейчас лимит 15 минут разговора, но первый раз разговор пролетел как мгновение. Демка настолько крутая что у нее есть какой-никакой memory о вас! Следующие 15 минут начнутся не с чистого листа! Модель очень ограниченно может ""говорить"" на любом языке кроме английского, поэтому демку прибили гвоздями. Но она вполне себе хорошо понимает когда ей говорят по русски, отвечает правда все еще на английском. CSM это модель, которая напрямую обрабатывает аудио-данные. Работает на двух трансформерах: первый обрабатывает смешанный текст и аудио для создания базового звукового шаблона, а второй добавляет к нему детали для получения сочного звука. Чтобы сэкономить выч. ресурсы вторую модель учат на рандомном сабсете (1/16) аудиофреймов. Модель так хороша что отдельные фразы очень-очень сложно отличить от человеческой речи. Но если говорить долго (возможно вам потребуется два раза демку запустить 🙂 то все еще можно иногда услышать небольшие глитчи и странности в интонации, в смешках и придыханиях. И все равно это жесть как круто, я хочу такую модель в ""говорилке"" chatGPT. Еще пишут что модель анализирует весь предыдущий разговор, чтобы выбрать правильную манеру произнесения текущей фразы - с нужной интонацией, скоростью и эмоциональным окрасом. Волосы дыбом 🙂 Очень крутая штука. Я так и не понял откуда Sesame берут деньги, но надеюсь что у них оно не кончится – про пересечение зловещей долины __вообще не кликбейт.__ Отправь другу, пусть тоже кринжанет с кайфом 😐"
"Пересекая зловещую долину ""conversational voice"". Помните, я вчера…
Из этого канала
- #234Вообще не вижу проблемы в том что компилятор тайпскрипта решили именно на Go…
Вообще не вижу проблемы в том что компилятор тайпскрипта решили именно на Go переписать. Ну, да.
- #235Привет, вот следующие чтиво из моих изучений системной инженерии 😎 Мы все еще…
Привет, вот следующие чтиво из моих изучений системной инженерии 😎 Мы все еще продолжаем в основы рациональности, точнее рац. работы.
- #236Пока мейнстрим в припадке хайпа бьется головой о стену ограничений LLM (во всех…
Пока мейнстрим в припадке хайпа бьется головой о стену ограничений LLM (во всех смыслах – и ограничений API крупных сеток, и дороговизны+сложности обучения…
- #232Вообще, конечно, никакой это не протокол. (Я в кавычках сразу написал 😋) Под…
Вообще, конечно, никакой это не протокол. (Я в кавычках сразу написал 😋) Под капотом совсем ничего нового, максимально плоско и намного более плоско и тупо чем…
- #231Так а что это получается в Anthropic реально все 🧠 собрались? Мое почтение за…
Так а что это получается в Anthropic реально все 🧠 собрались? Мое почтение за MCP это прям отличный ход.