Active listening, стек для real-time видеодиалога с аватаром и открытая модель.… — @r77_ai

Active listening, стек для real-time видеодиалога с аватаром и открытая модель. Наши друзья из avaturn.live сделали крутой проект с актив листенингом, зацените: Представьте видеозвонок, где вместо живого человека на экране — цифровой аватар: он выглядит и звучит почти как реальный собеседник. Такие решения уже используют в ассистентах, обучении и клиентской поддержке. Но есть нюанс: такие аватары уже научились синхронизировать губы с речью, а вот слушать — пока нет. Когда говорит человек, аватар часто выглядит как персонаж на паузе: смотрит статично, почти не реагирует и просто ждет своей реплики. Диалог из-за этого быстро становится искусственным. Ребята из Avaturn.live как раз взялись за эту проблему и выложили AVTR-1 — открытую модель и стек для real-time видеодиалога с аватаром. Это не просто генератор видео: AVTR-1 позволяет запустить живую сессию, где аватар отвечает пользователю в реальном времени, слушает и реагирует на собеседника. Для создания аватара достаточно одной фотографии человека. Для самой сессии нужны два аудиопотока: речь аватара и речь человека напротив. Главная фишка — active listening: модель учитывает речь собеседника, и за счет этого диалог выглядит естественнее. По железу: • RTX 3070 / 4060 Ti — реалтайм • A100 / L40 — 2x быстрее реалтайма Что в релизе: • веса модели • инференс-стек, оптимизированный под TensorRT • демо и код для запуска живой диалоговой сессии Если поднимать у себя ничего не хочется — просто зайдите на avaturn.live и потестируйте аватара прямо в браузере, без регистрации и возни с TensorRT. Поддержите релиз звездой на GitHub — и, конечно, пробуйте собирать свои продукты с аватарами. 🔗 GitHub: https://github.com/avaturn-live/avtr-1 🌐 Демо в браузере: https://avaturn.live/demo 🤗 Hugging Face: https://huggingface.co/avaturn-live/avtr-1

Из этого канала