Если вы разрабатываете голосовых ассистентов, то обратите внимание на то, что… — @cdo_club

Если вы разрабатываете голосовых ассистентов, то обратите внимание на то, что Google запустил Live API для Gemini — теперь голос и видео можно обрабатывать в реальном времени с максимально естественными ответами ассистента. Что важно: • Низкая задержка: потоковый ввод (аудио/видео/текст) и мгновенные устные ответы. • Новый нативный аудио‑модельный стек: «gemini-2.5-flash-native-audio-preview-09-2025» звучит естественнее, лучше работает с несколькими языками и поддерживает эмоции, «прокативную» (proactive) речь и «thinking»-режим. • Tool use и function calling: модель сама вызывает функции и инструменты в диалоге. • VAD и сессии: Voice Activity Detection + полноценное управление долгими разговорами. • Безопасная клиентская интеграция: эфемерные токены вместо обычных API‑ключей для браузера. • Простое подключение: WebSockets (client‑to‑server или server‑to‑server), готовые партнерские интеграции через WebRTC (Daily, LiveKit, Voximplant). Для кого это прорыв: — Голосовые ассистенты, коллботы, «живые» интерфейсы поддержки. — Реал‑тайм мультимодальные приложения с видео и аудио. — Сценарии, где важны эмоции, естественная речь и быстрый отклик. Бонус: можно отправлять аудио в 16‑бит PCM 16 кГц, а ответы приходят в аудио 24 кГц — примеры на Python и JS уже доступны. https://ai.google.dev/gemini-api/docs/live

Из этого канала