OpenAI представила gpt-realtime — продвинутую модель для голосовых агентов с… — @cdo_club

OpenAI представила gpt-realtime — продвинутую модель для голосовых агентов с новыми API-возможностями. Технические новшества: - gpt-realtime — новая модель speech-to-speech, улучшенная по качеству аудио, пониманию инструкций и точности вызова функций. - API Realtime теперь поддерживает: Подключение к удалённым MCP-серверам (интеграция инструментов через URL, автоматизация вызова функций). Ввод изображений (можно отправлять фото/скриншоты вместе с аудио или текстом, модель анализирует визуальный контекст). SIP-телефонию (поддержка звонков через Session Initiation Protocol). - Аудио: Модель генерирует более естественную речь, умеет следовать тонким инструкциям (например, говорить быстро и профессионально или с акцентом). - Интеллект: Улучшено понимание аудио, распознавание невербальных сигналов, переключение языков в реальном времени, точное определение алфавитно-цифровых последовательностей на разных языках. Вся обработка аудио происходит в одной модели и через один API, что снижает задержки и сохраняет нюансы речи (в отличие от традиционных цепочек speech-to-text и text-to-speech). Отдельно хочу отметить улучшения безопасности: модель содержит встроенные классификаторы для предотвращения нарушений, возможность добавлять свои guardrails через Agents SDK. https://openai.com/index/introducing-gpt-realtime/

Из этого канала