OpenAI представила сразу три голосовые модели в API: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая получила рассуждения уровня GPT-5 и умеет работать с инструментами прямо во время разговора. Вторая переводит речь с 70+ входных языков на 13 выходных в реальном времени. Третья обеспечивает потоковую транскрибацию с низкой задержкой.

GPT-Realtime-2 это первая голосовая модель, которая использует рассуждения уровня GPT-5. Она способна удерживать контекст беседы, обрабатывать сложные составные запросы и вызывать инструменты без пауз в диалоге. В демо компания показала, как модель помогает спланировать меню для ужина за 30 минут, генерирует скрипт для объявления на мероприятии на японском или придумывает каверзные вопросы для тривиальной игры в дорогу. GPT-Realtime-Translate работает как синхронный переводчик: на входе 70+ языков, на выходе 13 целевых. Модель подстраивается под темп речи говорящего и сохраняет естественность перевода. Это открывает возможности для колл-центров, туристических сервисов и any-to-any коммуникации.

GPT-Realtime-Whisper это стриминговая модель для speech-to-text. В отличие от классического Whisper, она отдаёт транскрипцию по мере поступления речи, а не в конце фразы. Это снижает задержку и позволяет строить интерфейсы, где текст появляется одновременно с речью спикера.

От простого диалога к голосовым агентам

Компания описывает три паттерна, которые формируются в голосовой разработке. Voice-to-action - когда пользователь описывает задачу, а система рассуждает и действует: например, ассистент Zillow может выслушать запрос вроде «найди дома по моему бюджету, без шумных улиц, запиши на тур в субботу» и выполнить все шаги. Systems-to-voice - когда софт сам говорит пользователю: об изменениях в рейсе, обновлениях заказа или рекомендациях. Voice-to-voice - два агента общаются между собой, а человек выступает наблюдателем.

Все три модели прошли оценку безопасности. OpenAI заявляет, что встроила фильтрацию токсичного контента в аудиопотоке и проводит мониторинг в реальном времени. Цены и доступность указаны на странице релиза. Начать тестирование можно через API или веб-демо на сайте.