GPT-Realtime-2, Translate и Whisper: OpenAI обновила голосовые модели в API

OpenAI представила сразу три голосовые модели в API: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая получила рассуждения уровня GPT-5 и умеет работать с инструментами прямо во время разговора. Вторая переводит речь с 70+ входных языков на 13 выходных в реальном времени. Третья обеспечивает потоковую транскрибацию с низкой задержкой.

GPT-Realtime-2 это первая голосовая модель, которая использует рассуждения уровня GPT-5. Она способна удерживать контекст беседы, обрабатывать сложные составные запросы и вызывать инструменты без пауз в диалоге. В демо компания показала, как модель помогает спланировать меню для ужина за 30 минут, генерирует скрипт для объявления на мероприятии на японском или придумывает каверзные вопросы для тривиальной игры в дорогу. GPT-Realtime-Translate работает как синхронный переводчик: на входе 70+ языков, на выходе 13 целевых. Модель подстраивается под темп речи говорящего и сохраняет естественность перевода. Это открывает возможности для колл-центров, туристических сервисов и any-to-any коммуникации.

GPT-Realtime-Whisper это стриминговая модель для speech-to-text. В отличие от классического Whisper, она отдаёт транскрипцию по мере поступления речи, а не в конце фразы. Это снижает задержку и позволяет строить интерфейсы, где текст появляется одновременно с речью спикера.

От простого диалога к голосовым агентам

Компания описывает три паттерна, которые формируются в голосовой разработке. Voice-to-action - когда пользователь описывает задачу, а система рассуждает и действует: например, ассистент Zillow может выслушать запрос вроде «найди дома по моему бюджету, без шумных улиц, запиши на тур в субботу» и выполнить все шаги. Systems-to-voice - когда софт сам говорит пользователю: об изменениях в рейсе, обновлениях заказа или рекомендациях. Voice-to-voice - два агента общаются между собой, а человек выступает наблюдателем.

Все три модели прошли оценку безопасности. OpenAI заявляет, что встроила фильтрацию токсичного контента в аудиопотоке и проводит мониторинг в реальном времени. Цены и доступность указаны на странице релиза. Начать тестирование можно через API или веб-демо на сайте.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

GPT-Realtime-2, Translate и Whisper: OpenAI обновила голосовые модели в API

От простого диалога к голосовым агентам

Читайте также

GPT-5.5 Instant: ChatGPT поумнел и стал короче отвечать

Mistral Medium 3.5 объединяет чат, рассуждения и код в одной 128B-модели

ChatGPT Pro за $100/мес: OpenAI атакует Claude Code