OpenAI представила голосовые модели с рассуждениями в API

Компания OpenAI представила три новые голосовые модели в API, которые умеют рассуждать, переводить и транскрибировать речь в реальном времени.

GPT‑Realtime‑2 - первая голосовая модель с рассуждениями уровня GPT‑5. Она понимает сложные запросы и поддерживает естественное продолжение диалога. GPT‑Realtime‑Translate переводит речь с 70+ языков на 13 целевых в реальном времени, сохраняя темп говорящего. GPT‑Realtime‑Whisper обеспечивает потоковую расшифровку речи с низкой задержкой.

Новые модели открывают два основных сценария. Voice-to-action - когда пользователь описывает задачу голосом, а система рассуждает, использует инструменты и выполняет действие. Компания Zillow уже строит ассистента, который может искать дома по критериям и записывать на просмотр. Systems-to-voice - когда софт превращает данные в живое голосовое сопровождение. Например, приложение для путешествий может подсказать задержан рейс, предложить новый выход на посадку и проложить маршрут по терминалу.

Модели уже доступны в API с тарификацией по токенам. Детали pricing опубликованы на странице релиза.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

OpenAI представила голосовые модели с рассуждениями в API

Другие молнии