Компания OpenAI представила три новые голосовые модели в API, которые умеют рассуждать, переводить и транскрибировать речь в реальном времени.
GPT‑Realtime‑2 - первая голосовая модель с рассуждениями уровня GPT‑5. Она понимает сложные запросы и поддерживает естественное продолжение диалога. GPT‑Realtime‑Translate переводит речь с 70+ языков на 13 целевых в реальном времени, сохраняя темп говорящего. GPT‑Realtime‑Whisper обеспечивает потоковую расшифровку речи с низкой задержкой.
Новые модели открывают два основных сценария. Voice-to-action - когда пользователь описывает задачу голосом, а система рассуждает, использует инструменты и выполняет действие. Компания Zillow уже строит ассистента, который может искать дома по критериям и записывать на просмотр. Systems-to-voice - когда софт превращает данные в живое голосовое сопровождение. Например, приложение для путешествий может подсказать задержан рейс, предложить новый выход на посадку и проложить маршрут по терминалу.
Модели уже доступны в API с тарификацией по токенам. Детали pricing опубликованы на странице релиза.