Компания OpenAI анонсировала выпуск трех инновационных моделей, предназначенных для обработки голоса в реальном времени. Новинки призваны расширить возможности разработчиков в создании интерактивных приложений, предоставляя специализированные инструменты для различных задач.
Новые возможности для голосового взаимодействия
Представленные модели охватывают ключевые аспекты работы с аудио: глубокое логическое мышление, синхронный перевод и преобразование речи в текст. Основные новинки включают:
- GPT-Realtime-2 — модель с продвинутыми когнитивными способностями уровня GPT-5. Она адаптирована для ведения естественных диалогов, обработки сложных запросов, использования внешних инструментов и мгновенной реакции на прерывания или исправления со стороны пользователя.
- GPT-Realtime-Translate — специализированный инструмент для синхронного перевода. Система поддерживает распознавание более 70 языков и обеспечивает перевод на 13 выходных языков с минимальной задержкой, успевая за темпом речи говорящего.
- GPT-Realtime-Whisper — модель для потоковой транскрипции, которая преобразует голос в текстовый формат непосредственно в процессе разговора. Технология предназначена для создания субтитров в прямом эфире и ведения оперативных протоколов встреч.
Технические характеристики и стоимость доступа
Все три модели уже интегрированы в программный интерфейс (API) OpenAI. Стоимость использования инструментов распределяется следующим образом:
- GPT-Realtime-2: 32 доллара за 1 миллион входных аудио-токенов (0,40 доллара за кэшированные токены) и 64 доллара за 1 миллион выходных аудио-токенов.
- GPT-Realtime-Translate: 0,034 доллара за минуту работы.
- GPT-Realtime-Whisper: 0,017 доллара за минуту работы.
Разработчики могут протестировать новые решения в среде Playground. Компания ожидает, что внедрение этих технологий позволит сделать пользовательские интерфейсы более отзывчивыми и естественными.


