OpenAI представила новые аудиомодели для голосовых ИИ-сервисов в реальном времени
OpenAI объявила о запуске трех новых аудиомоделей для API, которые позволяют реализовать голосовые ИИ-сервисы с функциями реального времени, такими как перевод, транскрипция и поддержка сложных диалогов.
Первая из новых моделей, GPT-Realtime-2, предлагает улучшенный уровень диалога, способный поддерживать более длительные и сложные разговоры. Модель может одновременно использовать несколько инструментов, реагировать на изменения контекста и работать с специализированной терминологией. Дополнительно разработчики могут настраивать уровень рассуждений модели от минимального до высокого. В тестах Big Bench Audio и Audio MultiChallenge GPT-Realtime-2 показала улучшенные результаты по сравнению с предыдущей версией.
Вторая модель, GPT-Realtime-Translate, предназначена для мгновенного голосового перевода. Она поддерживает более 70 языков ввода и 13 языков вывода и уже проходит тестирование в международных звонках и в сфере клиентской поддержки, в частности в компании Deutsche Telekom и стартапе BolnaAI.
Третья модель, GPT-Realtime-Whisper, разработана для реального времени транскрипции речи, что делает ее идеальной для субтитрирования, записи заметок во время звонков и автоматизации работы голосовых агентов.
Все три модели уже доступны для использования через Realtime API. Стоимость услуг с использованием моделей варьируется: GPT-Realtime-2 стоит 32 доллара за миллион аудиотокенов на входе и 64 доллара на выходе; GPT-Realtime-Translate — 0,034 доллара за минуту, а GPT-Realtime-Whisper — 0,017 доллара за минуту.
Этот шаг является важным в развитии голосового взаимодействия в ИИ-технологиях, что может значительно облегчить международные коммуникации и автоматизировать многие бизнес-процессы. Эксперты прогнозируют, что новые модели OpenAI могут стать значительным шагом вперед в области обработки естественного языка.
| Модель | Функция | Стоимость |
|---|---|---|
| GPT-Realtime-2 | Улучшенный диалог | 32 доллара на входе, 64 доллара на выходе |
| GPT-Realtime-Translate | Перевод в реальном времени | 0,034 доллара за минуту |
| GPT-Realtime-Whisper | Транскрипция в реальном времени | 0,017 доллара за минуту |




