Компания OpenAI выпустила новое поколение моделей на базе GPT-4o для работы с речью. Новые технологии позволяют качественно преобразовывать текст в голосовое сообщение, транскрибировать аудиозаписи и распознавать речь в реальном времени с поддержкой более 100 языков, включая русский.
Пользователям доступны 11 различных голосов, характер и эмоциональную окраску которых можно настраивать с помощью текстовых описаний. Например, можно создать голос, звучащий как «безумный учёный» или «средневековый рыцарь».
Попробовать технологию преобразования текста в речь можно бесплатно на сайте OpenAI.fm с ограничением в 1 000 символов за один запрос. Для разработчиков модели доступны через API с оплатой по тарифам: от $0,003 до $0,006 за минуту входного аудио для распознавания речи и $0,015 за минуту сгенерированной речи.
По заявлению компании, новые модели значительно превосходят предыдущие решения, включая Whisper, делая меньше ошибок в распознавании слов, лучше работая в шумной обстановке и реже «галлюцинируя». В отличие от Whisper, OpenAI не планирует публиковать открытый исходный код новых моделей.