VibeVoice: новая модель Microsoft создает записи до 90 минут по текстовому сценарию
Исследовательская команда Microsoft анонсировала инструмент, способный создавать звуковые дорожки продолжительностью до полутора часов.
Модель работает по текстовым сценариям, распределяет реплики между персонажами (до четырех в одном проекте) и может сопровождать речь музыкой или передавать эмоциональную интонацию диалога.
Сейчас VibeVoice поддерживает английский и китайский языки. В публичный доступ выложена бесплатная демоверсия, где каждое сгенерированное аудио снабжается пометкой о том, что оно создано искусственным интеллектом.
Кроме того, компания открыла исходный код и веса двух модификаций модели:
- VibeVoice-1.5B — обрабатывает до 64 тысяч токенов и формирует записи до 90 минут;
- VibeVoice-7B — поддерживает контекст в 32 тысячи токенов и может генерировать до 45 минут аудио.