Обновлено 26.08.2025 Новости #Нейросети

VibeVoice: новая модель Microsoft создает записи до 90 минут по текстовому сценарию

Исследовательская команда Microsoft анонсировала инструмент, способный создавать звуковые дорожки продолжительностью до полутора часов.

Модель работает по текстовым сценариям, распределяет реплики между персонажами (до четырех в одном проекте) и может сопровождать речь музыкой или передавать эмоциональную интонацию диалога.

Сейчас VibeVoice поддерживает английский и китайский языки. В публичный доступ выложена бесплатная демоверсия, где каждое сгенерированное аудио снабжается пометкой о том, что оно создано искусственным интеллектом.

Кроме того, компания открыла исходный код и веса двух модификаций модели:

VibeVoice-1.5B — обрабатывает до 64 тысяч токенов и формирует записи до 90 минут;
VibeVoice-7B — поддерживает контекст в 32 тысячи токенов и может генерировать до 45 минут аудио.

VibeVoice: новая модель Microsoft создает записи до 90 минут по текстовому сценарию

Свежие новости