NVIDIA представила гибкую аудиомодель Fugatto
NVIDIA представила Fugatto — новую генеративную аудиомодель, которая умеет создавать и трансформировать звуки, музыку и голоса по текстовым и аудио-запросам. Это инструмент для креаторов, который способен делать все: от добавления инструментов в трек до создания абсолютно новых звуков.
Как это работает?
Fugatto — это трансформер с 2,5 млрд параметров, обученный на миллионах звуков. В основе работы — масштабные GPU-системы NVIDIA DGX.
Команда из исследователей разных стран потратила больше года на разработку, чтобы модель:
- понимала разные акценты и языки;
- генерировала нестандартные сценарии;
- не требовала дообучения для новых задач.
Чем отличается Fugatto?
1. Все в одном
Fugatto объединяет функции сразу нескольких AI-моделей:
- Генерация музыки по тексту.
- Изменение акцентов, эмоций и даже характера голоса.
- Добавление или удаление инструментов из трека.
- Создание новых звуков, которых никогда не существовало.
2. Уникальные возможности
- Сложные комбинации: например, текст можно озвучить с грустью и французским акцентом, задавая уровень каждого параметра.
- Динамичные звуки: можно создать, например, гром, переходящий в утреннее пение птиц.
- Автономность: Fugatto создает звуки, которых не было в данных для обучения. Например, Fugatto может заставить трубу лаять или саксофон мяукать. Что бы пользователи ни описали, модель может это воплотить.
О массовом запуске ИИ-модели пока не сообщается.