Обновлено 26.11.2024 Новости #Нейросети

NVIDIA представила гибкую аудиомодель Fugatto

NVIDIA представила Fugatto — новую генеративную аудиомодель, которая умеет создавать и трансформировать звуки, музыку и голоса по текстовым и аудио-запросам. Это инструмент для креаторов, который способен делать все: от добавления инструментов в трек до создания абсолютно новых звуков.

Как это работает?

Fugatto — это трансформер с 2,5 млрд параметров, обученный на миллионах звуков. В основе работы — масштабные GPU-системы NVIDIA DGX.

Команда из исследователей разных стран потратила больше года на разработку, чтобы модель:

понимала разные акценты и языки;
генерировала нестандартные сценарии;
не требовала дообучения для новых задач.

Чем отличается Fugatto?

1. Все в одном

Fugatto объединяет функции сразу нескольких AI-моделей:

Генерация музыки по тексту.
Изменение акцентов, эмоций и даже характера голоса.
Добавление или удаление инструментов из трека.
Создание новых звуков, которых никогда не существовало.

2. Уникальные возможности

Сложные комбинации: например, текст можно озвучить с грустью и французским акцентом, задавая уровень каждого параметра.
Динамичные звуки: можно создать, например, гром, переходящий в утреннее пение птиц.
Автономность: Fugatto создает звуки, которых не было в данных для обучения. Например, Fugatto может заставить трубу лаять или саксофон мяукать. Что бы пользователи ни описали, модель может это воплотить.

О массовом запуске ИИ-модели пока не сообщается.

NVIDIA представила гибкую аудиомодель Fugatto

Как это работает?

Чем отличается Fugatto?

1. Все в одном

2. Уникальные возможности

Свежие новости