Обновлено 26.11.2024 Новости #Нейросети

NVIDIA представила гибкую аудиомодель Fugatto

NVIDIA представила Fugatto — новую генеративную аудиомодель, которая умеет создавать и трансформировать звуки, музыку и голоса по текстовым и аудио-запросам. Это инструмент для креаторов, который способен делать все: от добавления инструментов в трек до создания абсолютно новых звуков.

Как это работает?

Fugatto — это трансформер с 2,5 млрд параметров, обученный на миллионах звуков. В основе работы — масштабные GPU-системы NVIDIA DGX.

Команда из исследователей разных стран потратила больше года на разработку, чтобы модель:

  • понимала разные акценты и языки;
  • генерировала нестандартные сценарии;
  • не требовала дообучения для новых задач.

Чем отличается Fugatto?

1. Все в одном

Fugatto объединяет функции сразу нескольких AI-моделей:

  • Генерация музыки по тексту.
  • Изменение акцентов, эмоций и даже характера голоса.
  • Добавление или удаление инструментов из трека.
  • Создание новых звуков, которых никогда не существовало. 

2. Уникальные возможности

  • Сложные комбинации: например, текст можно озвучить с грустью и французским акцентом, задавая уровень каждого параметра.
  • Динамичные звуки: можно создать, например, гром, переходящий в утреннее пение птиц.
  • Автономность: Fugatto создает звуки, которых не было в данных для обучения. Например, Fugatto может заставить трубу лаять или саксофон мяукать. Что бы пользователи ни описали, модель может это воплотить.

О массовом запуске ИИ-модели пока не сообщается.

 

 

Свежие новости

Все новости

В нашем Telegram-канале свежие новости о SMM, создании контента и креаторах. Около 5 постов в неделю. Кратко и с картинками.

Подписаться