xAI Илона Маска официально анонсировали text2image модель Aurora
После субботнего релиза, а затем исчезновения на какое-то время, xAI наконец-то представили модель Aurora, которая отличается от привычных диффузионных аналогов. Вместо создания изображения из шума за несколько шагов, Aurora работает как авторегрессионная модель. Она генерирует изображение по частям, сверху вниз, кусочками — токенами, как будто изображение загружается при медленном интернете.
Преимущества:
- Универсальность архитектуры. Aurora использует Mixture of Experts (MoE), как и первая версия модели Grok. Такой подход позволяет применять схожие оптимизации, что особенно полезно для работы с текстом и изображениями одновременно.
- Интеграция с LLM. Подход Aurora позволяет использовать оптимизации, которые уже применяются в языковых моделях, ускоряя их совместное использование.
Недостатки:
- Скорость. Генерация идет поэтапно — токен за токеном, что замедляет процесс.
- Качество. Видна гранулярность изображения. Это может быть связано с увеличенным размером токенов, чтобы ускорить обработку.
Редактирование изображений
Aurora позволяет вносить изменения в уже готовые изображения по текстовому описанию. При этом модель меняет только указанные детали, не искажая остальную часть картинки. Пока эта функция недоступна, но обещана в ближайших обновлениях.
Попробовать модель можно бесплатно через учетную запись в X (ex Twitter).