Тестирование нейросети Kling: плюсы и минусы
В сети появились первые результаты тестирования китайской нейросети Kling для генерации видео. Публикуем основные выводы.
Технические ограничения
- Длина видео: 5 секунд (заявленное время – до 2 минут).
- Время генерации: около 3 минут.
- Используемые видеокарты: A100 (из-за запрета на поставки H100 в Китай).
Качество видео
Аниме: видео в стиле аниме получилось не слишком впечатляющим. Скорее, похоже на фильтр, который наложили на реальное видео.
Реалистичность людей: Kling показал высокое качество при генерации людей и лиц. Видео с человеком, поедающим пасту, выглядит весьма реалистично – от пальцев рук до мимики лица. Но модель не смогла корректно сгенерировать образ Вилла Смита, и были замечены небольшие артефакты на ногах женщины и глазах программиста в других видео.
Панда и паркур: панда, выполняющая паркур, сгенерирована без артефактов, но движения практически отсутствуют.
Интеракции с предметами: смена колеса на автомобиле выглядит забавно, что может быть связано с недостатком сложных взаимодействий человека с предметами в датасете.
Галактика: видео с галактикой выглядит интересно, но похоже на увеличение статичного фото.
Итог
В целом Kling показал себя как неплохая модель для генерации видео с хорошим качеством, особенно когда речь идет о людях. Однако она страдает от недостатка движения (общая проблема многих text2video моделей).