Обновлено 25.12.2024 Новости #Нейросети

Alibaba представила новую ИИ-модель QVQ для анализа изображений

Alibaba Cloud анонсировала мультимодальную ИИ-модель QVQ-72B-Preview, способную анализировать изображения и графики для решения сложных задач. Это модель с открытым исходным кодом, доступная на GitHub и в демоверсии на Hugging Face.

Разработчики утверждают, что QVQ-72B превосходит конкурентов в математике, включая o1 и GPT-4o от OpenAI, а также Claude 3.5 Sonnet. Примечательно, что модель понимает запросы на русском, но рассуждения формулирует на английском, а итоговые ответы — на языке пользователя.

Особенности QVQ-72B:

Обработка мультимодальных данных (текст и изображения).
Превосходство в математических задачах.
Открытый код и доступная лицензия Apache 2.0.
Возможность менять язык вывода и выдавать развернутые объяснения.

Модель пока экспериментальная, разработчики предупреждают о возможной многословности без четких выводов. Это продолжение линейки: в ноябре 2024 года Alibaba представила QVQ-32B-Preview, которая поддерживает контекст до 32 тысяч слов и также доступна на Hugging Face.

Alibaba представила новую ИИ-модель QVQ для анализа изображений

Свежие новости