Alibaba представила новую ИИ-модель QVQ для анализа изображений
Alibaba Cloud анонсировала мультимодальную ИИ-модель QVQ-72B-Preview, способную анализировать изображения и графики для решения сложных задач. Это модель с открытым исходным кодом, доступная на GitHub и в демоверсии на Hugging Face.
Разработчики утверждают, что QVQ-72B превосходит конкурентов в математике, включая o1 и GPT-4o от OpenAI, а также Claude 3.5 Sonnet. Примечательно, что модель понимает запросы на русском, но рассуждения формулирует на английском, а итоговые ответы — на языке пользователя.
Особенности QVQ-72B:
- Обработка мультимодальных данных (текст и изображения).
- Превосходство в математических задачах.
- Открытый код и доступная лицензия Apache 2.0.
- Возможность менять язык вывода и выдавать развернутые объяснения.
Модель пока экспериментальная, разработчики предупреждают о возможной многословности без четких выводов. Это продолжение линейки: в ноябре 2024 года Alibaba представила QVQ-32B-Preview, которая поддерживает контекст до 32 тысяч слов и также доступна на Hugging Face.