Новая модель DeepSeek-V3 конкурирует с GPT-4o и Sonnet 3.5
Китайская компания DeepSeek представила новую модель ИИ — DeepSeek-V3. Она содержит 671 млрд параметров MoE, из которых 37 млрд активны. Модель способна генерировать до 60 токенов в секунду и полностью опенсорсна.
Модель показывает отличные результаты в решении математических задач и написании кода. В общих тестах DeepSeek-V3 обходит Llama 405B и конкурирует с Sonnet 3.5 и GPT-4o.
Для ее тренировки использовали 14.8 трлн токенов. Процесс прошёл без откатов, заняв 2.78 млн H800 часов. Архитектурные изменения включают возможность предсказания двух токенов за раз (ускорение на 80%) и обновлённый механизм MoE-слоя с упрощённым роутером.
Стоимость
— до 8 февраля — как у V2.
— после — $0.27/млн токенов (на входе — $0.07/млн).
Это делает модель одной из самых доступных среди мощных аналогов, дешевле Sonnet 3.5 и GPT-4o в 10 раз.