NIST протестировал DeepSeek V4 Pro: результаты для AI-кодинга

Национальный институт стандартов и технологий США ( NIST ) опубликовал результаты тестирования DeepSeek V4 Pro - модель показала конкурентные результаты в автоматическом написании и исправлении кода.

NIST известен независимым тестированием AI-систем. Исследование CAISI (Catapulting the Advancement of Software Engineering) оценивало способность моделей решать реальные задачи программирования.

DeepSeek V4 Pro набрала 77,6% на SWE-Bench Verified - на том же уровне, что и Mistral Medium 3.5 , представленная ранее. Для сравнения, лидеры рынка показывают результаты около 80-85%.

Что показало тестирование

Согласно отчёту NIST, DeepSeek V4 Pro продемонстрировала сильные результаты в нескольких категориях:

Генерация кода - модель корректно создаёт функции и модули по описанию. Исправление багов - хорошо справляется с анализом ошибок и предложением правок. Работа с контекстом - успешно обрабатывает длинные файлы и сложные зависимости.

При этом NIST отметил ряд ограничений: модель иногда генерирует синтаксически корректный, но логически неверный код. Также возникают проблемы с пониманием специфичных фреймворков и библиотек.

Контекст рынка

Результаты NIST подтверждают, что DeepSeek остаётся серьёзным конкурентом на рынке AI для разработки. Модель предлагается по более низкой цене, чем аналоги от Anthropic или OpenAI, что делает её привлекательной для enterprise-клиентов.

Для индустрии в целом это означает усиление конкуренции в сегменте AI-кодинга. Появление DeepClaude и других инструментов на базе DeepSeek создаёт давление на цены и стимулирует дальнейшее развитие возможностей.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

NIST протестировал DeepSeek V4 Pro: результаты для AI-кодинга

Что показало тестирование

Контекст рынка

Читайте также

Ян ЛеКун запустил AMI Labs и снова спорит с доминированием LLM

Google упростила дообучение LLM на TPU: MaxText получил SFT и RL на одноузловых конфигурациях

Muse Spark: Meta создала конкурентную модель, но отказалась от открытого кода