Национальный институт стандартов и технологий США ( NIST ) опубликовал результаты тестирования DeepSeek V4 Pro - модель показала конкурентные результаты в автоматическом написании и исправлении кода.
NIST известен независимым тестированием AI-систем. Исследование CAISI (Catapulting the Advancement of Software Engineering) оценивало способность моделей решать реальные задачи программирования.
DeepSeek V4 Pro набрала 77,6% на SWE-Bench Verified - на том же уровне, что и Mistral Medium 3.5 , представленная ранее. Для сравнения, лидеры рынка показывают результаты около 80-85%.
Что показало тестирование
Согласно отчёту NIST, DeepSeek V4 Pro продемонстрировала сильные результаты в нескольких категориях:
Генерация кода - модель корректно создаёт функции и модули по описанию. Исправление багов - хорошо справляется с анализом ошибок и предложением правок. Работа с контекстом - успешно обрабатывает длинные файлы и сложные зависимости.
При этом NIST отметил ряд ограничений: модель иногда генерирует синтаксически корректный, но логически неверный код. Также возникают проблемы с пониманием специфичных фреймворков и библиотек.
Контекст рынка
Результаты NIST подтверждают, что DeepSeek остаётся серьёзным конкурентом на рынке AI для разработки. Модель предлагается по более низкой цене, чем аналоги от Anthropic или OpenAI, что делает её привлекательной для enterprise-клиентов.
Для индустрии в целом это означает усиление конкуренции в сегменте AI-кодинга. Появление DeepClaude и других инструментов на базе DeepSeek создаёт давление на цены и стимулирует дальнейшее развитие возможностей.