DeepSeek-V4: открытая модель с миллионным контекстом для агентов

Компания DeepSeek выпустила четвёртое поколение своих моделей. DeepSeek-V4-Pro насчитывает 1.6 триллиона параметров с 49 миллиардами активных на запрос. Контекст — 1 миллион токенов.

Модель использует архитектуру MoE с гибридным вниманием. CSA сжимает записи в 4 раза, HCA — в 128 раз. Это снижает потребление памяти до 2% от стандартного подхода.

Линейка включает четыре варианта: V4-Pro, V4-Flash, V4-Pro-Base и V4-Flash-Base. Flash-версия имеет 284 миллиарда параметров с 13 миллиардами активных. Base-версии поставляются без инструктивной настройки.

Возможности для агентов

Перекрёстное мышление сохраняет цепочку рассуждений через границы сообщений при вызове инструментов. Схема вызовов использует формат на основе XML вместо JSON, что снижает ошибки экранирования.

Платформа DSec на Rust позволяет обучать агентов через reinforcement learning. Поддерживает вызовы функций, контейнеры, микровиртуальные машины и полноценные виртуальные машины. Сотни тысяч конкурентных изолированных сред.

Результаты тестов

На SWE Verified модель набрала 80.6%, на уровне Opus-4.6-Max и Gemini-3.1-Pro. Terminal Bench 2.0 — 67.9%, отстаёт от GPT-5.4-xHigh с 75.1%. MCPAtlas — 73.6%, близко к лидеру Opus-4.6-Max с 73.8%.

Опрос 85 разработчиков показал: 52% готовы заменить основную модель на V4-Pro. Модель не достигла лидерства по общим знаниям, но стала первой среди открытых моделей для агентских задач.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

DeepSeek-V4: открытая модель с миллионным контекстом для агентов

Возможности для агентов

Результаты тестов

Читайте также

Waypoint-1.5: интерактивные миры для обычных видеокарт

Moonshot открыла исходный код Kimi K2.6: новый уровень агентного программирования

OpenAI запустила Daybreak - платформу кибербезопасности на базе GPT-5.5