NVIDIA выпустила Nemotron 3 Nano Omni для анализа документов, аудио и видео

Компания NVIDIA выпустила Nemotron 3 Nano Omni — омнимодальную модель для анализа документов, аудио и видео. Модель понимает текст, изображения, видео и звук одновременно.

Архитектура использует Nemotron 3 Nano 30B-A3B как основу: 23 слоя Mamba, 23 слоя смеси экспертов с 128 экспертами, 6 слоев внимания. Vision encoder — C-RADIOv4-H, audio encoder — Parakeet-TDT-0.6B-v2.

Модель анализирует документы до 100+ страниц, включая PDF с таблицами и формулами. Распознаёт речь до 20 минут аудио с разными акцентами и шумом. Совместно обрабатывает видео и звук для обучающих материалов и записей встреч.

Для агентов

Модель понимает графический интерфейс и может автоматизировать действия на основе скриншотов. Многошаговые рассуждения между модальностями позволяют решать задачи, требующие анализа нескольких типов данных.

На бенчмарках превосходит Qwen3-Omni 30B: документы — 57.5 против 49.5, видео — 72.2 против 70.5, голос — 89.4 против 88.8. Доступна в форматах BF16, FP8 и NVFP4 на Hugging Face.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

NVIDIA выпустила Nemotron 3 Nano Omni для анализа документов, аудио и видео

Для агентов

Читайте также

Anthropic выпустила коннекторы Claude для творческих инструментов

Google добавил в Gemini персональную генерацию изображений с опорой на ваши фото

Meta ИИ взлетела на 5-е место в App Store после запуска Muse Spark