Компания NVIDIA выпустила Nemotron 3 Nano Omni — омнимодальную модель для анализа документов, аудио и видео. Модель понимает текст, изображения, видео и звук одновременно.

Архитектура использует Nemotron 3 Nano 30B-A3B как основу: 23 слоя Mamba, 23 слоя смеси экспертов с 128 экспертами, 6 слоев внимания. Vision encoder — C-RADIOv4-H, audio encoder — Parakeet-TDT-0.6B-v2.

Модель анализирует документы до 100+ страниц, включая PDF с таблицами и формулами. Распознаёт речь до 20 минут аудио с разными акцентами и шумом. Совместно обрабатывает видео и звук для обучающих материалов и записей встреч.

Для агентов

Модель понимает графический интерфейс и может автоматизировать действия на основе скриншотов. Многошаговые рассуждения между модальностями позволяют решать задачи, требующие анализа нескольких типов данных.

На бенчмарках превосходит Qwen3-Omni 30B: документы — 57.5 против 49.5, видео — 72.2 против 70.5, голос — 89.4 против 88.8. Доступна в форматах BF16, FP8 и NVFP4 на Hugging Face.