Компания Meta представила Muse Spark — первую мультимодальную модель рассуждений от Meta Superintelligence Labs. Модель поддерживает инструменты, визуальное мышление и мультиагентную оркестрацию.

Muse Spark умеет мультимодальное восприятие, рассуждения и агентные задачи. Режим Contemplating позволяет нескольким агентам рассуждать параллельно, обмениваясь промежуточными результатами.

Для визуальных задач модель решает задачи по STEM, распознаёт объекты и локализует их на изображениях. В здравоохранении обучалась с более чем 1000 врачей для точных ответов о здоровье.

Результаты тестов

На Humanity's Last Exam модель набрала 58%, на FrontierScience Research — 38%. Результаты сопоставимы с Gemini Deep Think и GPT Pro. Предварительное обучение требует на порядок меньше вычислений, чем предыдущая модель Llama 4 Maverick.

Модель доступна на meta.ai, в приложении Meta AI и через приватный API для избранных пользователей.