Zyphra представила ZAYA1-8B - открытую модель с 8 млрд параметров на AMD MI300

Zyphra выпустила ZAYA1-8B - рассуждающую модель с 8 миллиардами параметров, которая обходится всего 760 миллионами активных при инференсе. При этом она демонстрирует результаты на уровне DeepSeek-V3.2 на сторонних бенчмарках.

Главная особенность - обучение на AMD Instinct MI300. До сих пор Nvidia удерживала приоритетное положение среди разработчиков ИИ-моделей. Zyphra показала, что платформа AMD способна производить конкурентоспособные модели и стала жизнеспособной альтернативой.

Модель построена на проприетарной архитектуре MoE++. Три фундаментальных изменения в стандартной архитектуре Transformer обеспечили высокую эффективность.

Архитектурные инновации ZAYA1-8B

Compressed Convolutional Attention выполняет смешивание последовательностей в сжатом латентном пространстве. Это даёт восьмикратное сокращение размера кэша ключ-значение по сравнению со стандартным multi-head attention и позволяет эффективнее обрабатывать длинные контексты.

ZAYA1 MLP Router заменил линейный маршрутизатор на более выразительный многослойный дизайн. Для стабильности при обучении разработчики применили схему балансировки смещений, вдохновлённую ПИД-регуляторами из классической теории управления.

Learned Residual Scaling управляет ростом остаточной нормы при прохождении данных через 40 слоёв модели. Это предотвращает исчезающие или взрывающиеся градиенты без существенных вычислительных затрат.

Обучение с фокусом на рассуждения

Критическое отличие ZAYA1-8B - рассуждения интегрированы с самого начала претрейнинга, а не добавлены на этапе постобучения. Для работы с длинными chain-of-thought трассами Zyphra разработала Answer-Preserving Trimming - метод обрезки «середины» рассуждений с сохранением постановки задачи и итогового ответа.

Модель доступна бесплатно на Hugging Face под лицензией Apache 2.0. Корпоративные пользователи и независимые разработчики могут сразу начать использовать и кастомизировать модель под свои задачи. Также есть бесплатный доступ через облачный сервис Zyphra Cloud.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Zyphra представила ZAYA1-8B - открытую модель с 8 млрд параметров на AMD MI300

Архитектурные инновации ZAYA1-8B

Обучение с фокусом на рассуждения

Читайте также

DeepClaude: Claude Code с мозгом DeepSeek в 17 раз дешевле

Orbit: проактивный ассистент от Anthropic для брифингов из GitHub и Figma

OpenAI обновила Agents SDK: встроенная песочница и обвязка для продакшена